用指数复合逆伽马Pareto模型分析保险数据

doi:10.12677/PM.2022.125080

期刊菜单

用指数复合逆伽马Pareto模型分析保险数据
Analysis of Insurance Data Using Exponential Compound Inverse-Gamma Pareto Model

DOI: 10.12677/PM.2022.125080, PDF, HTML, XML, 国家自然科学基金支持
作者: 潘文杰, 周菊玲^*：新疆师范大学数学科学学院，新疆乌鲁木齐
关键词: 逆伽马分布；Pareto分布；拟合优度；指数模型；保险数据建模；Inverse-Gamma Distribution； Pareto Distribution； Goodness of Fit； Exponentiated Models； Insurance Data Modeling

摘要: 指数模型已广泛应用于各种类型的数据建模，如生存数据以及保险索赔数据。然而，指数复合分布模型尚未被广泛探索。本文通过对与单参数逆伽玛Pareto复合分布函数相关的随机变量求指数，创造了一种改进的双参数逆伽玛Pareto复合模型，即指数复合逆伽马Pareto模型，并且很好地分析了挪威火险数据案例。得出双参数指数逆伽马Pareto模型在所有数据集的拟合优度测度方面优于单参数逆伽马Pareto模型的结论。

Abstract: Exponential models have been widely used to model various types of data, such as survival data and insurance claim data. However, exponential composite distribution models have not been widely explored. In this paper, an improved two-parameter inverse-gamma Pareto composite model, namely exponential composite inverse-gamma Pareto model, is created by taking exponents of random variables related to the single-parameter inverse-gamma Pareto composite distribution function, and a good case of Norwegian fire data is analyzed. It is concluded that the two-parameter exponential gamma Pareto model is superior to the single-parameter inverse-gamma Pareto model in the goodness of fit measure of all data sets.

文章引用：潘文杰, 周菊玲. 用指数复合逆伽马Pareto模型分析保险数据[J]. 理论数学, 2022, 12(5): 694-702. https://doi.org/10.12677/PM.2022.125080

1. 引言

理赔规模数据的建模是精算学的主要课题之一，一般情况下，索赔规模数据集是由数量大、规模小的索赔构成的。文献中常见的分布如指数分布、正态分布等并不存在整合索赔规模数据集所有特性的能力。因此，才有了用于建模索赔规模数据的复合分布的概念。基于这个概念，研究者开发了许多不同的组合模型包括对数正态Pareto [1]，指数Pareto [2]，威布尔Pareto [3] 等。大量可能的复合模型得到了探索 [4]。Pareto分布在应用统计中是常用的它一开始是由Pareto V [5] 作为收入的分布引入的。随着社会的发展，Pareto分布已被应用在很多领域，如社会学、保险精算学等，因此该分布具有很大的研究和应用价值 [6]。Pareto分布被认为是在大规模索赔中表现比较好的建模。然而，对于小规模索赔的建模，还有许多值得研究的地方。

Aminzadeh和Deng最近介绍了逆伽马Pareto模型 [7]，并认为它是有可能可以做到的。模型的数据集有一个重尾，如保险数据集。这是一个单参数的逆Pareto复合分布，它具有连续性和可微性等性质。然而，单参数逆伽玛Pareto模型对挪威火灾保险数据的预测效果不理想，这一点我们将在数值例子部分展示。具体来说，拟合的逆Pareto分布模式不够大，不足以描述在挪威火灾保险数据中频率高的小额索赔。因此，我们将通过引入一个附加参数来修改这个单参数逆伽玛Pareto模型。

指数分布最早是由Mudholkar和Srivastava [8] 提出。指数分布的主要思想是将现有分布的累积密度函数指数化。这意味着它增加了更多的额外的参数，使传统模型更具有灵活性，后来在Mudholkar和Srivastava的思想下被引入。例如Gupta和Kunda的对指数化指数的介绍 [9]；Nadaraja写的指数化贝塔，指数化Pareto和指数化的先驱伽马 [10]；Nadarajah和Gupta启动了伽马 [11] 的指数化，Afify建立了指数化威布尔Pareto [12]。然而，这些模型都不是用复合分布的累积密度函数建立的。此外，上面提到的所有指数分布都是通过对累积密度函数指数化而创建的，我们提出的逆伽马模型是通过取随机变量的指数来构造的复合分布。

文章使用著名的挪威火灾保险数据来评估指数化逆伽马Pareto的拟合优度。最后本文得到双参数指数化逆伽玛Pareto模型优于在两个数据集的拟合优度测量方面的一个参数逆伽马Pareto模型的结论。

本文的其余部分组织如下：第2节提供了指数逆伽马Pareto模型的推导、其行为的描述以及获得模型最大似然估计量的算法。我们简要总结了第3节中模拟研究的结果，以评估最大似然估计的准确性和一致性。在第4节中，给出了数值示例。第5节提供了结论。

2. 准备

2.1. 损失数据建模中的通用复合模型

设X为正实值随机变量，损失数据建模中复合模型的一般形式为 [13]：

$f X (x | α_{1}, α_{2}, θ, ϕ) = {\begin{cases} \frac{1}{1 + ϕ} f_{1}^{*} (x | α_{1}, θ) 0 < x \leq θ \\ \frac{1}{1 + ϕ} f_{2}^{*} (x | α_{2}, θ) 0 < x < \infty \end{cases}$

结合阈值 $θ$ 处的连续性和可微性条件：

${\begin{cases} \lim_{x \to θ -} f X (x | α_{1}, α_{2}, θ, ϕ) = \lim_{x \to θ +} f X (x | α_{1}, α_{2}, θ, ϕ) \\ \lim_{x \to θ -} \frac{f X (x | α_{1}, α_{2}, θ, ϕ)}{d x} = \lim_{x \to θ +} \frac{f X (x | α_{1}, α_{2}, θ, ϕ)}{d x} \end{cases}$

$f_{1}^{*}$ 为随机变量X取值在 $0 ~ θ$ 之间时的概率密度函数； $f_{2}^{*}$ 是当X取大于 $θ$ 的值时，随机变量X的概率密度函数的模型参数。 $ϕ$ 是一个正参数，控制 $f_{1}^{*}$ 和 $f_{2}^{*}$ 的权重，利用该理论，Aminzadeh和Deng [7] 建立了复合逆伽马Pareto模型。

假设已知一个随机变量X遵循复合逆Pareto分布，其概率分布函数格式如下：

$f X (x | θ) = {\begin{cases} \frac{c {(k θ)}^{α} x^{- α - 1} e^{- \frac{k θ}{x}}}{Γ (α)} 0 \leq x \leq θ \\ c (α - k) θ^{α - k} x > θ \end{cases}$ (1)

式中， $c = 0.711384$ ， $k = 0.144351$ ， $a = 0.163947$ ， $α = 0.308298$ 。因此，他们提出了逆伽玛Pareto模型只包含一个参数 $θ$ 。在下节，我们将具体讨论指数复合逆伽马Pareto分布的发展。

2.2. 指数复合逆伽马Pareto分布的优越性

现在假设对随机变量X进行指数变换，设 $Y = g (X) = X^{1 / η}$ ，对于任意的 $η > 0$ ，g是单调增的。其中 $X = g^{- 1} (Y) = Y^{η}$ 。对于任意 $η > 0$ ， $g^{- 1} (y) = y^{η}$ 在 $(0, \infty)$ 上有连续导数：

$f Y (y | θ, η) = {\begin{cases} \frac{c {(κ θ)}^{α} {(y^{n})}^{- α - 1} e^{- \frac{κ θ}{y^{n}}}}{Γ (α)} n y^{η - 1} 0 \leq y^{η} \leq θ \\ \frac{c (α - k) θ^{α - κ}}{{(y^{η})}^{α - κ + 1}} η y^{η - 1} y^{η} > θ \end{cases}$ (2)

易证明，上述指数复合逆伽马Pareto模型的密度函数在 $(0, \infty)$ 下是连续可微的。图1和图2表明了发展指数化逆伽马Pareto模型作为对逆伽马Pareto模型进行损失数据建模的改进的动机。 $θ$ 选择两个不同的值为5 (图1)和10 (图2)。对于每个 $θ$ 值， $η$ 值为1、5和10，其中 $η = 1$ 对应于原始的单参数逆伽马Pareto复合。

从图中可以看出，由于指数 $η$ 参数的引入，复合指数化逆伽马Pareto模型比单参数逆伽马Pareto模型更加的灵活。当 $θ$ 值固定时，复合函数对逆伽马Pareto指数化的模式随 $η$ 的增大而增大。

2.3. 参数估计

使 $y_{1}, \dots, y_{n}$ 是从(2)中给出的指数化复合概率密度函数的随机抽样，保留其普遍性。假设 $y_{1} < y_{2} < \dots < y_{n}$ 是从概率密度函数中生成的有序随机样本，似然函数可以写成

Figure 1. Compound exponential inverse-gamma Pareto density when $θ = 5$

图1. $θ = 5$ 时复合指数化逆伽马Pareto密度

Figure 2. Compound exponential inverse-gamma Pareto density when $θ = 10$

图2. $θ = 10$ 时复合指数化逆伽马Pareto密度

$\begin{matrix} L (y | θ, η) = \prod_{i = 1}^{m} \frac{c {(k θ)}^{α} {(y_{i}^{n})}^{- α - 1} e^{- \frac{k θ}{y_{i}^{n}}}}{Γ (α)} η y_{i}^{n - 1} \prod_{j = m + 1}^{n} \frac{c (α - k) θ^{α - k}}{{(y_{j}^{n})}^{α - k + 1}} η y_{j}^{n - 1} \\ = \frac{c^{n} η^{n} k^{α m} {(α - k)}^{n - m} {(\prod_{i = 1}^{m} (y_{i}^{η}))}^{- α - 1} y_{i}^{n - 1}}{{(Γ (α))}^{n} {(\prod_{i = m + 1}^{n} (y_{i}^{η}))}^{α - k + 1} y_{i}^{η - 1}} θ^{α m + (α - k) (n - m)} e^{- k θ \sum_{i = 1}^{m} \frac{1}{y_{i}^{η}}} \\ = Q θ^{α m + (α - k) (n - m)} e^{- k θ \sum_{i = 1}^{m} \frac{1}{y_{i}^{η}}} \end{matrix}$ (3)

其中

$Q = \frac{c^{n} η^{n} k^{α m} {(α - k)}^{n - m} {(\prod_{i = 1}^{m} (y_{i}^{η}))}^{- α - 1} y_{i}^{n - 1}}{{(Γ (α))}^{n} {(\prod_{i = m + 1}^{n} (y_{i}^{η}))}^{α - k + 1} y_{i}^{η - 1}}$

上述可能性假设 $y_{m}^{η} < θ < y_{m + 1}^{η}$ 。 $θ$ 和 $η$ 的最大可能性估计量可以通过求解下列方程得到：

${\begin{cases} \frac{\partial L (y | θ, η)}{\partial θ} = 0 \\ \frac{\partial L (y | θ, η)}{\partial η} = 0 \end{cases}$

$θ$ 和 $η$ 的极大似然估计无法得到封闭表达式。另外，在求上述方程的解之前，需要先确定m。然而，给出 $η$ 和m的值， $θ$ 的封闭解可以写成如下：

${\hat{θ} |}_{η, m} = \frac{α m + (α - k) (n - m)}{k \sum_{i = 1}^{m} \frac{1}{y_{i}^{η}}}$ (4)

因此，我们利用式(4)设计了一个简单的搜索算法来求 $θ$ 和 $η$ 的最大似然数。搜索算法的描述如下：

第一步：得到一个样本有序观测值为 $y_{1} \leq y_{2} \leq \dots \leq y_{n}$ 。

第二步：确定 $η$ 的范围，参数搜索将在预定义的范围内完成。注意，我们得到了原始的单参数逆伽马Pareto模型使得 $η = 1$ 。因此，搜索需要在 $η = 1$ 附近的区间内完成。

第三步：对于一个已知的 $η$ 范围，我们从 $m = 1$ 开始，根据(4)计算 $θ$ 给 $η$ 的最大似然估计。如果 $y_{1}^{η} \leq {\hat{θ} |}_{η, m} \leq y_{2}^{η}$ ，则 $m = 1$ 。否则跳转到步骤四。

第四步：令 $m = 2$ ，如果 $y_{2}^{η} \leq {\hat{θ} |}_{η, m} \leq y_{3}^{η}$ ，则 $m = 2$ ，继续上述步骤，直到确定。当m确定时，对已知的 $η$ ，保持 ${\hat{θ} |}_{η, m}$ 作为 $θ$ 的最大似然估计。

第五步：寻找最优的 $η$ ，即是 $L (y | θ, η)$ ，由式(4)求出相应的 $\hat{θ}$ ，这是 $η$ 和 $θ$ 的极大似然估计。

3. 数值模拟

我们进行了模拟研究，以检查 $\hat{θ}$ 和 $\hat{η}$ 估计的准确性。对选定的样品尺寸、 $θ$ 和 $η$ 值，从复合密度(2)中得到 $N = 5000$ 个样品。表1~6给出了不同场景下的所有模拟结果。 $\hat{θ}$ 平均值， $\hat{η}$ 平均值为 $\hat{θ}$ 和 $\hat{η}$ 的样本平均值；为 $\hat{θ}$ 和 $\hat{η}$ 的样本标准差。

我们观察到，当样本大小增加时，在所有模拟场景下 $θ$ 估计的平均值更接近潜在的真实 $\hat{θ}$ 。类似地， $\hat{η}$ 的均值更接近于基本的 $η$ 值。在不同的模拟参数设置下， $\hat{θ}$ 和 $\hat{η}$ 的标准差均随样本量的增加而减小。因此，随着样本量的增加， $θ$ 和 $η$ 的最大似然估计变得更加准确。

Table 1. Simulation results for θ = 1 , η = 0.8

表1. $θ = 1, η = 0.8$ 时的模拟结果

Table 2. Simulation results for θ = 1 , η = 1

表2. $θ = 1, η = 1$ 时的模拟结果

Table 3. Simulation results for θ = 1 , η = 1.2

表3. $θ = 1, η = 1.2$ 时的模拟结果

Table 4. Simulation results for θ = 5 , η = 0.8

表4.时的模拟结果

Table 5. Simulation results for $θ = 5, η = 1$

表5. $θ = 5, η = 1$ 时的模拟结果

Table 6. Simulation results for $θ = 5, η = 1$ .2

表6. $θ = 5, η = 1.2$ 时的模拟结果

4. 数值举例

在本节中，我们用一个保险数据集展示了指数化逆伽马Pareto模型的性能。

指数化逆伽马Pareto模型的拟合优度

负对数似然函数定义为对数似然函数的加性逆函数，如下所示：

负对数似然函数 $= - \log L (\hat{θ} | y)$

当对数似然函数达到最大值时，负对数似然达到最小值。因此，最小化负对数似然等价于最大化对数似然函数。对于自由参数数量相同的模型，可以利用对数似然函数来比较模型的性能，对数似然函数的值越小，说明模型对数据的拟合越好。

赤池信息量准则(AIC) [14] 定义如下：

$AIC = - 2 \log L (\hat{θ} | y) + 2 k$

k是自由参数的数量。

AIC可以用来比较不同参数数量的模型，AIC的第一项随着参数数量的增加而减少，AIC的第二项随着参数数量的增加而增加。AIC的值越小，说明模型越适合数据。

贝叶斯信息准则(BIC) [14] 规定如下：

$BIC = - 2 \log L (\hat{θ} | y) + k \log ( n )$

k是参数的个数，n是数据集的样本大小。

用R软件计算不同模型中参数的最小二乘，以及这些模型的负对数似然函数、AIC和BIC。

案例：挪威火险数据

挪威火灾保险数据被许多研究人员广泛使用来检验不同复合材料的性能以及各种损失模型的性能。该数据集包括一家挪威保险公司从1972年到1992年以1000挪威克朗(NKK)计的9181起索赔。我们通过R包 [15] 得到数据集。由于小于500,000 NKK的索赔被强制要求为500,000 NKK。然而，来自1972年的索赔值没有被截断，因此我们选择了来自1972年的数据来评估所提议的模型的性能。处理截断的数据超出了本文的范围。1972年的索赔数据包括97个值，以挪威克朗(NKK)计的索赔值如下：

$\begin{array}{l} 0 .520,0 .529,0 .530,0 .530,0 .544,0 .545,0 .546,0 .549,0 .553,0 .555,0 .562,0 .565,0 .565,0 .568,0 .579,0 .586,0 .600, \\ 0 .600,0 .604,0 .605,0 .621,0 .627,0 .633,0 .636,0 .667,0 .670,0 .671,0 .676,0 .681,0 .682,0 .699,0 .706,0 .725,0 .729, \\ 0 .736,0 .741,0 .744,0 .750,0 .758,0 .764,0 .767,0 .778,0 .797,0 .810,0 .849,0 .856,0 .878,0 .900,0 .916,0 .919,0 .922, \\ 0 .930,0 .942,0 .943,0 .982,0 .991,1 .051,1 .059,1 .074,1 .130,1 .148,1 .150,1 .181,1 .189,1 .218,1 .271,1 .302,1 .428, \\ 1 .438,1 .442,1 .445,1 .450,1 .498,1 .503,1 .578,1 .895,1 .912,1 .920,2 .090,2 .370,2 .470,2 .522,2 .590,2 .722,2 .737, \\ 2 .924,3 .293,3 .544,3 .961,5 .412,5 .856,6 .032,6 .493,8 .648,8 .876,13 .911,28 .055 \end{array}$

表7提供了包括指数化逆伽马Pareto模型在内的几种模型的性能。指数化逆伽马Pareto模型在两方面都优于原有的单参数逆伽马Pareto模型。这与图3一致，图中指数化的逆伽马Pareto模型与挪威火灾保险数据吻合良好，而原始的单参数逆伽马Pareto模型与同一数据集的吻合不太好。在我们选择的三种双参数模型中，指数化逆伽马Pareto模型在负对数似然函数、赤池信息量准则(AIC)和贝叶斯信息准则(BIC)等所有拟合优度标准中表现最好。

Table 7. Goodness of fit of different models based on maximum likelihood estimation to Norwegian fire insurance data in 1972

表7. 基于极大似然估计的不同模型对挪威1972年火灾保险数据的拟合优度

N = 2492；带宽 = 0.2092；其中：密度(Density)；高斯核密度估计(Gaussian Kernel Density Estimate)；指数化逆伽马Pareto (Exponentiated IG-Pareto)；逆伽马Pareto (IG-Pareto)。

Figure 3. The density chart of Norwegian fire insurance data (1972) and the corresponding index against gamma Pareto and the Pareto model of Gamma

图3. 挪威火灾保险数据(1972年)的密度图以及相应的指数逆伽马Pareto和逆伽马Pareto模型拟合

5. 结论

在本文中，我们提出了一种新的指数化逆伽马Pareto模型，以改进原有的单参数逆伽马Pareto模型的性能。在第2节中，我们提供了一个算法来求 $θ$ 和 $η$ 的最小二乘法。这种算法具有识别最大似然估计的能力，因为在所有模拟场景中，随着样本量的增大， $θ$ 和 $η$ 的估计数变得更加准确。第4节给出了一个数值例子，在这个例子中，新的指数化逆伽马Pareto模型优于原来的逆伽马Pareto模型。这个模型的开发是有前景的，因为这种指数化方法也可以应用于其他复合模型。

基金项目

国家自然科学基金青年项目(11801488)；新疆师范大学校级科研平台招标课题(XJNUSYS2019B05)。

NOTES

^*通讯作者。

参考文献

[1]	Cooray, K. and Ananda, M.M.A. (2005) Modeling Actuarial Data with a Composite Lognormal-Pareto Model. Scan-dinavian Actuarial Journal, 2005, 321-334. [Google Scholar] [CrossRef]
[2]	Teodorescu, S. and Vernic, R. (2006) A Composite Exponential-Pareto Distribution. The Annals of the “Ovidius” Universityof Constanta, Mathematics Series, 14, 99-108.
[3]	Preda, V. and Ciumara, R. (2006) On Composite Models: Weibull-Pareto and Lognormal-Pareto. A Comparative Study. Romanian Journal of Economic Forecasting, 3, 32-46.
[4]	Grün, B. and Miljkovic, T. (2019) Extending Composite Loss Models Using a General Framework of Advanced Computational Tools. Scandinavian Actuarial Journal, 2019, 642-660. [Google Scholar] [CrossRef]
[5]	Pareto, V. (1897) Cours d’économie politique. Rouge and Cie, Lausanne and Paris.
[6]	岑泰林, 韦程东, 张晓东, 王亚楠. 复合LINEX对称损失下广义Pareto分布形状参数θ的Bayes估计[J]. 广西师范学院学报(自然科学版), 2018, 35(3): 27-31.
[7]	Aminzadeh, M.S. and Deng, M. (2019) Bayesian Predictive Modeling for Inverse Gamma-Pareto Composite Distribution. Communications in Statis-tics—Theory and Methods, 48, 1938-1954. [Google Scholar] [CrossRef]
[8]	Mudholkar, G.S. and Srivastava, D.K. (1993) Exponentiated Weibull Family for Analyzing Bathtub Failure-Rate Data. IEEE Transactions on Reliability, 42, 299-302. [Google Scholar] [CrossRef]
[9]	Gupta, R.D. and Kundu, D. (1999) Theory & Methods: Generalized Exponential Distributions. Australian & New Zealand Journal of Statistics, 41, 173-188. [Google Scholar] [CrossRef]
[10]	Nadarajah, S. (2005) Exponentiated Beta Distributions. Computers and Mathematics with Applications, 49, 1029-1035. [Google Scholar] [CrossRef]
[11]	Nadarajah, S. and Gupta, A.K. (2007) The Exponentiated Gamma Distribution with Application to Drought Data. Calcutta Statistical Association Bulletin, 59, 29-54. [Google Scholar] [CrossRef]
[12]	Afify, A.Z., Yousof, H.M., Hamedani, G.G. and Aryal, G.R. (2016) The Exponentiated Weibull-Pareto Distribution with Application. Journal of Statistical Theory and Applications, 15, 326-344. [Google Scholar] [CrossRef]
[13]	Abu Bakar, S.A., Hamzah, N.A., Maghsoudi, M. and Nadarajah, S. (2015) Modeling Loss Data Using Composite Models. Insurance: Mathematics and Economics, 61, 146-154. [Google Scholar] [CrossRef]
[14]	Burnham, K.P. and Anderson, D.R. (2002) Model Selection and Multimodel Inference. 2nd Edition, Springer-Verlag, Berlin.
[15]	Reynkens, T. and Verbelen, R. (2020) ReIns: Functions from “Reinsurance: Actuarial and Statistical Aspects”. Rpackage Version 1.0.10.

为你推荐

友情链接