异方差情形下逆高斯分布的比较

doi:10.12677/AAM.2019.812233

期刊菜单

异方差情形下逆高斯分布的比较
Comparison of several inverse Gaussian populations under heterogeneity

DOI: 10.12677/AAM.2019.812233, PDF, HTML, XML,
作者: 乔鸽, 李新民：青岛大学数学与统计学院，山东青岛
关键词: 逆高斯分布；广义p值；参数自助法；Inverse Gaussian Distribution； Generalized P Value； Parametric Bootstrap

摘要: 在本文中，我们提出了比较异方差的多个逆高斯分布的广义检验方法，并且在各种参数配置下与已有方法的进行了广泛的数值模拟。模拟结果说明本文所提方法具有较好的频率性质。

Abstract: In this paper, we propose a generalized testing procedure for the comparison of multiple inverse Gaussian distributions of heterogeneity, and an extensive numerical simulation is conducted to compare with existing methods under various parameter configurations. The simulation results show that the proposed method has good frequency properties.

文章引用：乔鸽, 李新民. 异方差情形下逆高斯分布的比较[J]. 应用数学进展, 2019, 8(12): 2029-2034. https://doi.org/10.12677/AAM.2019.812233

1. 引言

逆高斯分布(IG)是一类连续分布的双参数族，其概率密度函数可以表示为：

$f (x; μ, λ) = {(\frac{λ}{2 π x^{3}})}^{\frac{1}{2}} \exp {\frac{- λ {(x - μ)}^{2}}{2 μ^{2} x}}, x, μ, λ > 0$

其中 $μ$ 代表整体均值，参数 $λ$ 是尺度参数。“逆高斯分布”是由Tweedie (1945,1956)提出，它被应用于许多领域，包括心脏病学，水文学，人口统计学，语言学，就业服务，劳动争议和金融 [1] [2] [3]，IG分布被认为是一个有效的替代高斯分布的建模方法。

事实上，IG分布有几个类似于高斯分布的性质。例如，在同方差条件下检验k个IG均值是否相等的问题上，存在ANORE (倒数分析)和F检验 [1]，它与高斯情况下的ANOVA (方差分析)和F检验类似。然而，ANORE和F检验在异方差的情况下是无效的。Tian [4] 首次提出了一种广义检验变量法(GV)来解决这一问题。随后Ma等 [5] 提出了一种参数自助方法(PB)，并对PB方法和Tian的方法的I类错误率进行了数值研究。最近，Chang等人 [6] 和Soltan等人 [7] 讨论了逆高斯尺度参数的同质性检验，Zhang [8] 提出了来自逆高斯分布均值两两比较的同时置信区间。

在本文中，我们首先提出了一个针对比较逆高斯分布的广义检验方法，并与其他两种方法在不同参数配置下进行蒙特卡罗仿真比较。据此，本文的主要工作如下：首先介绍了新的广义检验方法；第3部分对新方法、GV和PB三种方法的I型错误率进行了广泛的数值模拟，以研究它们在各种参数配置下的性能。

2. 广义检验方法

定义 $X_{i 1}, X_{i 2}, \dots, X_{i n_{i}}$ 是来自 $I G (μ_{i}, λ_{i})$ 分布的随机样本，

${\bar{X}}_{i} = \frac{1}{n_{i}} \sum_{j = 1}^{n_{i}} X_{i j}, V_{i} = \sum_{j = 1}^{n_{i}} (\frac{1}{X_{i j}} - \frac{1}{{\bar{X}}_{i}}), 1 \leq i \leq k$

其中 ${\bar{X}}_{i} ~ I G (μ_{i}, n_{i} λ_{i})$ 和 $λ_{i} V_{i} ~ χ^{2} (n_{i} - 1)$ 。本文的重点是对以下假设进行假设检验

$H_{0} : μ_{1} = \dots = μ_{k} \leftrightarrow H_{1} : μ_{i} \neq μ_{j} forsome i \neq j$

我们定义矩阵H为

$H = {(\begin{matrix} 1 & 0 & \dots & 0 & - 1 \\ 0 & 1 & \dots & 0 & - 1 \\ ⋮ & ⋮ & ⋱ & ⋮ & ⋮ \\ 0 & 0 & \dots & 1 & - 1 \end{matrix})}_{(k - 1) \times k}$

记 $θ = H μ^{- 1}$ ，其中 $μ^{- 1} = {(μ_{1}^{- 1}, \dots, μ_{k}^{- 1})}^{'}$ 。则上述假设问题可以等价于

$H_{0} : θ = 0 \leftrightarrow H_{1} : θ \neq 0$

与Chang ( [6])文章中提到的类似， $μ_{i}^{- 1}$ 的广义枢轴量可以定义为

$T_{μ_{i}^{- 1}} = (\frac{{\bar{X}}_{i} - μ_{i}}{μ_{i} \sqrt{{\bar{X}}_{i} V_{i} / n_{i} (n_{i} - 1)}} \sqrt{\frac{{\bar{x}}_{i} v_{i}}{n_{i} (n_{i} - 1)}} + 1) \cdot \frac{1}{{\bar{x}}_{i}} = (W_{i} \sqrt{\frac{{\bar{x}}_{i} v_{i}}{n_{i} (n_{i} - 1)}} + 1) \cdot \frac{1}{{\bar{x}}_{i}}, 1 \leq i \leq k$

其中 $| W_{i} | ~ | t (n_{i} - 1) |$ ，就是说， $W_{i}^{2} ~ F (1, n_{i} - 1)$ 。事实上，根据Chhikara [1] 等人的分析，当 $n_{i}$ 很大和/或者 $λ_{i} / μ_{i}$ 很大时， $W_{i}$ 可以被视为近似服从 $t (n_{i} - 1)$ 分布。因此， $T_{μ_{i}^{- 1}}$ 可以被重新写为

$T_{μ_{i}^{- 1}} = (t_{n_{i} - 1} \sqrt{\frac{{\bar{x}}_{i} v_{i}}{n_{i} (n_{i} - 1)}} + 1) \cdot \frac{1}{{\bar{x}}_{i}}$

因此，我们可以得到

$E (T_{μ_{i}^{- 1}}) = x_{i}^{- 1}, V a r (T_{μ_{i}^{- 1}}) = V a r (W_{i}^{2}) \cdot \frac{{\bar{x}}_{i} v_{i}}{n_{i} (n_{i} - 1)} \cdot \frac{1}{{\bar{x}}_{i}^{2}} = \frac{v_{i}}{n_{i} (n_{i} - 3) {\bar{x}}_{i}},$

于是对于我们感兴趣的参数 $θ$ ，广义检验变量为 $T_{θ} = H T_{μ^{- 1}} = H {(T_{μ_{1}^{- 1}}, \dots, T_{μ_{k}^{- 1}})}^{'}$ 及其观测值 $t_{θ} = H μ^{- 1} = {(μ_{1}^{- 1} - μ_{k}^{- 1}, \dots, μ_{k - 1}^{- 1} - μ_{k}^{- 1})}^{'}$ ，并且期望和方差分别为

$\begin{matrix} E (T_{θ}) = E (H T_{μ^{- 1}}) = H {[E (T_{μ_{1}^{- 1}}), \dots, E (T_{μ_{k}^{- 1}})]}^{'} \\ = {(x_{1}^{- 1} - x_{k}^{- 1}, \dots, x_{k - 1}^{- 1} - x_{k}^{- 1})}^{'} \end{matrix}$

$\begin{matrix} Σ = C o v (T_{θ}) = C o v (H T_{μ^{- 1}}) = H \cdot C o v (T_{μ^{- 1}}) \cdot H^{'} \\ = H \cdot d i a g [V a r (T_{μ_{1}^{- 1}}), \dots, V a r (T_{μ_{k}^{- 1}})] \cdot H^{'} \end{matrix}$

进而，上述假设的标准化广义检验变量为 $T = {[T_{θ} - E (T_{θ})]}^{'} \cdot Σ^{- 1} \cdot [T_{θ} - E (T_{θ})]$ ，其观测值为 $t = {[θ - E (T_{θ})]}^{'} \cdot Σ^{- 1} \cdot [θ - E (T_{θ})]$ 。

通过以上推导，我们可以明显看出，广义检验变量T的值不含讨厌参数，T的分布也不依赖于任何未知参数。此外，对于给定 ${\bar{x}}_{i}$ 和 $v_{i}$ ， $1 \leq i \leq k$ ，当 $θ$ 和0之间差距较大时，T趋向于取更大的值。Weerahandi [9] 和Tusi and Weerahandi [10] 引入广义p值的概念来衡量数据在多大程度上支持或反对原假设。在本文中我们也使用广义p值进行衡量，p值被定义为

$p = P_{r} (T \geq t | H_{0}) = P_{r} (T \geq t_{0})$

其中 $t_{0} = E {(T_{θ})}^{'} \cdot Σ^{- 1} \cdot E (T_{θ})$ 表示在原假设情况下T的观测值。当广义p值小于检验水平 $α$ 时，这个检验将拒绝原假设。

数值模拟方法可以通过以下步骤来估计广义p值：

给定来自相应IG分布的k个独立样本，

1) 分别计算 ${\bar{x}}_{i}$ 和 $v_{i}$ ， $1 \leq i \leq k$ ，得到 $E (T_{θ})$ ， $Σ$ 和 $t_{0}$ 。

2) 产生 $t_{i} ~ t (n_{i} - 1)$ ，并且计算 $T_{θ}$ 和T的值。

3) 将第2步重复M次，得到M个T值。

4) 计算T大于等于 $t_{0}$ 的比例。

当M足够大时，广义p值可以用比例来近似。

3. 数值模拟

在本节中，我们将给出本文方法与Tian [4] 中的广义检验变量方法(GV)和Ma和Tian [5] 中的参数自助方法(PB)的第一类错误概率比较的数值结果。为了评估每种方法的势，我们使用在第二节中给出的方法，先产生N组样本，分别得到N个对应的p值，则p值小于检验水平 $α$ 的比率表示某一检验方法的功效。一般的，我们设置 $N = 5000$ 和 $α = 0.05$ 。三种方法的模拟次数均为 $M = 5000$ 。

表1~3中我们给出了在同方差和异方差情况下当k = 3，6，20时以及总体均值从很小到中等大得到的检验的第一类错误概率。由模拟结果可知：

1) 只有当k足够小时，如k = 3的情况下，Tian的检验方法才有效。随着k的增加，其第一类错误概率明显增大，即使提供大样本也无效。

2) 一般来说，PB方法在k值适中的情况下具有令人满意的性能。然而，当k太小或太大时，第一类错误概率会稍微激进一些，比如k = 3或者k = 20。特别是当样本量小的情况下，k值大或小其第一类错误概率都会明显超过名义水平。

3) n的值倾向于影响所提出的广义检验方法的第一类错误概率，而不是k的值。模拟结果表明，当n较小时，新方法的计算结果相对保守。相反，当样本量过大时，第一类错误概率会略高于名义水平。

Table 1. The simulation results about k = 3

表1. k = 3的仿真结果

Table 2. The simulation results about k = 6

表2. k = 6的仿真结果

na: n = (5,4s,5); nb: n = (5,10,15,5,10,15); nc: n = (10,30,50,10,30,50).

Table3. The simulation results about k = 20

表3. k = 0的仿真结果

na: n = (5,20 s); nb: n = (5,10,15,20,30, 5,10,15,20,30, 5,10,15,20,30, 5,10,15,20,30); nc: n = (10,20,30,50,80, 10,20,30,50,80, 10,20,30,50,80, 10,20,30,50,80).

4. 结论

IG分布被广泛用于描述和分析正向右偏的数据。在本文中，我们提出了一个广义检验方法。仿真研究表明，当样本量较小时，我们的方法相对保守。但是，当样本量较大时，所给检验方法仍然能够控制第一类错误概率。

参考文献

参考文献

[1]	Chhikara, R.S. and Folks, J.L. (1989) The Inverse Gaussian Distribution. Marcel Dekker, New York.
[2]	Seshadri, V. (1993) The Inverse Gaussian Distribution: A Case Study in Exponential Families. Clarendon Press, Oxford.
[3]	Seshadri V. (1999) The Inverse Gaussian Distribution: Statistical Theory and Applications. Springer, New York.
[4]	Tian, L. (2006) Testing Equality of Inverse Gaussian Means under Heterogeneity, Based on Generalized Test Variable. Computational Statistics & Data Analysis, 51, 1156-1162. [Google Scholar] [CrossRef]
[5]	Ma, C. and Tian, L. (2009) A Parametric Bootstrap Approach for Testing Equality of Inverse Gaussian Means under Heterogeneity. Communications in Statistics—Simulation and Computation, 38, 1153-1160. [Google Scholar] [CrossRef]
[6]	Chang, M., You, X. and Wen, M. (2012) Testing the Homogeneity of Inverse Gaussian Scale-Like Parameters. Statistics & Probability Letters, 82, 1755-1760. [Google Scholar] [CrossRef]
[7]	Sadooghi-Alvandi, S.M. and Malekzadeh, A. (2013) A Note on Testing Homogeneity of the Scale Parameters of Several Inverse Gaussian Distributions. Statistics & Probability Letters, 83, 1844-1848. [Google Scholar] [CrossRef]
[8]	Zhang, G. (2014) Simultaneous Confidence Intervals for Several Inverse Gaussian Populations. Statistics & Probability Letters, 92, 125-131. [Google Scholar] [CrossRef]
[9]	Weerahandi, S. (1993) Generalized Confidence Intervals. Journal of the American Statistical Association, 88, 899-905. [Google Scholar] [CrossRef]
[10]	Tusi, K.W. and Weerahandi, S. (1989) Generalized p-Values in Significance Testing of Hypotheses in the Presence of Nuisance Parameters. Journal of the American Statistical Association, 84, 602-607. [Google Scholar] [CrossRef]

为你推荐

友情链接