1. 引言
逆高斯分布(IG)是一类连续分布的双参数族,其概率密度函数可以表示为:
其中
代表整体均值,参数
是尺度参数。“逆高斯分布”是由Tweedie (1945,1956)提出,它被应用于许多领域,包括心脏病学,水文学,人口统计学,语言学,就业服务,劳动争议和金融 [1] [2] [3],IG分布被认为是一个有效的替代高斯分布的建模方法。
事实上,IG分布有几个类似于高斯分布的性质。例如,在同方差条件下检验k个IG均值是否相等的问题上,存在ANORE (倒数分析)和F检验 [1],它与高斯情况下的ANOVA (方差分析)和F检验类似。然而,ANORE和F检验在异方差的情况下是无效的。Tian [4] 首次提出了一种广义检验变量法(GV)来解决这一问题。随后Ma等 [5] 提出了一种参数自助方法(PB),并对PB方法和Tian的方法的I类错误率进行了数值研究。最近,Chang等人 [6] 和Soltan等人 [7] 讨论了逆高斯尺度参数的同质性检验,Zhang [8] 提出了来自逆高斯分布均值两两比较的同时置信区间。
在本文中,我们首先提出了一个针对比较逆高斯分布的广义检验方法,并与其他两种方法在不同参数配置下进行蒙特卡罗仿真比较。据此,本文的主要工作如下:首先介绍了新的广义检验方法;第3部分对新方法、GV和PB三种方法的I型错误率进行了广泛的数值模拟,以研究它们在各种参数配置下的性能。
2. 广义检验方法
定义
是来自
分布的随机样本,
其中
和
。本文的重点是对以下假设进行假设检验
我们定义矩阵H为
记
,其中
。则上述假设问题可以等价于
与Chang ( [6])文章中提到的类似,
的广义枢轴量可以定义为
其中
,就是说,
。事实上,根据Chhikara [1] 等人的分析,当
很大和/或者
很大时,
可以被视为近似服从
分布。因此,
可以被重新写为
因此,我们可以得到
于是对于我们感兴趣的参数
,广义检验变量为
及其观测值
,并且期望和方差分别为
进而,上述假设的标准化广义检验变量为
,其观测值为
。
通过以上推导,我们可以明显看出,广义检验变量T的值不含讨厌参数,T的分布也不依赖于任何未知参数。此外,对于给定
和
,
,当
和0之间差距较大时,T趋向于取更大的值。Weerahandi [9] 和Tusi and Weerahandi [10] 引入广义p值的概念来衡量数据在多大程度上支持或反对原假设。在本文中我们也使用广义p值进行衡量,p值被定义为
其中
表示在原假设情况下T的观测值。当广义p值小于检验水平
时,这个检验将拒绝原假设。
数值模拟方法可以通过以下步骤来估计广义p值:
给定来自相应IG分布的k个独立样本,
1) 分别计算
和
,
,得到
,
和
。
2) 产生
,并且计算
和T的值。
3) 将第2步重复M次,得到M个T值。
4) 计算T大于等于
的比例。
当M足够大时,广义p值可以用比例来近似。
3. 数值模拟
在本节中,我们将给出本文方法与Tian [4] 中的广义检验变量方法(GV)和Ma和Tian [5] 中的参数自助方法(PB)的第一类错误概率比较的数值结果。为了评估每种方法的势,我们使用在第二节中给出的方法,先产生N组样本,分别得到N个对应的p值,则p值小于检验水平
的比率表示某一检验方法的功效。一般的,我们设置
和
。三种方法的模拟次数均为
。
表1~3中我们给出了在同方差和异方差情况下当k = 3,6,20时以及总体均值从很小到中等大得到的检验的第一类错误概率。由模拟结果可知:
1) 只有当k足够小时,如k = 3的情况下,Tian的检验方法才有效。随着k的增加,其第一类错误概率明显增大,即使提供大样本也无效。
2) 一般来说,PB方法在k值适中的情况下具有令人满意的性能。然而,当k太小或太大时,第一类错误概率会稍微激进一些,比如k = 3或者k = 20。特别是当样本量小的情况下,k值大或小其第一类错误概率都会明显超过名义水平。
3) n的值倾向于影响所提出的广义检验方法的第一类错误概率,而不是k的值。模拟结果表明,当n较小时,新方法的计算结果相对保守。相反,当样本量过大时,第一类错误概率会略高于名义水平。
Table 1. The simulation results about k = 3
表1. k = 3的仿真结果
Table 2. The simulation results about k = 6
表2. k = 6的仿真结果
na: n = (5,4s,5); nb: n = (5,10,15,5,10,15); nc: n = (10,30,50,10,30,50).
Table3. The simulation results about k = 20
表3. k = 0的仿真结果
na: n = (5,20 s); nb: n = (5,10,15,20,30, 5,10,15,20,30, 5,10,15,20,30, 5,10,15,20,30); nc: n = (10,20,30,50,80, 10,20,30,50,80, 10,20,30,50,80, 10,20,30,50,80).
4. 结论
IG分布被广泛用于描述和分析正向右偏的数据。在本文中,我们提出了一个广义检验方法。仿真研究表明,当样本量较小时,我们的方法相对保守。但是,当样本量较大时,所给检验方法仍然能够控制第一类错误概率。
参考文献