1. 引言
广义指数分布是由Gupta和Kundu [1] 在1999年提出的,其分布函数和密度函数分别为
,
, (1)
其中为尺度参数,为位置参数,将该分布记为。当时,GE分布为指数分布。广义指数分布已被广泛应用到可靠性寿命分析、物理工程、临床医学、图像处理等领域。近年来对这一分布的研究已有了一些成果,如文献 [2] 讨论了其次序统计量的矩;文献 [3] 给出了其贝叶斯统计推断;文献 [4] 在逐步增加I型截尾试验下,给出了尺度参数的近似极大似然估计;文献 [5] 给出了该分布的极大似然估计、矩估计、分位数估计、最小二乘估计和线性矩估计这五种估计,并对各类估计进行了数值模拟,得出极大似然估计均方误差最小;文献 [6] 将该分布与Gamma分布和Weibull分布分别进行比较,得出该分布在偏斜寿命数据中估计效果更好,可以替代Gamma分布和Weibull分布。
指数分布、Weibull分布、Gamma分布、双参数指数分布、广义指数分布等都是描述产品可靠性的常用分布,但由于诸多因素的影响,这些寿命分布中的参数可能在某个时刻发生改变,即产生变点。当数据中出现变点时,如果继续按照原有分布描述数据就会产生错误,因此检验这些寿命分布中的参数变点非常重要。为此,黄志坚和张志华 [7] 研究了可靠性数据在变点前后服从不同参数的指数分布产品的寿命分布,并且给出了参数的极大似然估计和贝叶斯估计。王黎明和王静龙 [8] 基于U-统计量,针对位置参数模型讨论了位置参数变点的检验问题,并将结果应用到了双参数指数分布和Weibull分布尺度参数变点的检验问题中。谭常春等 [9] 针对Gamma分布利用累积和方法介绍了检测变点位置的程序,并给出了变点的强相合估计和强收敛速度。王黎明 [10] 讨论了双参数指数分布变点的统计推断问题,给出了检验的渐近分布和变点的估计。而关于广义指数分布参数变点的检验问题尚无研究成果。
本文介绍了检验广义指数分布序列中位置参数变点和尺度参数变点的似然比方法和CUSUM方法,并针对尺度参数无显式估计导致检验统计量的临界值不易计算的问题,提出了用于近似统计量临界值的Bootstrap方法。数值模拟结果表明,似然比方法在检验位置参数变点时优于CUSUM方法,但是无法检验出尺度参数变点,而CUSUM方法对两类参数变点都有较好的检验效果,在检验时无法区分出位置参数变点和尺度参数变点,所以结合这两种方法能更好地检测广义指数分布中的两类参数变点。此外,和用渐近临界值做检验相比,利用Bootstrap方法做检验也能够较好的控制经验水平,且方便实际操作。最后应用本文方法分析了一组电压数据,说明所给方法的有效性和实用性。
2. 方法介绍
2.1. 似然比方法
2.1.1. 位置参数b的似然比检验
设是来自广义指数分布(1)的一组样本,参数分别是,。假定已知,不妨设,则关于参数的变点检验即是检验原假设:和备择假设:,其中,是变点的位置,,为样本容量。在原假设下的对数似然函数为
则的极大似然估计为,由于不是无偏的,修正之后得到无偏估计,因此在下的对数似然函数可化为
。
在备择假设下的对数似然函数为
则,的极大似然估计分别为,,
修正,得到其无偏估计分别为
,。
故而在下的对数似然函数可化为
,因此,检验的似然比统计量为
其中,,
,,。
在给定显著性水平下,当(为临界值)时,拒绝原假设,认为序列中存在位置参数变点,否则,接受原假设,认为位置参数没有发生改变。
2.1.2. 尺度参数l的似然比检验
与上节类似地,关于参数的变点检验即是检验原假设:和备择假设:,其中,是变点的位置,,为样本容量。在原假设下的对数似然函数为
对求偏导数:,得出
, (2)
其中,
由文献 [11] 可知式(2)存在唯一解,运用Newton-Raphson迭代法可求出其近似解。在备择假设下的对数似然函数为
对,分别求偏导数:,
,得到
, (3)
, (4)
其中,。
同理,通过Newton-Raphson迭代法可以求出(3)、(4)的解,。因此,检验的似然比统计量为
在给定显著性水平下,当(为临界值)时,拒绝原假设,认为序列中存在尺度参数变点,否则接受原假设,认为尺度参数没有发生改变。虽然可以通过迭代的方法来计算,,但在实际应用中这种方法极为不便,为此进一步提出如下CUSUM方法。
2.2. CUSUM方法
设是来自广义指数分布(1)的一组样本,变点出现在时刻,,为样本容量。记,,,,构造统计量
文献 [12] 给出了的极限分布,即
其中,是的一致估计,是布朗桥。
故而得到CUSUM检验统计量
该方法对检验位置参数和尺度参数中的变点时都有效。在给定显著性水平下,当(为临界值)时,拒绝原假设,认为序列中存在变点,否则接受原假设,认为序列中的参数没有发生改变。
2.3. Bootstrap近似法
由于似然比统计量的渐近分布不易得到,故而构造Bootstrap抽样方法来确定统计量的经验临界值。Bootstrap方法已广泛应用于抽样技术中,陈占寿等 [13] 为确定监测统计量的临界值并避免估计厚尾指数,提出了Bootstrap重抽样方法。赵春辉等 [14] 提出了一种基于均值函数的核估计检验统计量,得到统计量在原假设和备择假设下的极限分布,并构造了Bootstrap方法对非参数回归模型均值函数结构变点进行检验,证明了检验和估计的一致性。
Bootstrap方法的步骤如下:
第一步,从中任意抽取个Bootstrap样本。
第二步,将代入统计量,计算统计量的值。
第三步,重复第一步和第二步m次,用的经验分位数作为的临界值。
这里只给出了统计量的Bootstrap近似方法,实际上,对于统计量亦可采用类似方法计算临界值。
3. 数值模拟
本节通过数值模拟的方法,来检验上节所提方法的有限样本的性质,重点分析样本容量、参数值、变点位置等因素对上述两种检验统计量的影响。所有模拟程序均通过matlab软件生成(见附录),首先利用渐近方法模拟临界值,其方法是取样本容量为5000,令,,通过10,000次循环计算出统计量和的经验分位数作为其临界值。Bootstrap方法的重抽样次数。
表1给出的是两种检验统计量在不同的样本容量条件下模拟所得的经验水平,循环次数为10,000 (下同),检验水平,0.05,0.01。通过观察可以发现,统计量和的经验水平都比较接近于检验水平,经验水平扭曲的程度随样本容量的增大而减小。利用渐近临界值和Bootstrap方法做检验时,两种检验统计量都能较好的控制经验水平,但是实际中和是未知的,需提前估计,且不同的和对应不同的临界值,这给实际应用带来极大的不便,而Bootstrap方法不需要估计这些未知参数,在实际应用中更加方便。
表2给出了位置参数的取值在处由1变为2和1/2时两种检验统计量的经验势,变点位置取0.25,0.5,0.75,检验水平为0.05 (下同)。可以看出,当样本容量逐渐增大时,统计量和的经验势均在增高,这说明两种统计量对位置参数的检验是一致的。但是似然比统计量明显比CUSUM统计量的检验效率高,说明似然比统计量在检验位置参数变点时优于CUSUM统计量。当变点位置靠近序列中间时,模拟所得的经验势比变点位置在两端时的经验势高,说明两种检验统计量对在序列中间位置出现的位置参数变点的检验效果更好。此外,利用渐近临界值和Bootstrap方法做检验所得的检验效率比较接近,这说明在实际应用中可以用Bootstrap方法代替渐近方法模拟临界值。
表3给出了尺度参数的取值在处由1变为2和1/2时两种检验统计量的经验势。可以看出,似然比统计量的检验效率较低,说明统计量对尺度参数的变化不敏感,无法检验出序列中的尺度参数变点。当样本容量逐渐增大时,统计量的经验势逐渐增高,当样本容量n = 200时,其经验势已非常接近1,说明CUSUM统计量对尺度参数变点的检验效果较好。当变点位置靠近序列中间时,CUSUM统计量模拟所得的经验势比变点位置在两端时的经验势高,这说明CUSUM统计量对在序列中间位置出现的尺度参数变点的检验能力较强。
综上所述,在检验位置参数变点时,两种检验统计量是一致性检验,且似然比统计量的检验效果优于CUSUM统计量,若变点恰好发生在序列的中间位置时,两种统计量的检验能力最强。在检验尺度参数变点时,似然比统计量对尺度参数的检验效果较差,无法检验出尺度参数变点,而CUSUM统计量对两类参数变点都比较敏感,在检验时无法区分出位置参数变点和尺度参数变点,所以结合这两种统计量能更好地检测广义指数分布序列中的两类参数变点。此外,利用Bootstrap方法做检验时控制经验水平的能力和用渐近临界值做检验时是一致的,且Bootstrap方法在实际操作时更为方便,所以在实际应用中可以用Bootstrap方法来代替渐近方法。总之,在实际应用时可以将似然比统计量和CUSUM统计量组合考虑来区分两类参数变点,以便得出更准确的结果。
4. 实例分析
本节通过一组家庭电力消费的数据来说明本文方法的有效性。数据包括2006年12月16日20:40~23:59家庭电力消费中电压的200个观测值,该数据集可以从UCI机器学习数据库 (http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption)中的“Individual Household Electric Power Consumption Data Set”中得到。图1是电压的原始数据图,图2的Q-Q图表明电压数据服从广义指数分布,因此,我们所选用的数据符合前文中提出的假设。
下面对数据做变点检验,按照CUSUM统计量对图1数据进行计算,得到 (临界值由Bootstrap方法模拟得到),说明检验结果显著,即第97个数据处存在变点。但无法确定是位置参数还是尺度参数发生了改变。按照似然比统计量对图1数据进行计算,检验结果不显著,即没有发现变点。根据上节中两种检验统计量对两类参数变点的检验能力分析可知,正是尺度参数的变化,产生了变点。
Table 1. Empirical size (percent)
表1. 经验水平(%)
Table 2. Empirical power of (percent)
表2. 参数的经验势(%)
Table 3. Empirical power of (percent)
表3. 参数的经验势(%)
Figure 1. The original voltage data changing over time
图1. 电压随时间变化的原始数据
Figure 2. Q-Q plot of generalized exponential distribution
图2. 广义指数分布的Q-Q图
综上所述,该家庭在2006年12月16日20:40~23:59期间的电压有明显的突变,变点出现在22:16时刻,自22:16~23:59电压升高,究其原因是因为这期间电器基本不运作,用电量明显减少,故而电压升高。
5. 结论
本文介绍了检验广义指数分布序列位置参数变点和尺度参数变点的似然比方法和CUSUM方法,并针对尺度参数无显式估计导致检验统计量的临界值不易计算的问题,提出了用于近似统计量临界值的Bootstrap方法。数值模拟结果表明,似然比方法在检验位置参数变点时优于CUSUM方法,但是无法检验出尺度参数变点,而CUSUM方法对两类参数变点都有较好的检验效果,在检验时无法区分出位置参数变点和尺度参数变点,所以结合这两种方法能更好地检测广义指数分布中的两类参数变点。此外,和用渐近临界值做检验相比,利用Bootstrap方法做检验也能够较好的控制经验水平,且方便实际操作。最后应用本文方法分析了一组电压数据,说明所给方法的有效性和实用性。
致谢
在此,我要感谢我的导师陈占寿老师,感谢陈老师对我在生活上的关心和学业上的精心指导。他渊博的知识、严谨求实、精益求精的治学态度和对专业前沿问题敏锐的洞察力深深地影响了我,使我不仅学到了本专业的理论知识,而且培养了我发现问题、分析问题、解决问题的能力,使我终身受益。我还要感谢国家自然科学青年基金、教育部人文社会科学基金、青海省自然科学青年基金的资助,以及所引用文献的作者对科学做出的贡献。
基金项目
国家自然科学青年基金(11301291),教育部人文社会科学基金(11XJA910001),青海省自然科学基金(2015-ZJ-717)资助。
附录
似然比统计量用渐近方法检验位置参数的经验势的matlab模拟程序
*通讯作者。
参考文献