双参数指数分布的分位数比较

doi:10.12677/SA.2019.82027

期刊菜单

双参数指数分布的分位数比较
Comparison for Quantiles of Two-Parameter Exponential Distributions

DOI: 10.12677/SA.2019.82027, PDF, HTML, XML, 下载: 902 浏览: 1,763
作者: 刘澍^*, 李新民：青岛大学数学与统计学院，山东青岛
关键词: 双参数指数分布；分位数；自助法；Fiducial推断； Two-Parameter Exponential Distribution； Quantile； Bootstrap； Fiducial Inference

摘要: 本文研究了两个双参数指数分布的分位数比较的检验问题，首先给出了参数bootstrap和Fiducial推断两种方法。然后通过数据仿真模拟对上述方法进行比较分析，并进行了实例分析。

Abstract: This paper considers the testing problem for comparing quantiles of the two-parameter exponential distribution. We provide two approaches, the parameters bootstrap and Fiducial method. Simulation studies were conducted to compare two methods. The above methods were also applied in an example.

文章引用：刘澍, 李新民. 双参数指数分布的分位数比较[J]. 统计学与应用, 2019, 8(2): 244-250. https://doi.org/10.12677/SA.2019.82027

1. 引言

双参数指数分布是位置尺度分布族中具有代表性的分布，常应用于寿命数据可靠性研究和对于金融领域研究保险损失等。而在一般寿命的试验中，通常采取截尾试验来节省时间和经济成本，即对于 $n$ 个实验对象，试验在第 $r (n > r)$ 个产品失效时就停止。通过这种试验得到的样本称为定数截尾或II型截尾样本，在本文模型中对两个双参数指数分布总体假设检验的推断就依赖于定数截尾样本。

在过去的几十年中，有许多学者研究了双参数指数分布的统计推断 [1] [2] 。在大多数文献中研究的问题是比较两个指数分布的均值或中位数 [3] [4] 。然而，均值或中位数并不能确定整个分布，有一些情况需要比较两个总体的分位数。

1989年Tsui和Weerahandi [5] 提出了广义推断的概念。2007年Li，Xu和Li [6] 给出了广义P值的Fiducial推断。1979年Efron [7] 提出的Bootstrap方法应用十分广泛，对于复杂分布的参数和复杂估计可直接导出标准误和区间估计。近年来参数Bootstrap方法也得到了广泛的应用和改进 [8] 。本文将分别使用Fiducial推断和参数Bootstrap似然比方法，从假设检验的角度对两个双参数指数分布总体的分位数进行比较。

2. 问题表述

双参数指数分布 $E x p (x; μ, σ)$ 有概率密度函数

$p (x; μ, σ) = {\begin{matrix} \begin{array}{l} \frac{1}{σ} \exp {- \frac{x - μ}{σ}} \\ 0 \end{array} & \begin{array}{l} x > μ \\ 其他 \end{array} \end{matrix}$

其中 $μ > 0$ ， $σ > 0$ 。对于任意 $p \in (0, 1)$ ，由 $F (x) = P (X \leq x_{p}) = p$ 易得p分位数 $x_{p} μ - σ \log (1 - p)$ 。

记 $(X_{i, 1}, X_{i, 2}, \dots, X_{i, n_{i}})$ 为来自上述分布的容量为 $n$ 的样本，设观测到的数据为定数截断数据为 $X_{(i 1)} < X_{(i 2)} < \dots < X_{(i r_{i})}$ ， $i = 1, 2$ 。分布 Exp (μ_I, σ_i) 的 $p$ 分位数表示为 $Q_{_{i, p}} = μ_{i} - σ_{i} \log (1 - p)$ ，从而两个总体分位数的差可写为 $Q_{d} = Q_{2, p} - Q_{1, p}$ 。易知

$W_{i} = X_{i, 1}$ ， $V_{i} = \sum_{j = 1}^{r_{i}} X_{i, j} + (n_{i} - r_{i}) X_{i, r_{i}} - n_{i} X_{i, 1}$ (1)

是两个充分完备统计量且 $W$ 和 $V$ 独立，参数 $μ_{i}$ 和 $σ_{i}$ 的一致最小方差无偏估计(UMVUE)为

${\hat{μ}}_{i} = W_{i} - \frac{1}{n_{i} (r_{i} - 1)} V_{i}$ ， ${\hat{σ}}_{i} = \frac{1}{r_{i} - 1} V_{i}$ (2)

则 $Q_{d}$ 的估计为

${\hat{Q}}_{d} = [{\hat{μ}}_{2} - {\hat{σ}}_{2} \log (1 - p)] - [{\hat{μ}}_{1} - {\hat{σ}}_{1} \log (1 - p)]$ (3)

本文将考虑两指数分布的分数比较的假设检验，检验问题为：

$H_{0} : Q_{d} \leq 0 VS H_{1} : Q_{d} > 0$ (4)

3. 参数Bootstrap方法

Bootstrap方法由Efron [7] 首先提出，其原理是从估计模型中进行重复抽样，常采用的为非参数Bootstrap方法。本文采用参数Bootstrap，用参数的估计取代原参数得到参数模型。

对于来自双参数指数分布的样本 $(X_{i, 1}, X_{i, 2}, \dots, X_{i, n_{i}})$ ， $i = 1, 2$ ，由(2)式可以得到参数 $μ_{i}$ 和 $σ_{i}$ 的UMVUE ${\hat{μ}}_{i}$ 和 ${\hat{σ}}_{i}$ ，以 ${\hat{μ}}_{i}$ 和 ${\hat{σ}}_{i}$ 替代原参数进行重抽样，得到样本 $(E_{i, 1}, E_{i, 2}, \dots, E_{i, r_{i}})$ ，并进行排序 $E_{(i, 1)} < E_{(i, 2)} < \dots < E_{(i, r_{i})}$ ，由(1)式计算样本统计量为

$W_{i} = E_{(i, 1)}$ ， $V_{b i} = \sum_{j = 1}^{r_{i}} E_{(i, j)} + (n_{i} - r_{i}) E_{(i, r_{i})} - n_{i} E_{(i, 1)}$ (5)

可得

${\hat{Q}}_{b} = [{\hat{μ}}_{b 2} - {\hat{σ}}_{b 2} \log \log (1 - p)] - [{\hat{μ}}_{b 1} - {\hat{σ}}_{b 1} \log (1 - p)]$ (6)

其中

${\hat{μ}}_{b i} = W_{b i} - \frac{1}{n_{i} (r_{i} - 1)} V_{b i}$ ， ${\hat{σ}}_{b i} = \frac{1}{r_{i} - 1} V_{b i}$ ， $i = 1, 2$ (7)

我们通过模拟计算来求 $p$ 值．具体的模拟步骤如下：

(a) 通过(2)式分别计算 ${\hat{μ}}_{i}$ 和 ${\hat{σ}}_{i}$ ，

(b) 生成对应的样本容量为 $r_{i}$ 的Bootstrap样本并进行排序，

(d) 重复步骤(a)~(c) $N$ 次( $N$ 一般大于1000)，

(e) 给出p值 $p = 2 \min {\frac{p # {{\hat{Q}}_{b} \leq 0}}{N}, \frac{p # {{\hat{Q}}_{b} > 0}}{N}}$ 。

4. Fiducial方法

Fiducial推断由Fisher首先提出并研究，这类方法不需要先验分布，而是根据数据给出与参数的后验分布有相同作用的Fiducial分布．其后有不少统计学者对之进行讨论。Hannig等也讨论了利用Fiducial推断方法构造广义区间估计。Li等 [6] 给出了利用Fiducial推断进行假设检验的方法。本节利用Fiducial推断研究分位数差的假设检验。

对于检验问题(4)，由(1)式计算得出 $W_{i}$ 和 $V_{i}$ ， $W_{i}$ 和 $V_{i}$ 相互独立，分布分别为

$2 n_{i} \frac{W_{i} - μ_{i}}{σ_{i}} ~ χ^{2} (2)$ 和 $\frac{2 V_{i}}{σ_{i}} ~ χ^{2} (2 r_{i} - 2)$ ， $i = 1, 2$

设 $E_{i, 1} ~ χ^{2} (2)$ 和 $E_{i, 2} ~ χ^{2} (2 r_{i} - 2)$ 独立，有

$(W_{i}, V_{i}) = (\frac{σ_{i} E_{i, 1}}{2 n_{i}} + μ_{i}, \frac{σ_{i} E_{i, 2}}{2})$

对于给定的 $(w_{i}, v_{i})$ 和 $(e_{i, 1}, e_{i, 2})$ ，方程 $(w_{i}, v_{i}) = (\frac{σ_{i} e_{i, 1}}{2 n_{i}} + μ_{i}, \frac{σ_{i} e_{i, 2}}{2})$ 有唯一解

$(μ_{i}, σ_{i}) = (w_{i} - \frac{v_{i} e_{1}}{n_{i} e_{2}}, \frac{2 v_{i}}{e_{2}})$

从而可得 $μ_{i}, σ_{i}$ 的Fiducial分布可以分别由

$T_{μ_{i}} = w_{i} - \frac{v_{i} E_{1}}{n_{i} E_{2}}, T_{σ_{i}} = \frac{2 v_{i}}{E_{2}}$

给出。从而分数差 $Q_{d}$ 的Fiducial分布可以由

$T_{Q_{d}} = [T_{μ_{2}} - T_{σ_{2}} \log (1 - p)] - [T_{μ_{1}} - T_{σ_{1}} \log (1 - p)]$

给出，于是检验(4)的p值为

$p = 2 \min {p (T_{Q_{d}} < 0), p (T_{Q_{d}} > 0)}$ 。

在一般情形下，Fiducial分布没有显式表达，广义P值的数值计算非常困难。我们同样可以通过模拟计算来求p值。步骤如下：

1) 对给定数据，选取一个较大的模拟样本数N，

2) 对于 $j = 1, \dots, N$ ，通过 $E_{i}$ 的分布 $E x p (μ_{i}, σ_{i})$ 随机生成 $e_{j}$ ，

3) 求方程 $(w_{i}, v_{i}) = (\frac{σ_{i} e_{i, 1}}{2 n_{i}} + μ_{i}, \frac{σ_{i} e_{i, 2}}{2})$ 的解并计算 $T_{Q_{d}}$ 的实现值 $T_{i}$ ， $T_{Q_{d}} = [T_{μ_{2}} - T_{σ_{2}} \log (1 - p)] - [T_{μ_{1}} - T_{σ_{1}} \log (1 - p)]$ ，

4) 计算p值 $p = 2 \min {\frac{p # {T_{i} < 0}}{N}, \frac{p # {T_{i} > 0}}{N}}$ 。

5. 数据仿真模拟

本文我们从检验的势函数方面考虑参数Bootstrap方法和Fiducial方法的精度，用R软件产生服从双参数指数分布的随机样本，利用上面介绍的两种方法的具体步骤，用计算机模拟M次计算所得检验的第一类错误率并对两种方法进行比较。在此我们取水平 $α = 0.05$ ，分位数p分别取0.25、0.5、0.75和0.9，生成的样本容量n分别取10和50，截断数据量r分别取8和40，模拟次数为5000。得到结果如表1~2。

Table 1. Power of two methods (n = 10, r = 8)

表1. 两种方法检验的势函数(n = 10, r = 8)

Table 2. Power of two methods (n = 50, r = 40)

表2. 两种方法检验的势函数(n = 50, r = 40)

从表1~2中结果可以看出当模拟数据分位数 $p$ 取值较小时，Fiducial方法进行检验所得的势函数较Bootstrap方法更低，而当分位数p取值变大，两种方法进行检验所得的势函数差异随之减小。故当分位数取值较小时，Fiducial方法用于双参数指数分布的假设检验比较稳定，有更好的效果。

另一方面由图表结果可以看出，当样本量和截断数据量较小时，Fiducial方法进行检验所得的检验势函数的值较Bootstrap方法差异更大，即在此情况下，Fiducial方法进行检验效果较Bootstrap方法效果更好。综上，由模拟实验可知，在实际应用中Fiducial方法要优于Bootstrap方法。

6. 实例分析

以下我们通过实例进一步验证Bootstrap和Fiducial两种方法进行检验的效果，表3给出的三组数据为不同方式生产的轮胎的使用寿命，每组数据都表示在40个试验样品中前20个失效的时间，数据来自于Bain [9] 。

Table 3. Lifetime data of tyre

表3. 轮胎使用寿命数据

取Present和Additive两组数据用两种方法检验中位数是否相同取。Bootstrap方法和Fiducial方法检验的p值分别为0.0414和0.0376，两种方法都表明Present和Additive的中位数没有区别，Fiducial检验更容易拒绝中位数相同的假设。

7. 结论

综上可知，因实际应用中取得试验样本量往往不大，故Fiducial方法用于双参数指数分布的分位数检验效果更佳。

参考文献

[1]	Lawless, J.F. (1983) Statistical Methods in Reliability. Journal of the American Statistical Association, 25, 305-316.
[2]	Roy, A. and Mathew, T. (2005) A Generalized Confidence Limit for the Reliability Function of a Two-Parameter Exponential Distribution. Journal of Statistical Planning and Inference, 128, 509-517.
[3]	Wright, F.T., Engelhard, T. and Bain, M.L.J. (1978) Inferences for the Two-Parameter Exponential Distribution under Type I Censored Sampling. Journal of the American Statistical Association, 73, 650-655. https://doi.org/10.1080/01621459.1978.10480072
[4]	Fernández, A.J. (2007) On Calculating Generalized Con-fidence Intervals for the Two-Parameter Exponential Reliability Function. Annals of Statistics, 41, 129-135. https://doi.org/10.1080/10485250601033172
[5]	Tsui, K.W. and Weerahandi, S. (1989) Generalized P-Values in Significance Testing of Hypotheses in the Presence of Nuisance Parameters. Journal of the American Statistical Asso-ciation, 84, 602-607.
[6]	Li, X., Xu, X. and Li, G. (2007) A Fiducial Argument for Generalized P-Value. Science in China Series A: Mathematics, 50, 957-966. https://doi.org/10.1007/s11425-007-0067-7
[7]	Efron, B. (1979) Bootstrap Methods: Another Look at the Jackknife. Annals of Statistics, 7, 1-26. https://doi.org/10.1214/aos/1176344552
[8]	Tian, L.L., Ma, C.X. and Vexler, A. (2009) A Parametric Bootstrap Test for Comparing Heteroscedastic Regression Models. Communications in Statistics-Simulation and Computation, 38, 1026-1036. https://doi.org/10.1080/03610910902737077
[9]	Bain, L.J. (1978) Statistical Analysis of Reliability and Life-Testing Models. Marcel Dekker, New York, NY.

为你推荐

友情链接