正相协相依样本下分布函数的经验似然统计推断

doi:10.12677/PM.2019.91012

期刊菜单

正相协相依样本下分布函数的经验似然统计推断
Empirical Likelihood Statistic Inference for Distribution Function for PA Dependent Samples

DOI: 10.12677/PM.2019.91012, PDF, HTML, XML, 科研立项经费支持
作者: 黄娟：广东海洋大学，数学与计算机学院，广东湛江
关键词: 正相协；分组经验似然；置信区间；Positive Associate； Group Empirical Likelihood； Confidence Intervals

摘要: 本文将在正相协相依样本下，利用分组经验似然比方法，构造分布函数的置信区间。

Abstract: This paper studies distribution function by group empirical likelihood method under strongly sta-tionary PA random sample. And we develop empirical likelihood ratio method to construct ap-proximate confidence regions for distribution function.

文章引用：黄娟. 正相协相依样本下分布函数的经验似然统计推断[J]. 理论数学, 2019, 9(1): 89-97. https://doi.org/10.12677/PM.2019.91012

1. 引言

Joag-Dey和Proschan (1983, [1] )提出了PA (positive associate)随机变量在可靠性理论和多元统计分析中有广泛的应用。经验似然是由Owen (1988)提出的一种非参数推断方法 [2] [3] ，其有类似Bootstrap的抽样特性。这一方法与传统的统计方法比较有很多优点。比如：用经验似然方法构造置信区间拥有域保持性，变换不变性，置信域的形状由数据自行决定，以及Bartlett纠偏性和无需构造轴统计量等等。因而在相依情形下，经验似然方法研究成果少见 [4] - [10] ，尤其在PA相依样本见之甚少。目前，关于分布函数的研究多数局限于非参数核方法。本文将尝试在PA相依样本下，攻克普通经验似然方法的缺陷，重新利用分组经验似然方法，构造未知的分布函数置信区间。首先给出PA序列概念。

定义1： [1] 称随机变量 $X_{1}, X_{2}, \dots, X_{n}$ ( $n \geq 2$ )是PA的，如果对于集合 ${1, 2, \dots, n}$ 的任何两个不相交的非空子集 $A_{1}$ 和 $A_{2}$ ，都有

$C o v (f_{1} (X_{i}, i \in A {}_{1}), f_{2} (X_{j}, j \in A {}_{2})) \geq 0$

此处， $f_{1}$ 与 $f_{2}$ 是任何两个使得协方差存在的对每个变量均非降(或非升)的函数。称随机变量序列 ${X_{i}, i \in N}$ 是PA序列，如果对任何 $n \geq 2$ ，随机变量 $X_{1}, X_{2}, \dots, X_{n}$ ( $n \geq 2$ )都是PA (正相协)的。

若 $X_{1}, X_{2}, \dots, X_{n}$ 为来自总体 $X$ 的正相协样本，由于 $E I_{{X_{i} \leq x}} = F (x)$ ，

经验似然 $R (F (x)) = \sup {\prod_{i = 1}^{n} n w_{i}, w_{i} \geq 0, \sum_{i = 1}^{n} w_{i} = 1, \sum_{i = 1}^{n} w_{i} I_{{X_{i} \leq x}} = F (x)}$

对数经验似然为 $l (F (x)) = - 2 \log R (F (x)) = 2 \sum_{i = 1}^{n} \log (1 + s [I_{{X_{i} \leq x}} - F (x)])$ 。

此处 $s \in R^{1}$ ，且满足 $K (s) = \frac{1}{n} \sum_{i = 1}^{n} \frac{I_{{X_{i} \leq x}} - F (x)}{1 + s [I_{{X_{i} \leq x}} - F (x)]} = 0$ 。

2. 主要的结论及其证明

条件：

1) $X_{1}, X_{2}, \dots, X_{n}$ 是来自总体的强平稳PA样本；

2) 令 $u_{n} = \sup_{k} \sum_{j : | j - k | \geq n} C o v [(I_{{X_{j} \leq x}} - F (x)), (I_{{X_{k} \leq x}} - F (x))] < \infty$ ，若对某个 $r > 2$ ，满足 $u_{n} = O (n^{\frac{- (r - 2)}{2}})$ ，

3) $\sum_{i = 1}^{\infty} C o v [(I_{{X_{1} \leq x}} - F (x)), (I_{{X_{1 +}_{i} \leq x}} - F (x))] < \infty$ ；

定理1：如果上述条件成立，我们有

$l (F (x)) \to_{d} \frac{A^{2}}{σ^{2}} χ_{(1)}^{2}, n \to \infty$ 。

此处 $A^{2} = V a r [I_{{X \leq x}} - F (x)] + 2 \sum_{i = 1}^{\infty} C o v [((I_{{X_{1} \leq x}} - F (x)), (I_{{X_{1 +}_{i} \leq x}} - F (x)))]$ ， $σ^{2} = V a r (I_{{X_{i} \leq x}} - F (x))$ 。

然而 $A^{2}$ 和 $σ^{2}$ 未知，定理1的结果不能应用，为了攻克这一缺陷，下面利用分组经验似然方法，重新构造经验似然比函数。

记 $m = [n^{α}], g = [\frac{n}{2 m}]$ ，其中 $[\cdot]$ 表示取整， $0 < α < \frac{1}{2}$ 为简单起见，使 $n = 2 m g$ 。

令 $ξ_{i} = \sum_{j = 1}^{m} [I_{{X_{_{2 (i - 1) m + j}} \leq x}} - F (x)]$ $η_{i} = \sum_{j = 1}^{m} [I_{{X_{_{(2 i - 1) m + j}} \leq x}} - F (x)]$ $Y_{2 i - 1} = \frac{ξ_{i}}{m}, Y_{2 i} = \frac{η_{i}}{m}$ (对任意的 $i = 1, 2, \dots, g$ )

由于 ${X_{i} | i \geq 1}$ 的强平稳性， $Y_{i} (i = 1, \dots, 2 g)$ 有共同分布函数 $G$ ，对应经验分布函数 $G_{2 g}$ 。分组经验似然比为 $R^{'} (F (x)) = \sup {\prod_{i = 1}^{2 g} 2 g {P^{'}}_{i} | \sum_{i = 1}^{2 g} {P^{'}}_{i} = 1, {P^{'}}_{i} \geq 0, \sum_{i = 1}^{2 g} {P^{'}}_{i} \sqrt{m} Y_{i} = 0}$ 。

对数经验似然比为 $l^{'} (F (x)) = - 2 \log R^{'} (F (x)) = 2 \sum_{i = 1}^{2 g} \log (1 + λ \sqrt{m} Y_{i})$ 。

此处 $λ \in R^{1}$ 且满足 $K^{'} (λ) = \frac{1}{2 g} \sum_{i = 1}^{2 g} \frac{\sqrt{m} Y_{i}}{1 + λ \sqrt{m} Y_{i}} = 0$ 。

定理2：在定理1的条件下，我们有 $l^{'} (F (x)) \to_{d} χ_{(1)}^{2}$ ， $n \to \infty$ 。

利用定理2，当样本 $n$ 比较大时，可构造未知的分布函数 $F (x)$ 的置信水平为 $1 - α$ 的渐近置信区域： $P (F (x) | l^{'} (F (x)) \leq C_{α}) \approx 1 - α$ ，其中 $C_{α}$ 为 $χ_{(1)}^{2}$ 分布的上 $α$ 分位点，例如 $α$ 取0.05或0.01。

引理1：记 $Z_{n} = \max_{1 \leq i \leq n} | [E I_{{X_{i} \leq x}} - F (x)] |$ ，有 $Z_{n} = ο_{p} (n^{\frac{1}{2}})$ 。

证明：由于 $[E I_{{X_{i} \leq x}} - F (x)]$ 有界，易得

$Z_{n} = \max_{1 \leq i \leq n} | [E I_{{X_{i} \leq x}} - F (x)] | = ο_{p} (n^{\frac{1}{2}})$ 。

引理2： [7] 若 $X_{1}, X_{2}, \dots, X_{n}$ 为PA变量，有 $| X_{j} | \leq C$ ，且 $E X_{j} = 0$ ， $j = 1, \dots, N$ 。令 $S_{n} = \sum_{j = 1}^{n} X_{j}$ ， $u_{n} = \sup_{k} \sum_{j : | j - k | \geq n} C o v (X_{j}, X_{k})$ ，假设对某个 $r > 2$ ， $u_{n} = O (n^{\frac{- (r - 2)}{2}})$ ，则

$\sup_{m \in N \cup {0}} E {| S_{m + n} - S_{n} |}^{r} \leq C n^{\frac{r}{2}}$ 。

引理3： [11] 设 ${X_{i} | i \geq 1}$ 是强平稳PA序列，并且 $\sum_{i = 1}^{\infty} C o v (X_{1}, X_{1 + i}) < \infty$ ，假定 $E X_{1} = 0$ ， $E {| X_{1} |}^{2} < \infty$ ，则 $A_{0}^{2} = E X_{1}^{2} + 2 \sum_{i = 1}^{\infty} E (X_{1} X_{1 + i})$ 收敛，且有

$\sup_{- \infty < x < \infty} | P (\frac{\frac{1}{\sqrt{n}} \sum_{i = 1}^{n} X_{i}}{A_{0}} < x) - Φ (x) | \to 0$ ，其中 $Φ (x)$ 为标准正态分布。

引理4：设 ${X_{i} | i \geq 1}$ 是强平稳PA序列，则有 $\frac{1}{2 g} \sum_{i = 1}^{2 g} m {(Y_{i})}^{2} = A^{2} + ο_{p} (1)$ 。

其中 $A^{2} = V a r [I_{{X \leq x}} - F (x)] + 2 \sum_{i = 1}^{\infty} C o v [(I_{{X_{1} \leq x}} - F (x)), (I_{{X_{1 +}_{i} \leq x}} - F (x))]$ 。

证明：令 $S_{2} = \frac{1}{2 g} \sum_{i = 1}^{2 g} m {(Y_{i})}^{2}$ ，利用引理2和条件2有

$\begin{matrix} E {(S_{2}^{'} - E S_{2}^{'})}^{2} = {(\frac{m}{2 g})}^{2} E {[\sum_{i = 1}^{2 g} ({(Y_{i}^{'})}^{2} - E {(Y_{i}^{'})}^{2})]}^{2} \\ \leq C (\frac{m^{2}}{2 g}) E {(Y_{i})}^{4} \\ \leq C \frac{m^{2}}{2 g} \frac{E {| I_{{X_{i} \leq x}} - F (x) |}^{4}}{m^{2}} \\ \leq \frac{C}{2 g} E {| I_{{X_{i} \leq x}} - F (x) |}^{4} \to 0 \end{matrix}$

此处 $C$ 为某个正常数，不同的地方 $C$ 取值可不同。

因此有 $S_{2} = E S_{2} + ο_{p} (1)$ 。

由于 $\begin{matrix} E S_{2} = \frac{m}{2 g} \sum_{i = 1}^{2 g} E {(Y_{i})}^{2} = m E {(Y_{i})}^{2} = \frac{1}{m} E {(\sum_{i = 1}^{m} I_{{X_{i} £ x}} - F (x))}^{2} \\ = \frac{1}{m} {\begin{cases} m V a r (I_{{X_{i} \leq x}} - F (x)) + 2 m \sum_{i = 1}^{m - 1} C o v [(I_{{X_{1} \leq x}} - F (x)), (I_{{X_{1 + i} \leq x}} - F (x))] \\ - 2 \sum_{i = 1}^{m - 1} i C o v [(I_{{X_{1} \leq x}} - F (x)), (I_{{X_{1 + i} \leq x}} - F (x))] \end{cases}} \\ = V a r (I_{{X_{i} \leq x}} - F (x)) + 2 \sum_{i = 1}^{m - 1} C o v [(I_{{X_{1} \leq x}} - F (x)), (I_{{X_{1 + i} \leq x}} - F (x))] \\ - \frac{2}{m} \sum_{i = 1}^{m - 1} i C o v [(I_{{X_{1} \leq x}} - F (x)), (I_{{X_{1 + i} \leq x}} - F (x))] \end{matrix}$

利用引理3和文献 [12] 知 $E S_{2} = A^{2} + ο (1)$ 。

综上可得 $S_{2} = E S_{2} + ο_{p} (1) = A^{2} + ο (1) + ο_{p} (1) = A^{2} + ο_{p} (1)$ 。

定理1的证明：

由于

$P {(I_{{X_{i} \leq x}} - F (x)) < 0} \geq ε > 0, P {(I_{{X_{i} \leq x}} - F (x)) > 0} \geq ε > 0$ ， (3.1)

这表明0是集合 ${I_{{X_{1} \leq x}} - F (x), 1 \leq i \leq n}$ 所构成的凸包的内点，

因此 $R (F (x)) = \sup {R (F) | \int I_{{X_{i} \leq x}} - F (x) d F = 0, F ≪ F_{n}}$ 存在为正。 (3.2)

观察到 $R (F (x)) = \sup \prod_{i = 1}^{n} n w_{i}$ ， (3.3)

对上式右端对 $w_{i}$ 求上确界时，满足 $w_{i} \geq 0, \sum_{i = 1}^{n} w_{i} = 1, 且 \sum_{i = 1}^{n} w_{i} [I_{{X_{i} \leq x}} - F (x)] = 0$ 。

利用拉格朗日乘子法，可得 $w_{i} = \frac{1}{n (1 + s (I_{{X_{i} \leq x}} - F (x)))}, 1 \leq i \leq n$ 。 (3.4)

此处 $s \in R^{1}$ ，且满足

$h (s) = \frac{1}{n} \sum_{i = 1}^{n} \frac{I_{{X_{i} \leq x}} - F (x)}{1 + s (I_{{X_{i} \leq x}} - F (x))} = 0$

$\begin{matrix} 0 = | h (s) | = \frac{1}{n} | \sum_{i = 1}^{n} (I_{{X_{i i} \leq x}} - F (x)) - \sum_{i = 1}^{n} \frac{s {(I_{{X_{i} \leq x}} - F (x))}^{2}}{1 + (I_{{X_{i} \leq x}} - F (x))} | \\ \geq \frac{| s | \frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2}}{1 + | s | Z_{n}} - | \frac{1}{n} \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x)) | \end{matrix}$ (3.5)

再利用引理3知： $\frac{| s |}{1 + | s | Z_{n}} = Ο_{p} (\frac{1}{\sqrt{n}})$ ，利用引理2得 $s = Ο_{p} (\frac{1}{\sqrt{n}})$ 。(3.6)

令 $γ_{i} = s (I_{{X_{i} \leq x}} - F (x)), s$ 满足 $h (s) = 0$ ，

利用(3.6)式及引理1知： $\max_{1 \leq i \leq n} | γ_{i} | = Ο_{p} (\frac{1}{\sqrt{n}}) ο_{p} (\sqrt{n}) = ο_{p} (1)$ 。 (3.7)

则有 $\begin{matrix} 0 = h (s) = \frac{1}{n} \sum_{i = 1}^{n} \frac{(I_{{X_{i} \leq x}} - F (x))}{1 + s (I_{{X_{i} \leq x}} - F (x))} \\ = \frac{1}{n} \sum_{i = 1}^{n} \frac{(I_{{X_{i} \leq x}} - F (x))}{1 + γ_{i}} \\ = \frac{1}{n} \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x)) (1 - γ_{i} + \frac{γ_{i}^{2}}{1 + γ_{i}}) \\ = \frac{1}{n} \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x)) - s \frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2} \\ + \frac{1}{n} \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x)) \frac{γ_{i}^{2}}{1 + γ_{i}} \end{matrix}$ 。

令 $s = \frac{\frac{1}{n} \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x))}{\frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2}} + β,$ 利用(3.6)，(3.7)式和引理4可得

$β = \frac{\frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{3} s^{2}}{\frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2} (1 + γ_{i})} = ο_{p} (\sqrt{n}) Ο_{p} (\frac{1}{n}) = ο_{p} (\frac{1}{\sqrt{n}})$ 。

借助Taylor展开，我们有 $\log (1 + γ_{i}) = γ_{i} - \frac{γ_{i}^{2}}{2} + η_{i}$ ，对某正数 $G$ 有

$P {| η_{i} | \leq G {| γ_{i} |}^{3}, 1 \leq i \leq n} \to 1, n \to \infty$ 。

则有

$\begin{matrix} l (F (x)) = - 2 \log R (F (x)) = 2 \sum_{i = 1}^{n} \log (1 + γ_{i}) = 2 \sum_{i = 1}^{n} γ_{i} - \sum_{i = 1}^{n} γ_{i}^{2} + 2 \sum_{i = 1}^{n} η_{i} \\ = 2 \sum_{i = 1}^{n} (\frac{\frac{1}{n} \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x))}{\frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2}} + β) ((I_{{X_{i} \leq x}} - F (x))) \\ - {\sum_{i = 1}^{n} (\frac{\frac{1}{n} \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x))}{\frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2}} + β)}^{2} {(I_{{X_{i} \leq x}} - F (x))}^{2} + 2 \sum_{i = 1}^{n} η_{i} \\ = \frac{\frac{2}{n} (\sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2})}{\frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2}} + 2 β \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x)) - \frac{\frac{1}{n} {(\sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x)))}^{2}}{\frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2}} \\ - 2 β \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x)) - β^{2} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2} + 2 \sum_{i = 1}^{n} η_{i} \end{matrix}$

$= \frac{n {(\frac{1}{n} \sum_{i = 1}^{n} (I_{{X_{i} \leq x}} - F (x)))}^{2}}{\frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2}} - n β^{2} \frac{1}{n} \sum_{i = 1}^{n} {(I_{{X_{i} \leq x}} - F (x))}^{2} + 2 \sum_{i = 1}^{n} η_{i} ≙ I_{1} + I_{2} + I_{3}$ 。 (3.8)

再利用引理3知： $I_{1} \to_{d} \frac{A^{2}}{σ^{2}} χ_{(1)}^{2}$ ， $n \to \infty$ 。 (3.9)

由条件得： $I_{2} = ο_{_{p}} (1)$ 。 (3.10)

又由(3.6)和引理2得 $| 2 \sum_{i = 1}^{n} η_{i} | \leq 2 B {| s |}^{3} \sum_{i = 1}^{n} {| (I_{{X_{i} \leq x}} - F (x)) |}^{3} = ο_{p} (1)$

其中 $B$ 为某个正数，故有 $I_{3} = ο_{p} (1)$ 。 (3.11)

综合(3.9)~(3.11)式便得 $l (θ_{0}) \to_{d} \frac{A^{2}}{σ^{2}} χ_{(1)}^{2}$ ， $n \to \infty$ 。 (3.12)

定理2的证明：

只需证明 $l^{'} (F (x)) = - 2 \log R^{'} (F (x)) \to_{d} χ_{(1)}^{2}$ $n \to \infty$ 。 (3.13)

观察到 $R^{'} (F (x)) = \sup \prod_{i = 1}^{2 g} 2 g P_{i}^{'}$ ，对上式右端对 $P_{i}^{'}$ 求上确界时，

满足 ${P^{'}}_{i} \geq 0, \sum_{i = 1}^{2 g} P_{i}^{'} = 1, \sum_{i = 1}^{2 g} P_{i}^{'} \sqrt{m} Y_{i} = 0$ 。

借助拉格朗日乘子法得 $P_{i} = \frac{1}{2 g (1 + λ \sqrt{m} Y_{i})}, 1 \leq i \leq 2 g$ ， (3.14)

此处，且满足。

利用引理1证明得。 (3.15)

有。 (3.16)

。 (3.17)

展开得 (3.18)

此处。

利用引理4得。 (3.19)

利用(3.18)及(3.19)式得。 (3.20)

又由引理1，引理2，(3.17)及(3.20)式知。记。

利用(3.17)和(3.18)式得：。 (3.21)

又展开可得

。

记，有。 (3.22)

利用引理4和(3.18)式得

。 (3.23)

又利用(3.21)，(3.22)和(3.24)式得

。 (3.24)

利用(3.23)式并利用Taylor展开式，则有

(3.25)

此处。

利用引理3及引理4，得，。 (3.26)

利用(3.24)式得。 (3.27)

利用(3.18)和(3.24)式得，

从而可得。 (3.28)

综上(3.25)~(3.28)式得，。 (3.29)

基金项目

本论文得到广东省自然科学基金项目资助(2016A030313812; 2018A030307070)。

参考文献

[1]	Joag-Dev, K. and Proschan, F. (1983) Negative Association of Random Variable with Application. The Annals of Statistics, 11, 286-295.
[2]	Owen, A.B. (1988) Empirical Likelihood Ratio Confidence Intervals for a Single Function. Biometrika, 75, 237-249. [Google Scholar] [CrossRef]
[3]	Owen, A.B. (1990) Empirical Likelihood Confidence Regions. The Annals of Statistics, 18, 90 -120. [Google Scholar] [CrossRef]
[4]	张军舰, 王成名, 等. 相依样本情形下经验似然比置信区间[J]. 高校应用数学学报, 1999, 14(1): 63-72.
[5]	Kitamura, Y. (1997) Empirical Likelihood Methods with Weakly Dependent Process. The Annals of Statistics, 25, 2084-2102. [Google Scholar] [CrossRef]
[6]	Lin, L. and Runchu, Z. (2001) Block Empirical Edulidean Likelihood for Weakly Dependent Process. Statistics & Probability Letters, 53, 143-152. [Google Scholar] [CrossRef]
[7]	Birkel, T. (1988) Moment Bounds for Dependent Associated Sequences. The Annals of Probability, 16, 1184-1193. [Google Scholar] [CrossRef]
[8]	Zhang, J.J. (2006) Empirical Likelihood for NA Series. Statistics & Probability Letters, 76, 153-160. [Google Scholar] [CrossRef]
[9]	Chen, S.X. and Wong, C.M. (2009) Smoothed Block Empirical Likelihood for Quantiles of Weakly Dependent Processes. Statistica Sinica, No. 19, 71-81.
[10]	Zhang, J.J. (2007) Empirical Likelihood Ratio Confidence Interval for Positively Associated Series. Acta Mathematica Applicate Sinica-English Series, No. 23, 245-254.
[11]	Newman, C.M. (1984) Asymptotic Independence and Limit Theorems for Positive and Negative Dependent Random Variable. Inequalities in statistics and Probability, Hayward, 127-140.
[12]	杨善朝. 随机变量部分和的矩不等式[J]. 中国科学, A辑, 2000, 30(3): 218-223.

为你推荐

友情链接