切比雪夫不等式的几个典型应用
Typical Applications of Chebyshev Inequality
DOI: 10.12677/AAM.2022.116366, PDF, HTML, XML, 下载: 213  浏览: 699 
作者: 陈天问:南京审计大学国际学院,江苏 南京
关键词: 切比雪夫不等式大数定理估值概率不等式Chebyshev Inequality Large Number Theorem Estimation Probability Inequality
摘要: 探讨切比雪夫不等式在不等式估值、大数定理证明和概率不等式相关计算与证明中的典型应用,从中可看出切比雪夫不等式在概率论中的重要价值。
Abstract: Typical applications of Chebyshev inequality in inequality valuation, large number theorem proof and related calculation and proof of probability inequality are discussed, from which we can see the important value of Chebyshev inequality in probability theory.
文章引用:陈天问. 切比雪夫不等式的几个典型应用[J]. 应用数学进展, 2022, 11(6): 3435-3441. https://doi.org/10.12677/AAM.2022.116366

1. 引言

设随机变量X的数学期望和方差分别为EX和DX,对任意的常数 ε > 0 ,事件 ( | X E X | ε ) 发生的概率 P ( | X E X | ε ) ,直观地看应该与DX有一定的关系。因为DX刻画了X离开EX的平均偏离程度,所以如果DX越大,那么相应地, P ( | X E X | ε ) 也会大一些,将这个直觉进行严格抽象,就是下面的定理。

定理 [1] 若随机变量 ξ 的方差 D ( X ) 存在,则对任何 ε > 0 ,都有 P ( | X E ( X ) | ε ) D ( X ) ε 2 或者 P ( | X E ( X ) | < ε ) 1 D ( X ) ε 2

证明1) 当X是离散型随机变量时,设 P ( X = x i ) = p i i = 1 , 2 , 是其分布列,则

P ( | X E ( X ) | ε ) = | x i E ( X ) | ε p i | x i E ( X ) | ε ( x i E ( X ) ) 2 ε 2 p i 1 ε 2 i = 1 ( x i E ( X ) ) 2 p i = D ( X ) ε 2

2) 当X为连续型随机变量时,设 f ( x ) 是其概率密度函数,则不难得到

D ( X ) = + ( x i E ( X ) ) 2 f ( x ) d x E ( X ) ε ( x i E ( X ) ) 2 f ( x ) d x + E ( X ) + ε + ( x i E ( X ) ) 2 f ( x ) d x ε 2 E ( X ) ε f ( x ) d x + ε 2 E ( X ) + ε + f ( x ) d x = ε 2 P ( X E ( X ) ε ) + ε 2 P ( X E ( X ) + ε ) = ε 2 P ( | X E ( X ) | ε )

P ( | X E ( X ) | ε ) D ( X ) ε 2 或者 P ( | X E ( X ) | < ε ) 1 D ( X ) ε 2 称之为切比雪夫不等式,这两种表达形式是等价的。由切比雪夫不等式可知, D ( X ) 越小,X的取值越集中在 E ( X ) 附近,这进一步说明方差的含义:它确实刻画了随机变量取值的分散程度 [2]。受定理证明的启发,不难得出以下推论。

推论 设 g ( x ) > 0 ( 0 < x < + ) 且为非降函数,设X为连续型随机变量且 E { g ( | X E ( X ) | ) } 存在,则对任意 ε > 0 ,有 P ( | X E ( X ) | ε ) E { g ( | X E ( X ) | ) } g ( ε )

证明设连续型随机变量X的概率密度为 p ( x ) ,则有 P ( | X E ( X ) | ε ) | X E ( X ) | ε p ( x ) d x 。由于 g ( x ) > 0 且非降,故当 | X E ( X ) | ε 时,有 g ( | X E ( X ) | ) g ( ε ) ,即 g ( | X E ( X ) | ) g ( ε ) 1 ,所以

P ( | X E ( X ) | ε ) | X E ( X ) | ε g ( | X E ( X ) | ) g ( ε ) p ( x ) d x 1 g ( ε ) + g ( | X E ( X ) | ) p ( x ) d x = E { g ( | X E ( X ) | ) } g ( ε )

2. 利用切比雪夫不等式估值

2.1. 估计事件 P ( | X E ( X ) | ε ) 的概率

从切比雪夫不等式不难看到,当概率分布的类型不知道时,方差和数学期望这两个数字特征,也能提供关于概率分布的某些信息。利用数学期望和方差这两个重要数字特征,切比雪夫不等式对随机变量的概率分布进行估计,它给出了在X的分布未知时,概率 P ( | X E ( X ) | ε ) 的一个上限。在切比雪夫不等式中,若取 ε = 3 D ( X ) = 3 σ ,便有 P ( | X E ( X ) | 3 σ ) D ( X ) ( 3 D ( X ) ) 2 = 1 9 0.111 ;若取 ε = 2 D ( X ) = 2 σ ,便有 P ( | X E ( X ) | 3 σ ) D ( X ) ( 2 D ( X ) ) 2 = 1 4 = 0.25 。可见,对任何分布,只要期望 E ( X ) 和方差 D ( X ) 存在,可以得到关于概率 P ( | X E ( X ) | k σ ) D ( X ) ( k D ( X ) ) 2 = 1 k 2 的粗略估计,即当“X与EX的绝对差不小于k倍标准差”时的概率不大于 1 k 2 。从估计随机变量取值偏离 E ( X ) 超过k个标准差的概率的算式,我们可以知道,当X的概率分布未知时,随机变量取值偏离 E ( X ) 超过 3 σ 的概率很小,当然如果知道了随机变量的分布,计算的概率就更精确了。下面以X服从正态分布为例来比较下估计值和计算真值的差距。若X服从正态分布,应用切比雪夫不等式得 P ( | X E ( X ) | 3 σ ) 1 9 0.111 ,但因为 X E ( X ) σ 服从标准正态分布,故 P ( | X E ( X ) | 3 σ ) = P ( | X E ( X ) | σ 3 ) = 1 P ( | X E ( X ) | σ < 3 ) = 1 0.9974 = 0.0026 。由估计值和计算值比较可知,在切比雪夫不等式中,只需要知道方差 D ( X ) 及数学期望 E ( X ) 两个数字特征就够了,无需知道X的分布,但也正是因为随机变量的统计规律无从知晓,导致它不能用到分布函数或密度函数,所以它给出的估计通常又是比较粗糙的,精度不够。这也正是其缺点所在,不过,虽然它有时不能很好地估计出 P ( | X E ( X ) | ε ) 的值,但是在只知道 D ( X ) 的情况下,不可能比这个不等式做得更好了 [3]。

例1设随机变量 X 1 , X 2 , , X n 是相互独立且同分布的随机变量, E ( X i ) = μ D ( X i ) = 8 ( i = 1 , 2 , , n ) X ¯ = 1 n i = 1 n X i ,试估计 P { | X ¯ n μ | < 4 } α α

解析 因为 E ( X ¯ ) = E ( 1 n i = 1 n X i ) = 1 n i = 1 n E ( X i ) = 1 n n μ = μ ,且

D ( X ¯ ) = D ( 1 n i = 1 n X i ) = 1 n 2 n i = 1 n D ( X i ) = 8 n ,所以,满足 X ¯ 的切比雪夫不等式为 P ( | X ¯ μ | ε ) D ( X ¯ ) ε 2 = 8 n ε 2 。当 ε = 4 时,即为 P { | X ¯ n μ | < 4 } 1 8 4 2 n = 1 1 2 n

2.2. 估计随机变量落在有限区间的概率

从切比雪夫不等式可以看出随机变量数字特征的重要性。许多常见随机变量的分布,如正态分布、二项分布、泊松分布等,在分布类型为已知时,完全由它的数学期望和方差所决定,在分布类型未知时,基于切比雪夫不等式描述随机变量的变化情况,也能提供关于概率分布的某些信息。随机变量落入有限区间的概率便可以通过这个信息粗略估计出来。从式子的特征角度看,切比雪夫不等式适用于对X以 E ( X ) 为中心的对称区域上取值概率的估计,故欲求事件 { a < X < b } 的概率,关键是将其改写为 { | X E ( X ) | < ε } { | X E ( X ) | ε } 的形式,方法是将不等式 a < X < b 的各端同时减去 E ( X )

例2随机地抛6枚骰子,利用切比雪夫不等式估计6枚骰子出现点数之和在15点到27点之间的概率。

解析以 X i 记第 i ( i = 1 , 2 , , 6 ) 枚骰子出现的点数,显然 X i 相互独立。6枚骰子出现点数之和的总数 X = i = 1 n X i ,所以 E ( X i ) = 1 6 ( 1 + 2 + 3 + 4 + 5 + 6 ) = 21 6 ,且 D ( X i ) = 1 6 [ ( 1 21 6 ) 2 + ( 2 21 6 ) 2 + + ( 6 21 6 ) 2 ] = 35 12 。故 E ( X ) = 21 D ( X ) = 35 2 。由切比雪夫不等式, P { 15 < X < 27 } = P { | X 2 | < 6 } 1 35 2 / 6 2 = 37 72

例3设X的密度函数为 p ( x ) = { x m m ! e x , x > 0 0 , x 0 ,其中m为非负整数,试估计 P { 0 < X < 2 ( m + 1 ) }

解析

E X = 0 + x x m m ! e x d x = 1 m ! 0 + x m + 1 e x d x = ( m + 1 ) ! m ! = m + 1

E X 2 = 0 + x 2 x m m ! e x d x = 1 m ! 0 + x m + 2 e x d x = ( m + 2 ) ! m ! = ( m + 2 ) ( m + 1 )

D ( X ) = E ( X 2 ) ( E X ) 2 = ( m + 2 ) ( m + 1 ) ( m + 1 ) 2 = m + 1

为了构造切比雪夫不等式的形式,必须将所求的不等式进行变形,将 0 < X < 2 ( m + 1 ) 的各端同时减去 E X = m + 1 ,从而

P { 0 < X < 2 ( m + 1 ) } = P { ( m + 1 ) < X ( m + 1 ) < ( m + 1 ) } = P { | X ( m + 1 ) | < ( m + 1 ) } 1 D ( X ) ( m + 1 ) 2 = m m + 1

注此分布是尺度参数为1,形状参数为 m + 1 Γ 分布,即 X ~ G ( 1 , m + 1 ) G ( 1 , 1 ) 即是参数为1的指数分布, Γ 分布 G ( λ , r ) 具有“再生性”,r为正整数的 Γ 分布可视作为r个独立的服从指数分布的随机变量之和,因此本例中数学期望和方差可以直接得到。

3. 切比雪夫不等式是证明大数定律的有利工具

我们在实际的运算中,经常用频率近似作为概率,用频率值来代替概率值,这样做的理论依据便是大数定理。大数定律以严格的数学形式表达了平均结果的稳定性,是随机现象统计规律性的具体表现。切比雪夫不等式是证明大数定律的理论基础,对大数定律的理论完善起到了至关重要的作用 [4],在理论上有重大意义。

伯努利大数定理设 μ n 是n次伯努利概型中事件A发生的次数,而p是事件A在每次试验中发生的概率,则对任意 ε > 0 ,都有 lim n P ( | μ n n p | ε ) = 0

证明设 X i = { 1 , i A 0 , i = 1 , 2 , , n ,那么 { X i } 是独立同分布随机变量序列,且满足 μ n = i = 1 n X i E ( X i ) = p D ( X i ) = p ( 1 p ) ,则由切比雪夫不等式得到:对任意 ε > 0

P ( | μ n n p | ε ) = P ( | i = 1 n X i n E ( i = 1 n X i ) n | ε ) = P ( | i = 1 n X i E ( i = 1 n X i ) | n ε ) n p ( 1 p ) ( n ε ) 2

lim n P ( | μ n n p | ε ) = 0

泊松大数定理设 { X n } 为相互独立的随机变量序列, P ( X n = 1 ) = p n P ( X n = 0 ) = q n ,其中 q n = 1 p n ,则 { X n } 服从大数定理。

证明 E ( X n ) = 1 n i = 1 n p i = p n D ( X n ) = 1 n 2 i = 1 n D ( X i ) = 1 n 2 i = 1 n p i q i 1 n 2 i = 1 n ( p i + q i 2 ) 2 = 1 4 n

由切比雪夫不等式得到:对任意 ε > 0 ,有 P ( | X n p n | ε ) D ( X n ) ε 2 1 4 n ε 2 ,故 lim n P ( | μ n n p | ε ) = 0

马尔可夫大数定理 设随机变量序列 { X n } 满足马尔可夫条件: lim n D ( i = 1 n X i ) n 2 = 0 ,则 { X n } 服从大

数定理。

证明由切比雪夫不等式得到:对任意 ε > 0 ,有 P ( | i = 1 n X i n i = 1 n E X i n | ε ) D ( 1 n i = 1 n X i ) ε 2 = D ( i = 1 n X i ) n 2 ε 2 ,故 lim n P ( | 1 n i = 1 n X i 1 n E i = 1 n ( X i ) | ε ) = 0

切比雪夫大数定理设随机变量 X 1 , X 2 , , X n , 相互独立,且存在期望和方差: E ( X k ) = μ k D ( X k ) = σ k 2 k = 1 , 2 , ,并且 σ k 2 ( k = 1 , 2 , ) 一致有界,作前n个随机变量的算术平均 X ¯ = 1 n k = 1 n X k ,则对任意的 ε > 0 ,有 lim n P { | X ¯ n μ | < ε } = 1 ,其中 μ = 1 n k = 1 n μ k 为数学期望的平均值。

证明由于 E ( X ¯ ) = E ( 1 n k = 1 n X k ) = 1 n k = 1 n μ k = μ

D ( X ¯ ) = D ( 1 n k = 1 n X k ) = 1 n 2 k = 1 n D ( X k ) = 1 n 2 D ( σ k 2 )

因为 σ k 2 ( k = 1 , 2 , ) 一致有界,所欲存在一常数 c > 0 ,使得 σ k 2 c ,于是 D ( X ¯ ) 1 n 2 k = 1 n c = c n 。由切比雪夫不等式, P { | X ¯ n μ | < ε } 1 c n ε 2 。令 n ,由夹逼定理,可得 lim n P { | X ¯ n μ | < ε } = 1

| X ¯ n μ | < ε 意味着 X ¯ n 的任意一个取值能够与 μ 充分接近,这本是一个可能性不大的事件,但是只要n充分大, X ¯ n 的任意取值都与 μ 充分接近的事件几乎肯定发生的。

4. 在概率式中的计算与证明

例4已知 D ( X ) = 0 ,证明 P { X = E ( X ) } = 1

证明 P { X = E ( X ) } = P { X E ( X ) = 0 } = 1 P { X E ( X ) 0 }

{ X E ( X ) 0 } = { | X E ( X ) | 0 } = n = 1 { | X E ( X ) | 1 n }

因为 P { | X E ( X ) | 0 } = n = 1 P { | X E ( X ) | 1 n } ,而 P { | X E ( X ) | 1 n } D ( X ) n = 0 ,所以 P { | X E ( X ) | 0 } = 0 ,于是 P { | X E ( X ) | = 0 } = 1 。即 P { X = E ( X ) } = 1

注转化 n = 1 { | X E ( X ) | 1 n } 这一步十分重要,由此可利用切比雪夫不等式。

例5将n个带有号码1至n的球投入n个编号为1至n的匣子,并限制每一个匣子只能进一只球,

设球与匣子号码一致的只数是 S n ,试证明: S n E ( S n ) n P 0

证明令 X i = { 1 , i i 0 , ,则 S n = X 1 + X 2 + + X n E ( X i ) = 1 n

D ( X i ) = 1 n ( 1 1 n ) C o v ( X i , X j ) = 1 n 2 ( n 1 ) D ( S n ) = n D ( X i ) + n ( n 1 ) C o v ( X 1 , X 2 ) = 1 。由切比雪夫不等式,对任意的 ε > 0 ,有

P { | S n E ( S n ) n | ε } = P { | S n E ( S n ) | n ε } D ( S n ) n 2 ε 2 = 1 n 2 ε 2 n 0

S n E ( S n ) n P 0

典型问题中还包括“利用切比雪夫不等式估值”的相反问题,即:已知 D ( X ) P { | X E ( X ) | < ε } 至少等于 α ,估算 ε [5]。

例6抛掷一颗均匀的骰子,为了至少有95%的把握使6点向上的频率与概率 p = 1 6 之差落在0.01的范围之内,问需要抛掷多少次?

解析设A = “骰子6点向上”, μ n 是n次抛掷骰子中6点向上的次数

X i = { 1 , i A 0 , i A i = 1 , 2 , , n ,则 X 1 , X 2 , , X n 相互独立,且 E ( X i ) = p D ( X i ) = p ( 1 p ) 。而 μ n = i = 1 n X i ,于是问题为求满足不等式 P ( | μ n n 1 6 | < 0.01 ) 0.95 的n。显见 D ( μ n ) = n p ( 1 p ) = 5 36 n 。由切比雪夫不等式得 P ( | μ n n 1 6 | < 0.01 ) 1 D ( μ n n ) 0.01 2 = 1 5 36 × 0.01 2 n ,欲 P ( | μ n n 1 6 | < 0.01 ) 0.95 ,只要 1 5 36 × 0.01 2 n 0.95 ,解不等式求得 n 27778

注注意到 μ n 服从二项分布 b ( n , p ) ,又根据棣美佛——拉普拉斯中心极限定理, μ n n p n p ( 1 p ) 具有近似分布 N ( 0 , 1 ) ,从而 μ n 具有近似分布 N ( n p , n p ( 1 p ) ) ,所以我们也可利用二项分布的正态近似估计试验次数n。由 P ( | μ n n 1 6 | < 0.01 ) = P ( ( 1 6 0.01 ) n < μ n < ( 1 6 + 0.01 ) n ) Φ ( ( 1 6 + 0.01 ) n n 6 n × 1 6 × 5 6 ) Φ ( ( 1 6 0.01 ) n n 6 n × 1 6 × 5 6 ) = 2 Φ ( 0.012 5 n ) 1 。欲 P ( | μ n n 1 6 | < 0.01 ) 0.95 ,只要 2 Φ ( 0.012 5 n ) 1 0.95 ,查表求得 n 5336 。将两者进行比较,显然,应用中心极限定理得出的结论较为精确,应用切比雪夫不等式得出的结论明显粗糙。这是因为 μ n 服从正态分布的特殊性并未在切比雪夫不等式中加以利用,这也恰恰说明当概率分布未知时切比雪夫不等式所能体现出来的独特应用价值。

参考文献

[1] 缪铨生. 概率与统计[M]. 第3版. 上海: 华东师范大学出版社, 2007.
[2] 霍玉洪. 切比雪夫不等式及其应用[J]. 长春工业大学学报(自然科学版), 2012, 33(6): 712-714.
[3] 薛留根. 概率统计问题与思考[M]. 北京: 科学出版社, 2011.
[4] 夏利民, 成福伟. 切比雪夫不等式应用几例[J]. 承德民族师专学报, 2008, 28(2): 3-4.
[5] 李春香, 赵桂华, 黄平, 祝国强. 基于方差的切比雪夫不等式的推广及应用[J]. 统计与决策, 2017(2): 68-70.