ANA序列下边缘频率插值密度估计的一致强相合性
Uniformly Strong Consistency of Edge Frequency Polygons for ANA Sequences
DOI: 10.12677/sa.2025.145123, PDF, HTML, XML,    科研立项经费支持
作者: 谭亚玲:东华理工大学理学院,江西 南昌;李永明*:上饶师范学院数学与计算科学学院,江西 上饶;李乃医:广东海洋大学数学与计算机学院,广东 湛江
关键词: ANA序列边缘频率插值密度估计一致强相合性ANA Sequences Edge Frequency Polygons Uniform Strong Consistency
摘要: 本文在ANA序列下,利用Rosenthal不等式,研究边缘频率插值密度估计的一致强相合性,并在适当的条件下得到其收敛速度,拓展了已有文献的研究。为验证结论的有效性,使用R软件进行数值模拟。模拟结果显示,随着样本量的增大,边缘频率插值密度估计值逐渐趋于真实密度。
Abstract: In this paper, we study the uniform strong consistency and its rate of the density estimation of edge frequency polygons under asymptotically negatively associated (ANA) sequences using Rosenthal-type inequality, which extends the existing studies in the literature. To validate the theoretical conclusions, we conduct numerical simulations in R software. The results demonstrate that the proposed density estimator converges uniformly to the true density as the sample size increases.
文章引用:谭亚玲, 李永明, 李乃医. ANA序列下边缘频率插值密度估计的一致强相合性[J]. 统计学与应用, 2025, 14(5): 28-36. https://doi.org/10.12677/sa.2025.145123

1. 引言

Jones等[1]提出边缘频率插值密度估计,其定义如下:

设总体X具有密度函数 f( x ) ,其中 X 1 , X 2 ,, X n 是来自总体的样本。在实轴上进行等间距分割,

< x 2 < x 1 < x 0 < x 1 < x 2 ,记第k个区间为 I k =[ ( j 1 2 ) b n ,( j+ 1 2 ) b n ] ,其中k为自然数, j=0,±1,±2,

窗宽长度为 b n 。对于任意的 XR ,存在 k 0 ( x )= k 0 ,使得 X I k0 。取三个相邻的区间

I k 1 =[ ( k 1 1 2 ) b n ,( k 1 + 1 2 ) b n ] , I k 0 =[ ( k 0 1 2 ) b n ,( k 0 + 1 2 ) b n ] , I k 1 =[ ( k 1 1 2 ) b n ,( k 1 + 1 2 ) b n ] ,

其中 k 1 = k 0 1 k 1 = k 0 +1 。记 I k 1 I k 0 I k 1 这三个区间里的观察点的个数分别为 v k 1 v k 0 v k 1 ,则密度函数在这三个区间内的直方图估计分别为

f k i = v k i n 1 b n 1 ,i=1,0,1 ,

x I k 0 =[ ( k 0 1 2 ) b n ,( k 0 + 1 2 ) b n ] 时,密度函数 f( x ) 的边缘频率插值密度估计为

f ^ ( x )=( 1 2 + k 0 x b n ) f k 1 + f k 0 2 +( 1 2 k 0 + x b n ) f k 0 + f k 1 2 . (1)

Y i,k =I[ ( k 1 2 ) b n X i ( k+ 1 2 ) b n ] ,

v k 1 = i=1 n Y i, k 1 , v k0 = i=1 n Y i, k 0 , v k1 = i=1 n Y i, k 1 .

边缘频率插值密度估计是在频率插值密度估计的基础上提出的,其中频率插值密度由Scott [2]提出,是直方图估计的拓展。据研究发现频率插值密度估计与直方图密度估计的计算量相同,并且和核密度估计具有相同的收敛速度,优于直方图密度估计的收敛速度。边缘频率插值密度估计作为频率插值密度估计的拓展,将原来所研究两个区间上升到三个区间,并且文献[1]证明了在最优窗宽下,该密度估计的渐近积分均方误差小于频率插值密度的渐近积分均方误差,因此研究边缘频率插值密度估计是有意义的。

一些学者对估计(1)进行了研究。王天启[3]讨论了 α 混合样本下边缘频率插值密度估计的渐近无偏性,相合性和渐近正态性。张金玲[4]通过引入权重系数,研究了新的加权边缘频率插值密度估计在独立样本序列条件下渐近性质。何琳和杨善朝[5] α 混合随机域样本下研究边缘频率插值密度估计方差的渐近性。邓新等[6]对END样本下边缘频率插值密度估计的一致强相合性进行了研究。Xi等[7] φ 混合样本下讨论了边缘频率插值密度估计的一致强相合性和渐近正态性,并得出了相应的收敛速度。

我们注意到Zhang等[8]提出ANA序列的概念,并且ANA序列包含 ρ 混合序列和负相关(NA)序列。下面给出ANA序列的定义。

定义1:一个随机变量序列 { X n ,n1 } 满足

ρ ( s )=sup{ ρ ( S,T ):S,TN,dist( S,T )s,s } ,

其中

ρ ( S,T )=0{ Cov[ f( X i ,iS ),g( X j ,jT ) ] Var[ f( X i ,iS ) ] Var[ g( X j ,jT ) ] ;f,g } ,

是非降函数的集合,则称 { X n ,n1 } 为渐近负相依(简称ANA或 ρ 混合)序列。

对于ANA序列,Zhang等[9]研究了Linderberg条件以及低阶矩条件下ANA随机场的中心极限定理。Tang等[10]研究了ANA误差下非参数回归模型小波估计的Berry-Esséen界。Wang等[11]研究了ANA序列下频率插值密度估计的一致强相合性。Jin等[12]研究了ANA序列下条件风险估计一致强相合性,并得到其最优收敛速度。孟兵和吴群英[13]研究了ANA序列加权和完全收敛性和完全矩收敛。

基于已有文献,未见研究ANA序列下边缘频率插值密度估计的相关文献。因此,本文将在ANA序列下研究边缘频率插值密度估计的一致强相合性,并在适当的条件下得到一致强相合收敛速度。

本文C表示正常数, x 表示x的整数部分,无特殊说明,极限为 n ,窗宽 b n 为正常数序列。

2. 主要结果

首先给出本文所需的如下假设条件:

(A1) 设 { X i ,1in } 为ANA序列,其密度函数为 f( x )

(A2) 设窗宽 b n 满足 b n 0 n b n

(A3) 设 { τ n ,n1 } 是一趋于0的正数序列,满足 lim n τ n =0 lim n inf( n δ b n 1 2 τ n )>0 0<δ< 1 2

下面我们给出本文的主要结论。

定理1 若条件(A1)~(A3)成立,对于实数集R的任意的子集D

sup xD | f ^ ( x )E f ^ ( x ) |=o( τ n ),as. (2)

f( x ) xR 上可微,且对于 M>0 ,有 | f ( x ) | M 1 ,则有

sup xD | E f ^ ( x )f( x ) |=O( b n ) , (3)

从而

sup xD | f ^ ( x )f( x ) |=o( τ n )+O( b n ),as . (4)

1 在文献[11] τ n 满足的条件为 lim n inf( n δ b n τ n )>0 ,与本文的(A3)条件 lim n inf( n δ b n 1 2 τ n )>0 相比,

本文的条件更弱一些,理论上 τ n 的选择范围更广。其次,本文是在频率插值密度估计研究的基础上进一步研究边缘频率插值密度估计,是对文献[11]研究的进一步推广。

在定理1中,取 τ n = n δ b n 1 2 可得到如下结论。

推论1 若条件(A1)~(A3)成立,对于R的任意的子集D f( x ) xR 上可微,对于 M>0 ,有 | f ( x ) | M 1

sup xD | f ^ ( x )f( x ) |=O( γ( n ) ),as. (5)

其中 γ( n )=max{ b n , n δ b n 1 2 }

2 文献[11]所得到的一致强相合收敛速度为 O{ max( b n , n δ b n 1 ) } ,而本文的收敛速度为 O{ max( b n , n δ b n 1 2 ) } ,从而比[11]更快一些。

3. 主要证明

这一部分将给出主要定理的相关证明和所需的一些引理:

引理1 (见文献[9]) 设 { X n ,n1 } 为ANA序列,若 { f n ,n1 } 是一个非降(或非升)的实函数列,则 f( X n ) 仍然是一列ANA序列,且混合系数不大于原来的混合系数。

引理2 (见文献[9]) 若 { X n ,n1 } 是ANA序列,对任意的 q2 i1 ,有  E X i =0 E | X i | q < ,则存在一个常数 C=C( q, ρ ( ) )

E( max 1jn | i=1 j X i | q )C( i=1 n E | X i | q + ( i=1 n E X i 2 ) q/2 ) .

定理1证明 由于DR的一个子集,假设 D=[ B,B ] B为大于0的正常数,记

U j =[ ( j 1 2 ) b n ,( j+ 1 2 ) b n ] j= r n ,( r n 1 ),,( r n 1 ), r n r n = B b n +1 ,

由此可得

( r n + 1 2 ) b n =( B b n + 3 2 b n )( B b n +1 ) b n = b n 2 +B>B ,

故有

[ B,B ][ ( r n + 1 2 ) b n ,( r n + 1 2 ) b n ]= j= r n r n U j

对任意的 ε>0 | ( 1 2 j+ x b n ) |1 | ( 1 2 +j x b n ) |1

n=1 P ( sup xD | f ^ ( x )E f ^ ( x ) |>ε τ n ) = n=1 j= r n r n P { sup x U j | 1 2 ( 1 2 +j x b n )( f j1 + f j )+ 1 2 ( 1 2 j+ x b n )( f j + f j+1 ) | E[ | 1 2 ( 1 2 +j x b n )( f j1 + f j )+ 1 2 ( 1 2 j+ x b n )( f j + f j+1 ) | ]>ε τ n } n=1 j= r n r n P ( | f j1 ( x )E f j1 ( x ) |> ε τ n 2 )+2 n=1 j= r n r n P ( | f j ( x )E f j ( x ) |> ε τ n 2 ) + n=1 j= r n r n P ( | f j+1 ( x )E f j+1 ( x ) |> ε τ n 2 ) =: n=1 j= r n r n I 1 +2 n=1 j= r n r n I 2 + n=1 j= r n r n I 3 . (6)

接下来证明 I 1 < I 2 < I 3 < ,对于任意的j,令

η i =I[ ( j 1 2 ) b n X i <( j+ 1 2 ) b n ]EI[ ( j 1 2 ) b n X i <( j+ 1 2 ) b n ] =I( X i ( j 1 2 ) b n )EI( X i ( j 1 2 ) b n )[ I( X i ( j+ 1 2 ) b n )EI( X i ( j+ 1 2 ) b n ) ] =: η i1 + η i2 .

由于 { X i ,1in } 为ANA的,故 { η i1 ,1in } { η i2 ,1in } 也是ANA的,并且 | η i |2 ,由引理2 Markov不等式可得

I 2 =P( f j ( x )E f j ( x )> ε τ n 2 ) =P( | i=1 n η i |> ε τ n n b n 2 ) E | i=1 n η i | q ( ε τ n n b n /2 ) q ( ε τ n n b n 2 ) q C[ i=1 n E | η i | q + ( i=1 n E η i 2 ) q 2 ] C n q 2 b n q 2 ( τ n n b n /2 ) q C τ n q n q 2 b n q 2 . (7)

对于足够大的 q2 ,由 r n = B b n +1 可知 r n C b n 1 ,由 n b n lim n inf( n δ b n 1 2 τ n )>0 0<δ< 1 2 可知 b n 1 Cn τ n q b n q 2 n qδ ,故有

n=1 j= r n r n I 2 C n=1 r n b n q 2 τ n q n q 2 C n=1 b n q 2 1 τ n q n q 2 C n=1 b n 1 n qδ n q 2 C n=1 n ( δ 1 2 )q+1 <. (8)

类似可得证

n=1 j= r n r n I 1 C n=1 n ( δ 1 2 )q+1 < , (9)

n=1 j= r n r n I 3 C n=1 n ( δ 1 2 )q+1 < . (10)

由式(6)~(10)可得

n=1 P ( sup xD | f ^ ( x )E f ^ ( x ) | )>ε , (11)

由Borel-Cantelli引理得

sup xD | f ^ ( x )E f ^ ( x ) |=o( τ n ),as . (12)

下证式(3)。对于任意的 x U j i=1,2,,n ,记

J k =I[ ( k 1 2 ) b n X i <( k+ 1 2 ) b n ] k= k 1 , k 0 , k 1

ξ i =( 1 2 + k 0 x b n ) J k 1 + J k 0 2 +( 1 2 k 0 + x b n ) J k 0 + J k 1 2 ,

f ^ ( x )= 1 n b n i=1 n ξ i ( x ) .

F[ ( k 1 2 ) b n ] F[ ( k+ 1 2 ) b n ] 用泰勒展开,其中 k= k 1 , k 0 , k 1 ,有

E J k =P[ ( k 1 2 ) b n X i <( k+ 1 2 ) b n ] =F[ ( k+ 1 2 ) b n ]F[ ( k 1 2 ) b n ] =F( x )+f( x )[ ( k+ 1 2 ) b n x ]+O [ ( k+ 1 2 ) b n x ] 2 { F( x )+f( x )[ ( k 1 2 ) b n x ]+O [ ( k 1 2 ) b n x ] 2 } =f( x ) b n +O( b n 2 ). (13)

因此

E ξ i ( x )=( 1 2 + k 0 x b n )[ f( x ) b n +O( b n 2 ) ]+( 1 2 k 0 + x b n )[ f( x ) b n +O( b n 2 ) ] =( 1 2 + k 0 x b n + 1 2 k 0 + x b n )f( x ) b n +O( b n 2 ) =f( x ) b n +O( b n 2 ). (14)

因为 O( b n 2 ) xj无关,故有

sup x U j | E f ^ ( x )f( x ) |= sup x U j | 1 n b n i=1 n E ξ i f( x ) |=O( b n ) ,

从而可得

sup xD | f ^ ( x )f( x ) |=o( τ n )+O( b n ),as . (15)

定理1得证。

4. 数值模拟

本节使用R软件对ANA序列下边缘频率多边形密度估计的性能进行数值模拟,在有限样本的情况下,对边缘频率插值密度估计的一致强相合性进行了模拟分析。选择如下的MA(1)模型

X t = ε t 0.5 ε t1 ,

其中 { ε t ,t1 } 为白噪声序列。通过计算可得

E( X t )=0 , D( X t )=1.25 , Cov( X t , X t1 )=0.5 .

[12]可知该MA(1)模型是ANA的。

在样本数分别为300,500,1000,2000下,实验次数为1000次,分别对频率插值密度估计,边缘频率插值密度估计和核密度估计进行了对比,见图1图2。其中核密度估计的窗宽采用交叉验证法,频

率插值密度估计的窗宽选取Carbon等[14]提出的最优窗宽 b fp =2 [ 15 49n R ( f ) ] 1 5 ,边缘频率插值密度估计的窗宽选取文献[1]提出的 b efp = [ 75 46n R ( f ) ] 1 5 其中 R ( f )= 3 8 π σ 5 。由图1图2可知,当样本量逐渐增

大时,边缘频率插值密度估计的密度曲线逐渐接近真实的密度估计,满足定理1的一致强相合性。

Figure 1. Comparison plots of densities for three different estimates for n = 300, n = 500

1. n = 300、n = 500时,三种不同估计的密度对比图

Figure 2. Comparison plots of densities for three different estimates for n = 1000, n = 2000

2. n = 1000、n = 2000时,三种不同估计的密度对比图

其次,对三种密度估计的均方根误差(RMSE)进行了计算,见表1。由于核密度估计在该MA(1)模型下较为平滑,在ANA序列下核密度估计的均方根误差最小,故性能略优于边缘频率插值密度估计。其次,在样本量 n=300 边缘频率插值密度估计的均方根误差略小于频率插值密度估计的均方根误差,说明边缘频率插值密度估计的性能优于频率插值密度估计。但由于受MA(1)模型假设影响的局限性,当样本量逐渐增大时,频率插值密度估计和边缘频率插值密度估计的均方根误差减小得并不明显。

Table 1. Root Mean square error of the three density estimates under the MA(1) model

1. MA(1)模型下三种密度估计的RMSE

估计

n = 300

n = 500

n = 1000

n = 2000

核密度估计

0.0076636

0.00653571

0.00469646

0.00370948

频率插值度估计

0.00906168

0.0075025

0.00558027

0.00434118

边缘频率插值密度估计

0.00857815

0.00718992

0.00526161

0.00409032

基金项目

国家自然科学基金项目(12161075);江西省自然科学基金重点项目(20212ACB201006);广东省自然科学基金项目(2022A1515010978, 2024A1515011258)。

NOTES

*通讯作者。

参考文献

[1] Jones, M.C., Samiuddin, M., Al-Harbey, A.H. and Maatouk, T.A.H. (1998) The Edge Frequency Polygon. Biometrika, 85, 235-239.
https://doi.org/10.1093/biomet/85.1.235
[2] Scott, D.W. (1985) Frequency Polygons: Theory and Application. Journal of the American Statistical Association, 80, 348-354.
https://doi.org/10.1080/01621459.1985.10478121
[3] 王天启. 强混合样本下边缘频率插值密度估计的渐近性质[D]: [硕士学位论文]. 南宁: 广西师范大学, 2014.
[4] 张金玲. 加权边缘频率插值密度估计[D]: [硕士学位论文]. 南宁: 广西师范大学, 2016.
[5] 何琳, 杨善朝.-混合随机域边缘频率插值的渐近方差性[J]. 广西师范大学学报(自然科学版), 2018, 36(1): 88-94.
[6] 邓新, 田春雨, 丁洋, 等. END样本下边缘频率插值密度估计的一致强相合性[J]. 湖北大学学报(自然科学版), 2023, 45(3): 390-395.
[7] Xi, M., Wang, C. and Wang, X. (2023) Uniformly Strong Consistency and the Rates of Asymptotic Normality for the Edge Frequency Polygons. Statistics, 57, 1444-1468.
https://doi.org/10.1080/02331888.2023.2268314
[8] Zhang, L.X. and Wang, X.Y. (1999) Convergence Rates in the Strong Laws of Asymptotically Negatively Associated Random Fields. Applied MathematicsA Journal of Chinese Universities, 14, 406-416.
https://doi.org/10.1007/s11766-999-0070-6
[9] Wang, J.F. and Lu, F.B. (2005) Inequalities of Maximum of Partial Sums and Weak Convergence for a Class of Weak Dependent Random Variables. Acta Mathematica Sinica, English Series, 22, 693-700.
https://doi.org/10.1007/s10114-005-0601-x
[10] Tang, X., Wang, X., Wu, Y. and Zhang, F. (2020) The Berry-Esseen Bound of a Wavelet Estimator in Non-Randomly Designed Nonparametric Regression Model Based on ANA Errors. ESAIM: Probability and Statistics, 24, 21-38.
https://doi.org/10.1051/ps/2019017
[11] Wang, W., Huang, H., Yi Wu, and Chen, K. (2021) On the Uniform Consistency of Frequency Polygons for Ρ^-Mixing Samples. Journal of Mathematical Inequalities, 15, 1287-1298.
https://doi.org/10.7153/jmi-2021-15-86
[12] Jin, R., Tang, X. and Chen, K. (2024) Asymptotic Properties of Conditional Value-at-Risk Estimate for Asymptotic Negatively Associated Samples. Journal of Inequalities and Applications, 2024, Article 118.
https://doi.org/10.1186/s13660-024-03191-5
[13] 孟兵, 吴群英. ANA随机变量序列加权和的完全收敛性与完全矩收敛性[J]. 应用概率统计, 2024, 40(5): 710-724.
[14] Carbon, M., Garel, B. and Tran, L.T. (1997) Frequency Polygons for Weakly Dependent Processes. Statistics & Probability Letters, 33, 1-13.
https://doi.org/10.1016/s0167-7152(96)00104-6