1. 引言
Jones等[1]提出边缘频率插值密度估计,其定义如下:
设总体X具有密度函数
,其中
是来自总体的样本。在实轴上进行等间距分割,
,记第k个区间为
,其中k为自然数,
,
窗宽长度为
。对于任意的
,存在
,使得
。取三个相邻的区间
,
,
,
其中
,
。记
,
和
这三个区间里的观察点的个数分别为
,
和
,则密度函数在这三个区间内的直方图估计分别为
,
当
时,密度函数
的边缘频率插值密度估计为
(1)
记
,
则
,
,
.
边缘频率插值密度估计是在频率插值密度估计的基础上提出的,其中频率插值密度由Scott [2]提出,是直方图估计的拓展。据研究发现频率插值密度估计与直方图密度估计的计算量相同,并且和核密度估计具有相同的收敛速度,优于直方图密度估计的收敛速度。边缘频率插值密度估计作为频率插值密度估计的拓展,将原来所研究两个区间上升到三个区间,并且文献[1]证明了在最优窗宽下,该密度估计的渐近积分均方误差小于频率插值密度的渐近积分均方误差,因此研究边缘频率插值密度估计是有意义的。
一些学者对估计(1)进行了研究。王天启[3]讨论了
混合样本下边缘频率插值密度估计的渐近无偏性,相合性和渐近正态性。张金玲[4]通过引入权重系数,研究了新的加权边缘频率插值密度估计在独立样本序列条件下渐近性质。何琳和杨善朝[5]在
混合随机域样本下研究边缘频率插值密度估计方差的渐近性。邓新等[6]对END样本下边缘频率插值密度估计的一致强相合性进行了研究。Xi等[7]在
混合样本下讨论了边缘频率插值密度估计的一致强相合性和渐近正态性,并得出了相应的收敛速度。
我们注意到Zhang等[8]提出ANA序列的概念,并且ANA序列包含
混合序列和负相关(NA)序列。下面给出ANA序列的定义。
定义1:一个随机变量序列
满足
,
其中
,
是非降函数的集合,则称
为渐近负相依(简称ANA或
混合)序列。
对于ANA序列,Zhang等[9]研究了Linderberg条件以及低阶矩条件下ANA随机场的中心极限定理。Tang等[10]研究了ANA误差下非参数回归模型小波估计的Berry-Esséen界。Wang等[11]研究了ANA序列下频率插值密度估计的一致强相合性。Jin等[12]研究了ANA序列下条件风险估计一致强相合性,并得到其最优收敛速度。孟兵和吴群英[13]研究了ANA序列加权和完全收敛性和完全矩收敛。
基于已有文献,未见研究ANA序列下边缘频率插值密度估计的相关文献。因此,本文将在ANA序列下研究边缘频率插值密度估计的一致强相合性,并在适当的条件下得到一致强相合收敛速度。
本文C表示正常数,
表示x的整数部分,无特殊说明,极限为
,窗宽
为正常数序列。
2. 主要结果
首先给出本文所需的如下假设条件:
(A1) 设
为ANA序列,其密度函数为
;
(A2) 设窗宽
满足
,
;
(A3) 设
是一趋于0的正数序列,满足
,
,
。
下面我们给出本文的主要结论。
定理1 若条件(A1)~(A3)成立,对于实数集R的任意的子集D有
(2)
若
在
上可微,且对于
,有
,则有
, (3)
从而
. (4)
注1 在文献[11]中
满足的条件为
,与本文的(A3)条件
相比,
本文的条件更弱一些,理论上
的选择范围更广。其次,本文是在频率插值密度估计研究的基础上进一步研究边缘频率插值密度估计,是对文献[11]研究的进一步推广。
在定理1中,取
可得到如下结论。
推论1 若条件(A1)~(A3)成立,对于R的任意的子集D,
在
上可微,对于
,有
有
(5)
其中
。
注2 文献[11]所得到的一致强相合收敛速度为
,而本文的收敛速度为
,从而比[11]更快一些。
3. 主要证明
这一部分将给出主要定理的相关证明和所需的一些引理:
引理1 (见文献[9]) 设
为ANA序列,若
是一个非降(或非升)的实函数列,则
仍然是一列ANA序列,且混合系数不大于原来的混合系数。
引理2 (见文献[9]) 若
是ANA序列,对任意的
,
,有
,
,则存在一个常数
有
.
定理1证明 由于D是R的一个子集,假设
,B为大于0的正常数,记
,
,
,
由此可得
,
故有
对任意的
且
,
有
(6)
接下来证明
,
,
,对于任意的j,令
由于
为ANA的,故
,
也是ANA的,并且
,由引理2 Markov不等式可得
(7)
对于足够大的
,由
可知
,由
,
,
可知
,
,故有
(8)
类似可得证
, (9)
. (10)
由式(6)~(10)可得
, (11)
由Borel-Cantelli引理得
. (12)
下证式(3)。对于任意的
,
,记
,
,
,
.
对
,
用泰勒展开,其中
,有
(13)
因此
(14)
因为
与x,j无关,故有
,
从而可得
. (15)
定理1得证。
4. 数值模拟
本节使用R软件对ANA序列下边缘频率多边形密度估计的性能进行数值模拟,在有限样本的情况下,对边缘频率插值密度估计的一致强相合性进行了模拟分析。选择如下的MA(1)模型
,
其中
为白噪声序列。通过计算可得
,
,
.
由[12]可知该MA(1)模型是ANA的。
在样本数分别为300,500,1000,2000下,实验次数为1000次,分别对频率插值密度估计,边缘频率插值密度估计和核密度估计进行了对比,见图1、图2。其中核密度估计的窗宽采用交叉验证法,频
率插值密度估计的窗宽选取Carbon等[14]提出的最优窗宽
,边缘频率插值密度估计的窗宽选取文献[1]提出的
其中
。由图1和图2可知,当样本量逐渐增
大时,边缘频率插值密度估计的密度曲线逐渐接近真实的密度估计,满足定理1的一致强相合性。
Figure 1. Comparison plots of densities for three different estimates for n = 300, n = 500
图1. n = 300、n = 500时,三种不同估计的密度对比图
Figure 2. Comparison plots of densities for three different estimates for n = 1000, n = 2000
图2. n = 1000、n = 2000时,三种不同估计的密度对比图
其次,对三种密度估计的均方根误差(RMSE)进行了计算,见表1。由于核密度估计在该MA(1)模型下较为平滑,在ANA序列下核密度估计的均方根误差最小,故性能略优于边缘频率插值密度估计。其次,在样本量
边缘频率插值密度估计的均方根误差略小于频率插值密度估计的均方根误差,说明边缘频率插值密度估计的性能优于频率插值密度估计。但由于受MA(1)模型假设影响的局限性,当样本量逐渐增大时,频率插值密度估计和边缘频率插值密度估计的均方根误差减小得并不明显。
Table 1. Root Mean square error of the three density estimates under the MA(1) model
表1. MA(1)模型下三种密度估计的RMSE
估计 |
n = 300 |
n = 500 |
n = 1000 |
n = 2000 |
核密度估计 |
0.0076636 |
0.00653571 |
0.00469646 |
0.00370948 |
频率插值度估计 |
0.00906168 |
0.0075025 |
0.00558027 |
0.00434118 |
边缘频率插值密度估计 |
0.00857815 |
0.00718992 |
0.00526161 |
0.00409032 |
基金项目
国家自然科学基金项目(12161075);江西省自然科学基金重点项目(20212ACB201006);广东省自然科学基金项目(2022A1515010978, 2024A1515011258)。
NOTES
*通讯作者。