1. 引言
在计量经济学、生物统计学与社会学等领域,计数型时间序列的建模具有重要意义。此类数据通常取值为非负整数,且序列内部存在显著的自相关性。传统连续型时间序列模型因假定数据连续且服从正态分布,难以直接适用于此类离散数据。为此McKenzie [1]、Al-Osh和Alzaid [2]提出了整数值自回归(Integer-Valued Autoregressive, INAR)模型。其核心在于引入了由Steutel和van Harn [3]提出的二项稀疏算子作为传统自回归算子的离散化替代,详细内容参考WEIß [4]。具体而言,算子“
”定义为:
(1)
其中,
,
为非负整数值随机变量,
是一列独立同分布(i.i.d.)的伯努利随机变量,满足
,并且与
独立。然而,标准的一阶整数值二项自回归(First-order Integer-Valued Binomial Autoregressive, BAR(1))模型
是一个固定常数,该模型具体内容可以参考Weiß [5],这隐含了过程的同质性假设。在实际应用中,许多计数序列的动态性往往受到未观测到的时变因素影响,导致其依赖强度
可能随时间发生随机波动。固定系数模型难以刻画这种内在的异质性与过度离散现象。为了增强模型的灵活性与现实描述能力,研究者将随机系数的思想引入INAR框架,即假设
本身是一个随机变量或随机过程,从而得到一阶随机系数整数值二项自回归(First-order Random Coefficient Integer-Valued Binomial Autoregressive, RCBAR(1))模型。该类模型由Zheng等人[6]提出,允许自回归系数随时间随机变动,能更灵活地捕捉计数序列的波动聚集与厚尾特征。虽然RCBAR(1)模型更具一般性,但其统计推断也面临更多挑战。现有研究已初步探讨了模型性质并发展了基础估计方法,但仍存在以下不足:首先,不同估计方法在有限样本下的性能缺乏系统比较;其次,在更一般的模型设定下,如何构建更高效、更稳健的估计量仍不明确;最后,已有研究对估计量在不同数据生成机制下的稳健性关注不足。
本文主要研究RCBAR(1)模型,首先给出了模型的基本性质,在参数估计方面,提出了条件最小二乘与拟似然估计量,并引入经验似然(Empirical Likelihood, EL)方法,具体可参考Owen [7]-[9]、Qin和Lawless [10],而Chuang和Chan [11],以及Chan和Ling [12]将经验似然方法应用于自回归模型。本文构建了可融合辅助信息的最大经验似然估计量,该方法不依赖扰动项分布且具有更高理论效率。最后,参考Zhang [13]和Yang [14]通过模拟研究比较了各估计量在不同场景下的有限样本表现。
本文余下部分的结构安排如下:第二节正式给出模型设定并详述其基本性质;第三节逐一阐述三种估计量的构造方法;第四节展示并分析模拟实验结果;第五节总结全文并展望未来研究方向。
2. RCBAR(1)模型定义及基本性质
RCBAR(1)模型由以下方程定义:
(2)
其中,
是一列取值于
上的独立同分布二元随机变量序列。且
和
时刻所有的稀疏算子及它们的计数序列包括初始值
都是相互独立的,
满足
,同时
也与所有稀疏算子及历史状态序列
相互独立。
由式(2)定义的RCBAR(1)是一个有限状态空间上的齐次马尔可夫链。类似于Zheng [6]中的式(4),其一步转移概率具有如下形式:
其中,
是二元随机变量
的累积分布函数(CDF)。因此
是一个本原矩阵(不可约且非周期的),这意味着过程
是遍历的且存在唯一平稳解。
参考Weiß [15]、Ma [16]和RCBAR(1)模型的定义可得,自相关函数为
(当
时)。最重要的回归性质是:
其中
高阶联合矩和累积量的闭式表达式由Weiß和Kim [17]给出。
3. 参数估计
设
是从模型(2)中获得的观测值,其中参数向量
,
。
3.1. 条件最小二乘(CLS)估计
首先给出参数向量
的CLS估计,CLS准则函数定义如下:
(3)
CLS估计量可通过最小化该准则函数(3)得到,关于
和
的最小二乘估计量为:
正如Klimko和Nelson [18]的定理3.1和3.2所示,记参数真值为
,是强相合且渐近正态的,即
其中
下面再给出参数向量
的CLS估计,首先定义一步向前的残差为:
基于此构造CLS准则函数:
(4)
其中
为待估参数向量。对
关于
最小化,可得CLS估计量:
其中向量
。进一步地,两个方差参数的显式估计公式的展开式为:
在模型设定正确且观测序列
满足平稳性与遍历性等基本假设的前提下,所提出的CLS估计量具有强相合性。具体而言,随着样本长度
趋于无穷,该估计量以概率1收敛至真实参数向量
,即
这一定理不仅从理论上保证了估计方法在大样本情形下的可靠性,也为其在实际数据分析中的稳定性提供了坚实支撑。
3.2. 拟似然(MQL)估计
首先,在模型定义部分已经给出RCBAR(1)模型的条件方差,记:
标准的MQL估计方程具有如下形式:
因为条件方差表达式中包含参数
会导致相应的估计方程在一般情况下变得复杂且难以处理。因此采用通过其他方法获得的关于
的合适一致估计量
来代替
,然后求解由此得到的MQL估计方程,以估计主要感兴趣的参数
。这种方法导出了以下
的闭式估计量:
作为一种替代方法,本文将使用CLS估计量来估计
和
。因为上述估计量不能保证对所有样本都为正,因此可能不适用于
和
的正性要求,记
为参数真值,公式中MQL估计量的渐近正态性由以下定理建立,
其中,
3.3. 最大经验似然(MEL)估计
接下来,我们介绍RCBAR(1)模型的最大经验似然方法。对(3)式中定义的
关于参数
求导,可得到估计方程:
(5)
对(4)式中定义的
关于参数
求导,可得到估计方程:
(6)
为进一步提升估计效率,从而引入一个额外的矩条件。该条件在期望为零的前提下,能够提供关于模型结构的更多信息,其构造方法详见Lu [19]。此条件将被纳入经验似然框架,用于构建带附加约束的似然函数。具体而言,有:
其中,
根据Mykland [20],剖面经验似然比(ELR)函数为:
其中,公式(5)中
。通过采用标准的拉格朗日乘子法,可以得到最优的
的取值为:
其中
是对应于拉格朗日约束条件的乘子:
由此,可以得到对数经验似然比统计量:
为了研究估计量的渐近性质,我们对基础过程作如下假设:
(C1)
是一个平稳过程;
(C2)
。
对于RCBAR (1)模型,我们有以下定理:在假设(C1)~(C2)下,记
为参数真值,是
的最大经验似然估计量,当
时,有
。最大经验似然估计量渐近正态,
其中
,且
。
3.4. 估计方法的渐近性说明
本文提出的MQL与MEL估计量均依赖于CLS估计量提供的方差参数预估计。在渐近理论中,若考虑的估计误差,则与的渐近分布应修正为:
其中
包含来自的额外变异项。由于CLS估计量 具有相合性,且模拟结果显示其偏差较小,本文在理论部分给出的渐近方差矩阵可视为在
已知条件下的近似。在实际应用中,建议使用Bootstrap方法构建置信区间以更稳健地反映估计不确定性。
4. 模拟研究
为了评估所提出估计方法的有限样本性质,本文设计了一系列蒙特卡洛模拟实验。数据生成基于如下带有随机系数的二项自回归(RCBAR(1))模型:
其中
为状态空间上限(固定常数),
,
,且
与
相互独立。初始值
服从参数为
的二项分布。我们考虑以下四种模型设定:
其中,
本文设置了M5为了检验估计方法对随机系数分布形式的敏感性,考虑
服从截断正态分布,即:
其中
表示在区间
内截断的正态分布,参数设置为
,对应与M1相近的边际均值和方差,其余设定与M1相同。
基于
次重复模拟,计算偏差(Bias)和均方根误差(RMSE)以评估估计量
(代表
和
及感兴趣的方差估计量)的表现:
在表格中,为系统评估不同估计方法在有限样本下的表现,本文在四种模型下开展了模拟实验。表1和表2报告了参数
和
的Bias与RMSE,其中
表示样本量,
表示状态空间上限。我们考察了
与
的多种组合,以反映不同样本规模和数据结构下的估计性能。从两表中可以看出,随着波动程度变化,各估计方法的偏差与稳定性呈现出明显差异。表3和表4则比较了在不同模型情境下的不同组合中,报告了参数
和
的Bias与RMSE,反映了方法在不确定性量化方面的稳健性。表5则考虑到对随机系数分布形式的敏感性分析,假设参数服从截断正态分布并在表格中报告了模拟结果。这些结果为选择适用于不同波动场景的估计方法提供了依据。此外,图1通过样本路径图、自相关函数(ACF)图与偏自相关函数(PACF)图,直观呈现了所研究模型的动态特征与依赖结构,为后续的参数估计与模型诊断提供了可视化基础。
图1显示,RCBAR(1)模型的样本路径具有典型计数时间序列的波动特征:自相关函数在滞后一阶显著为正并指数衰减,表明短期记忆性;偏自相关函数在滞后二阶后迅速截尾,支持二阶自回归结构的合理性。表1和表2结果表明,随着样本量从50增至500,CLS、MQL和MEL三种方法的偏差与RMSE均显著下降,其中MEL表现最优,MQL次之,CLS相对较差但计算简便;参数
普遍呈轻微负偏差,
多为正偏差,且
估计精度略高;各方法在不同波动水平下均稳健。表3和表4显示,方差参数
与
的估计误差亦随样本量增大而快速收敛;MEL仍最优,
误差略大于
,验证了方差参数的可估性与方法有效性。从表5结果可见,即使在随机系数服从非Beta分布时,CLS、MQL与MEL估计量仍保持良好精度与稳健性,Bias与RMSE未见显著上升,表明方法对分布形式具有鲁棒性。MEL在分布误设下仍表现最优,进一步验证了其实际适用性。
5. 总结
本文通过扩展固定系数模型,研究了一种新的计数数据模型。该模型允许自回归参数随时间随机变动,同时推导了过程的平稳性与遍历性,也推导了模型参数的CLS估计量、MQL估计量与MEL估计量,
Figure 1. Sample path plot, ACF plot, and PACF plot of the RCBAR(1) model
图1. RCBAR(1)模型样本路径图、ACF图和PACF图
Table 1. Bias and RMSE of the parameters to be estimated under model M1, the true parameter values are
表1. 模型M1下待估参数的偏差与均方根误差,参数真值为
|
CLS |
MEL |
MQL |
|
Para. |
Bias |
RMSE |
Bias |
RMSE |
Bias |
RMSE |
50 |
|
−0.0083 |
0.0801 |
−0.0021 |
0.0383 |
−0.0042 |
0.0587 |
|
0.0742 |
0.0759 |
0.0230 |
0.0455 |
0.0323 |
0.0539 |
|
0.0257 |
0.0124 |
0.0068 |
0.0030 |
0.0141 |
0.0069 |
|
0.0375 |
0.0550 |
0.0121 |
0.0179 |
0.0164 |
0.0242 |
100 |
|
−0.0062 |
0.0602 |
−0.0012 |
0.0240 |
−0.0034 |
0.0412 |
|
0.0487 |
0.0572 |
0.0145 |
0.0367 |
0.0186 |
0.0386 |
|
0.0159 |
0.0083 |
0.0043 |
0.0029 |
0.0071 |
0.0049 |
|
0.0216 |
0.0281 |
0.0063 |
0.0122 |
0.0082 |
0.0168 |
200 |
|
−0.0032 |
0.0444 |
−0.0006 |
0.0207 |
−0.0017 |
0.0356 |
|
0.0323 |
0.0443 |
0.0081 |
0.0220 |
0.0104 |
0.0285 |
|
0.0093 |
0.0056 |
0.0032 |
0.0025 |
0.0056 |
0.0034 |
|
0.0148 |
0.0199 |
0.0045 |
0.0089 |
0.0057 |
0.0128 |
500 |
|
−0.0015 |
0.0317 |
−0.0003 |
0.0115 |
−0.0009 |
0.0200 |
|
0.0109 |
0.0287 |
0.0029 |
0.0087 |
0.0041 |
0.0126 |
|
0.0056 |
0.0032 |
0.0016 |
0.0012 |
0.0029 |
0.0021 |
|
0.0071 |
0.0110 |
0.0021 |
0.0050 |
0.0034 |
0.0073 |
Table 2. Bias and RMSE of the parameters to be estimated under model M2, the true parameter values are
表2. 模型M2下待估参数的偏差与均方根误差,参数真值为
|
CLS |
MEL |
MQL |
|
Para. |
Bias |
RMSE |
Bias |
RMSE |
Bias |
RMSE |
50 |
|
−0.0078 |
0.0721 |
−0.0031 |
0.0415 |
−0.0054 |
0.0568 |
|
0.0685 |
0.0821 |
0.0196 |
0.0483 |
0.0289 |
0.0497 |
|
0.0229 |
0.0115 |
0.0075 |
0.0041 |
0.0136 |
0.0072 |
|
0.0342 |
0.0497 |
0.0135 |
0.0192 |
0.0179 |
0.0258 |
100 |
|
−0.0057 |
0.0553 |
−0.0016 |
0.0268 |
−0.0039 |
0.0379 |
|
0.0438 |
0.0615 |
0.0132 |
0.0392 |
0.0173 |
0.0361 |
|
0.0143 |
0.0076 |
0.0052 |
0.0034 |
0.0084 |
0.0053 |
|
0.0238 |
0.0305 |
0.0078 |
0.0135 |
0.0097 |
0.0179 |
200 |
|
−0.0029 |
0.0398 |
−0.0009 |
0.0186 |
−0.0019 |
0.0314 |
|
0.0286 |
0.0382 |
0.0074 |
0.0243 |
0.0097 |
0.0268 |
|
0.0086 |
0.0051 |
0.0036 |
0.0028 |
0.0058 |
0.0037 |
|
0.0159 |
0.0217 |
0.0051 |
0.0096 |
0.0062 |
0.0135 |
500 |
|
−0.0012 |
0.0284 |
−0.0004 |
0.0132 |
−0.0011 |
0.0189 |
|
0.0094 |
0.0253 |
0.0024 |
0.0095 |
0.0038 |
0.0119 |
|
0.0049 |
0.0028 |
0.0018 |
0.0014 |
0.0026 |
0.0023 |
|
0.0082 |
0.0124 |
0.0025 |
0.0057 |
0.0037 |
0.0081 |
Table 3. Bias and RMSE of the parameters to be estimated under model M3, the true parameter values are
表3. 模型M3下待估参数的偏差与均方根误差,参数真值为
|
CLS |
MEL |
MQL |
|
Para. |
Bias |
RMSE |
Bias |
RMSE |
Bias |
RMSE |
50 |
|
−0.0092 |
0.0752 |
−0.0028 |
0.0436 |
−0.0048 |
0.0621 |
|
0.0714 |
0.0785 |
0.0208 |
0.0468 |
0.0301 |
0.0513 |
|
0.0248 |
0.0132 |
0.0082 |
0.0045 |
0.0153 |
0.0078 |
|
0.0362 |
0.0513 |
0.0128 |
0.0187 |
0.0185 |
0.0249 |
100 |
|
−0.0068 |
0.0581 |
−0.0017 |
0.0259 |
−0.0037 |
0.0395 |
|
0.0459 |
0.0598 |
0.0139 |
0.0379 |
0.0182 |
0.0374 |
|
0.0157 |
0.0091 |
0.0058 |
0.0039 |
0.0091 |
0.0057 |
|
0.0227 |
0.0328 |
0.0071 |
0.0142 |
0.0092 |
0.0184 |
200 |
|
−0.0031 |
0.0421 |
−0.0008 |
0.0194 |
−0.0018 |
0.0335 |
|
0.0305 |
0.0418 |
0.0079 |
0.0236 |
0.0101 |
0.0276 |
|
0.0092 |
0.0063 |
0.0041 |
0.0032 |
0.0064 |
0.0041 |
|
0.0153 |
0.0231 |
0.0048 |
0.0103 |
0.0059 |
0.0142 |
500 |
|
−0.0014 |
0.0302 |
−0.0005 |
0.0141 |
−0.0012 |
0.0194 |
|
0.0102 |
0.0271 |
0.0026 |
0.0101 |
0.0039 |
0.0124 |
|
0.0053 |
0.0035 |
0.0021 |
0.0017 |
0.0031 |
0.0025 |
|
0.0078 |
0.0138 |
0.0023 |
0.0063 |
0.0033 |
0.0086 |
Table 4. Bias and RMSE of the parameters to be estimated under model M4, the true parameter values are
表4. 模型M4下待估参数的偏差与均方根误差,参数真值为
|
CLS |
MEL |
MQL |
|
Para. |
Bias |
RMSE |
Bias |
RMSE |
Bias |
RMSE |
50 |
|
−0.0107 |
0.0779 |
−0.0035 |
0.0452 |
−0.0052 |
0.0614 |
|
0.0691 |
0.0810 |
0.0216 |
0.0491 |
0.0298 |
0.0526 |
|
0.0263 |
0.0145 |
0.0091 |
0.0052 |
0.0168 |
0.0084 |
|
0.0387 |
0.0539 |
0.0139 |
0.0203 |
0.0197 |
0.0267 |
100 |
|
−0.0074 |
0.0608 |
−0.0019 |
0.0276 |
−0.0041 |
0.0409 |
|
0.0472 |
0.0625 |
0.0146 |
0.0405 |
0.0191 |
0.0391 |
|
0.0172 |
0.0103 |
0.0065 |
0.0044 |
0.0098 |
0.0063 |
|
0.0243 |
0.0351 |
0.0078 |
0.0156 |
0.0099 |
0.0198 |
200 |
|
−0.0035 |
0.0453 |
−0.0009 |
0.0211 |
−0.0020 |
0.0352 |
|
0.0318 |
0.0435 |
0.0084 |
0.0253 |
0.0107 |
0.0293 |
|
0.0101 |
0.0075 |
0.0047 |
0.0037 |
0.0071 |
0.0047 |
|
0.0164 |
0.0253 |
0.0053 |
0.0115 |
0.0064 |
0.0155 |
500 |
|
−0.0016 |
0.0328 |
−0.0006 |
0.0157 |
−0.0013 |
0.0210 |
|
0.0108 |
0.0296 |
0.0028 |
0.0113 |
0.0041 |
0.0137 |
|
0.0059 |
0.0042 |
0.0024 |
0.0020 |
0.0035 |
0.0029 |
|
0.0085 |
0.0154 |
0.0026 |
0.0071 |
0.0037 |
0.0094 |
Table 5. Bias and RMSE of the parameters to be estimated under model M5 (truncated normal distribution), the true parameter values are
表5. 模型M5 (截断正态分布)下待估参数的偏差与均方根误差,参数真值为
|
CLS |
MEL |
MQL |
|
Para. |
Bias |
RMSE |
Bias |
RMSE |
Bias |
RMSE |
50 |
|
−0.0091 |
0.0825 |
−0.0024 |
0.0398 |
−0.0048 |
0.0602 |
|
0.0765 |
0.0783 |
0.0243 |
0.0471 |
0.0341 |
0.0556 |
|
0.0271 |
0.0138 |
0.0072 |
0.0034 |
0.0153 |
0.0076 |
|
0.0392 |
0.0574 |
0.0129 |
0.0188 |
0.0171 |
0.0254 |
100 |
|
−0.0069 |
0.0623 |
−0.0015 |
0.0251 |
−0.0038 |
0.0427 |
|
0.0512 |
0.0595 |
0.0152 |
0.0382 |
0.0195 |
0.0403 |
|
0.0168 |
0.0092 |
0.0048 |
0.0032 |
0.0078 |
0.0054 |
|
0.0227 |
0.0295 |
0.0068 |
0.0129 |
0.0089 |
0.0176 |
200 |
|
−0.0036 |
0.0459 |
−0.0008 |
0.0214 |
−0.0019 |
0.0368 |
|
0.0338 |
0.0458 |
0.0086 |
0.0231 |
0.0109 |
0.0298 |
|
0.0098 |
0.0061 |
0.0035 |
0.0027 |
0.0059 |
0.0038 |
|
0.0155 |
0.0208 |
0.0048 |
0.0093 |
0.0060 |
0.0134 |
500 |
|
−0.0018 |
0.0328 |
−0.0004 |
0.0122 |
−0.0011 |
0.0209 |
|
0.0115 |
0.0298 |
0.0031 |
0.0091 |
0.0044 |
0.0132 |
|
0.0059 |
0.0035 |
0.0018 |
0.0013 |
0.0031 |
0.0023 |
|
0.0075 |
0.0115 |
0.0023 |
0.0053 |
0.0036 |
0.0077 |
并获得了它们的渐近分布。通过模拟研究,比较了CLS、MQL和MEL估计量的表现。模拟结果表明:三种方法在大样本下均能获得良好的估计结果;CLS方法因其简洁性值得采用,但MEL方法能提供比CLS、MQL更有效的估计量。且MEL方法展现出更强的稳健性,虽然MEL方法是计算最复杂的,但正如预期那样,它具有最高的估计效率。因此综合来看,推荐将MEL方法应用于本文研究的模型。
基金项目
辽宁科技大学博士启动基金(6003000310)。
利益冲突声明
作者声明无任何潜在利益冲突。