1. 引言
Box和Tiao (1975) [1]针对非平稳时间序列数据,首先将ARMA模型(Autoregressive Moving Average, ARMA)结合差分运算,提出求和移动平均自回归模型(Autoregressive Integrated Moving Average, ARIMA),但是很多数据不仅仅受自身的影响,还要受到其他多个变量的影响。为此Engle和Granger (1987) [2]在ARIMA的基础上,引入外生变量
,提出ARIMAX模型(Autoregressive Integrated Moving Average with Exogenous Variables, ARIMAX)。研究人员发现,使用ARIMAX模型在经济学与金融领域往往有良好的预测以及拟合效果,例如Peter和Silvia (2012) [3]使用人均GDP作为响应变量,失业率作为外生变量,发现ARIMAX的解释性要优于ARIMA模型;Sharma和Parkhar (2021) [4]借助ARIMAX模型对股票市场预测进行敏感度分析。但是在使用ARIMAX模型应用之前,各项系数的确定是一个值得探究的问题。传统的估计手段是Engle和Granger (1987) [2]使用协整回归的方式进行检验,不同于传统的方式,本文参考夏强和刘金山(2011) [5]对TAR模型门限变量使用贝叶斯的思想进行检验的手段,对ARIMAX模型的系数进行估计。假定先验分布已知,对于计算后验概率的方式,本文采取马尔可夫蒙特卡洛模拟(MCMC)方法中的Gibbs采样的方式计算。
本文剩余章节安排如下:第二章介绍ARIMAX模型与各个参数的后验分布,第三章为数值模拟,包含数值分析情形与实证数据分析,第四章是对文章的总结与概括。
2. 模型及估计方法
2.1. ARIMAX模型介绍
假设响应序列
和输入序列(自变量序列)
平稳,且响应序列和输入序列之间具有相关关系。响应序列
和输入序列
最终建立的线性模型为:
(1)
其中
为时间参数,
代表一阶滞后算子,
表示第
个变量的延迟阶数,
表示零均值白噪声序列,以及
表示第
个自变量序列
的
阶自回归系数多项式:
且
是第
个自变量序列
的
阶移动平均系数多项式:
经过一系列变换,模型(1)可以转变为
(2)
此时,式中
为第
个自变量
的
阶移动平均系数多项式,
为第
个自变量
对变量
的有效作用时长,
服从标准正态分布。现在模型中,未知的参数为
的自回归系数,
记
;以及自变量序列的移动平均系数,记为
。
2.2. ARIMAX模型参数的贝叶斯推断
为了对参数进行贝叶斯推断,首先要有对参数的先验分布的认识,这样才能得到参数的条件后验分布(Gelfand和Smith (1990) [6]),考虑到共轭先验分布的性质特点[7],假定参数向量
服从多元正态分布
;
之间互相独立,并且服从多元正态分布
,噪声项的方差
服从逆伽马分布
。
为书写方便起见,将模型(2)中的每个观测按行摆放,且不妨设
足够大,记
并记因变量
,于是模型(2.2)可化为:
其中
,且服从多元正态分布
。因此可以得到参数的联合先验分布:
于是可以得到参数
条件后验分布为逆伽马分布:
(3)
其中
参数
的后验分布为
(4)
其中
参数
的后验分布为正态分布
(5)
其中
可以发现各个参数的后验分布都是标准的分布,那么就可以使用Gibbs采样[8]的方法,得到各个参数的估计量。
3. 数值分析
3.1. 试验模拟
将模型设置为:
服从标准正态分布。自变量序列通过下述方式迭代产生:
Figure 1. Diagram of parameter
iteration
图1. 参数
的迭代图
服从标准正态分布,初始值
为一个(0,1)的均匀分布的随机数。根据模型(2),可以观察到各个参数的真实值为
。由于超参数对实验结果的选择影响不大,见文献Casella (2001) [9]与Doss (2012) [10],于是可以设置噪声项的方差
的先验分布为
,系数
与
均为标准多元正态分布。采用Gibbs采样的方法,估计各个参数。但是使用Gibbs抽样时的一个问题是,在什么时候抽样可以停止,即收敛,为此我们设置迭代一万次,并舍弃前五千次的数据,使用后五千次的数据进行后验分析,并绘制迹图。算法流程如下:
算法1. 试验流程
(1) 生成100个数据,记为
,将第3到第100个数据作为因变量向量
,设置初始值
,
;
(2) 利用(3)抽取
,利用(4)抽取
,利用(5)抽取参数
;
(3) 重复(1)与(2) 10000次;
(4) 剔除前5000次数据,求后5000次的均值,得到参数的估计
;
(5) 重复(1)至(4) 100次,对得到的数据求均值以及标准差。
表1中给出各个参数的估计值,可以发现,通过Gibbs取样,在进行一百次抽样试验中,可以把误差控制在0.05以内。图1为使用Gibbs采样时,迭代的迹图,在迭代5000次之后发现参数已经是收敛的,因此认为估计是稳健的。
Table 1. Bayes estimates of parameter
under 100 simulations
表1. 参数
贝叶斯估计值在100次模拟下的估计值
参数 |
真值 |
实验结果 |
误差 |
标准差 |
|
1.0 |
1.0811 |
0.0811 |
0.1855 |
|
0.50.4 |
0.45490.4242 |
−0.0451 −0.0309 |
0.07330.0718 |
|
0.50.3 |
0.48670.3492 |
−0.01330.0492 |
0.10480.1279 |
在表2中,给出协整的方式估计的参数值,通过对比可以发现使用Bayes的方式进行估计,大部分情况下优于经典方法(Engle和Granger (1987) [2])使用协整的方式进行估计。
Table 2. Co-integration estimates of parameter
co-integration estimates under 100 simulations
表2. 参数
协整估计值在100次模拟下的估计值
参数 |
真值 |
实验结果 |
误差 |
标准差 |
|
1.0 |
1.129 |
0.129 |
0.7975 |
|
0.50.4 |
0.57690.3757 |
0.0769 −0.0343 |
0.25560.1613 |
|
0.50.3 |
0.43570.3419 |
−0.06430.0419 |
0.18510.1186 |
3.2. 实证分析
借助ARIMAX模型,对金融数据进行分析建模的有很多,例如Badshah等人(2023) [11],Zolfaghari和Gholami (2021) [12]。本文选取自2019年2月18日至2025年3月5日的创业板指数与上证指数数据,选取上证指数作为外生变量序列,创业板指数作为响应变量序列。为使数据更加平稳,对数据采取对数差分的手段。针对自回归阶数与移动平均阶数
的确定,采用信息准则AIC、BIC、AICc最小的方式进行确定,发现这是一个带有外生变量的ARIMA(1,0,0)的模型。外生变量的滞后阶数采用逐步回归的方式,基于AIC最小的准则,发现外生变量的滞后阶数为0。在进行参数的估计时,对先验分布设置为
服从逆伽马分布
,其余两个参数均服从标准正态分布。得到的拟合结果为
Figure 2. Diagram of autocorrelation in measure error
图2. 测量误差的自相关图
图2给出模型拟合的残差的自相关函数图。表3给出针对实证数据模型拟合的误差输出,从图2以及残差的自相关系数为−0.0017十分接近于0得知,可以通过白噪声检验,同时也表明ARIMAX模型对于创业板指数与上证指数的解释性很强,同时将模型中的具有同响应变量具有相关信息的数据提取得十分充分。
Table 3. Errors of model
表3. 模型误差
残差方差 |
AIC |
AICc |
BIC |
平均误差 |
均方误差 |
ACF |
0.0001 |
−9131.55 |
−9131.53 |
−9115.68 |
−0.0001 |
0.0107 |
−0.0017 |
4. 结论
从设定的模型出发,基于贝叶斯推断,文中给出一种新的针对ARIMAX模型参数估计的手段,这个方法主要利用Gibbs采样计算后验概率分布,从后验分布中抽取的均值就是参数的一个估计。在模拟试验中发现,文中的方法的功效很好,并且估计的方法具有稳健性,使用这种方法在实证分析中发现对上证指数与创业板指数具有很高的解释性。