1. 引言
股票收益率反映了股票市场的风险和回报水平,是投资者进行资产配置和风险管理的重要参考指标。自Bollerslev [1]在1986年提出GARCH模型以来,该模型成为刻画和预测金融收益率波动的重要模型之一。然而,在解释真实市场波动中传统GARCH模型存在局限性,无法充分捕捉金融市场中的非线性和非对称性。一方面,为对金融市场的非线性特征进行刻画,Hamadeh [2]和Ossandón [3]分别通过幂变换和离散时间非线性状态空间对GARCH模型改进并实证分析,验证了通过非线性函数改进模型的有效性;此外,为了研究因大量股票突然抛售而股价迅速下跌的“股市崩盘”现象[4],Dun [5]引入非线性势函数并结合GARCH模型提出了NPGARCH模型,分析了潜在势函数对波动的影响。另一方面,在探讨股市波动特性时,原始GARCH模型描述了利空消息较利好消息更为强烈的冲击效应,这一不对称现象得到了Black [6]等人理论证明。为精确捕捉此非对称波动,EGARCH [7]、GARCH-M [8]、GJR-GARCH [9]等模型相继被提出并验证了其有效性。Engle [10]等进一步研究发现EGARCH模型估计的条件方差的标准差比残差平方项本身的标准差要高,从而得到GJR-GARCH模型是描述非对称波动性的较好工具。李世君[11]等通过实证研究在不同偏态分布背景下,GJR-GARCH(1,1)模型对5G板块指数VaR风险的评估能力,为监管部门制定策略提供了实证支撑。
与此同时,原始的GARCH族模型可能会忽略影响波动的外生因素,比如经济指标、经济政策变化等等,通过引入外生变量可以提供更多的信息来解释波动的变化。Engle [12]在GARCH模型的条件方差方程中加入高频数据作为外生变量,将其扩展为GARCH-X模型;朱得康[13]等建立了广义带有外生变量的GARCH模型,该模型结合了传统GARCH与加入外生变量的GARCH模型以研究股指的变化。
随着金融市场日益复杂化,其中存在着许多的隐藏状态并不能被单一的时间序列模型所识别,如股票市场中的牛熊市、震荡等,而HMM在识别金融数据的隐藏状态方面具有显著优势,能够有效提升模型对市场状态转换的识别精度,Yao [14]等运用HMM框架解码多变量金融数据的潜在状态,展示了该模型在不同数据类型下识别异常事件优越性。景楠[15]等将GARCH模型与HMM相结合预测中国期货市场的波动率,实证显示HMM-GARCH优于传统GARCH模型,为该领域的进一步研究提供了新思路。
综上所述,本文结合HMM、NPGARCH、GJR-GARCH以及外生变量构建基于隐马尔可夫的带有外生变量的双非GARCH (HMM-DNGARCH-X)模型。该模型不仅能够捕捉金融数据的非线性特征、高峰厚尾及极端值的显著统计特性,还深刻揭示了市场中的杠杆效应以及外生变量对研究对象的波动的影响,还可以解释到金融数据的状态变化。
2. 模型及其估计方法
2.1. DNGARCH-X
2.1.1. DNGARCH(1,1)模型
DNGARCH(1,1)模型是基于NPGARCH(1,1) [5]通过引入非对称项同时考虑金融数据的非线性特征非对称特性。NPGARCH(1,1)模型的形式如下:
(1)
其中,
表示收益率,
表示波动率的平方,
表示对数价格,
表示时间
的误差项,
满足标准正态分布。在条件均值方程中,参数
和
用于调节条件均值的形状;在方差方程中,
为常数项,
、
为对应项的系数,此方程中的第一项表示常数项,后面两项分别表示过去误差项的平方和、过去方差的加权和。基于此,引入了非对称项
(
为非对称项系数)构建DNGARCH(1,1)模型考虑波动率的非对称性,模型的形式如下:
(2)
2.1.2. DNGARCH(1,1)-X模型
式(2)的第一个式子是DNGARCH(1,1)的条件均值方程,通过在均值方程中加入影响收益的外生变量[13] (表示为
),这些变量可以是宏观经济指标、市场情绪指标或任何其他相关因素,通过包含外生变量该模型可以对金融资产进行更全面的分析,不仅考虑了过去冲击的影响,还考虑了外部因素对收益率的影响。因此带有外生变量的DNGARCH(1,1)模型的表达式为:
(3)
2.1.3. DNGARCH-X估计方法
通过极大似然估计法对DNGARCH-X的模型参数进行估计,根据扰动项
服从标准正态分布,由标准正态分布的概率密度函数和
可以得到
条件概率密度函数为:
(4)
其中,
,
。因而DNGARCH-X模型的似然函数:
(5)
因此,可以定义对数似然函数:
(6)
参数向量
的最大似然估计
为方程
的解。
2.2. HMM-DNGARCH-X模型
2.2.1. HMM模型
HMM由两个随机过程构成,是一个描述含有未知参数的马尔科夫过程的双随机过程。该模型主要依赖可观察变量来确定隐含参数,并利用这些参数进行后续分析[16]。
HMM模型可以用一个五元组
表示,具体如下:
N表示隐含状态数量。隐含状态之间符合马尔可夫性质,构成马尔可夫模型中实际隐含的状态;
M表示可观察状态的数量。可观察状态在模型中与隐含状态相关联,可通过直接观察获得,且可观察状态的数量M不一定与隐含状态的数量N一致;
A表示隐含状态转移概率矩阵。可以表示为
,
表示在t时刻从状态i转移到j的概率,其中
;
B表示观察状态概率矩阵。
,
表示在t时刻从状态j中选择观察特征为
的概率,其中,
;
表示初始状态的概率分布,
,
,
表示在t时刻选择状态i的概率,其中
表示t时刻的状态,
。
2.2.2. HMM-DNGARCH-X模型
由于GARCH类模型在预测波动率时,通常假定条件波动率在整个期间内遵循单一机制,这忽略了突发事件或预期变化可能导致的金融资产价格结构显著变动,导致前后期表现出不同的特征。为了体现这种结构性的变化,将隐马尔可夫状态转换方法引入波动率模型中,以描绘金融资产数据在不同状态下的特性及其转换行为。由此,建立了基于隐马尔可夫的带有外生变量的双非GARCH (HMM-DNGARCH-X)模型:
(7)
表示
在t时刻的状态,
都是依赖t时刻状态为
的参数。并且状态之间的转移服从状态转移概率矩阵。
2.2.3. HMM估计方法
HMM模型的参数估计常采用Baum-Welch算法[17]。基本思想是:在给定观测序列
的基础上,调整模型参数
以最大化生成该观测序列的概率
。依据前向变量与后向变量的定义,推导出前向变量和后向变量的混合概率计算公式:
(8)
其中,t为当前状态的时刻,也作为样本序号,
为前向变量;
为后向变量;
为j状态观察值
的概率;
为
时刻的观察值。在实际应用中,当观察序列有限时,并不存在一个最佳的方法用于估计
,只能找到某些方法,使得参数在特定的几个性能指标上表现出较强的优势。在这种情况下,Baum-Welch算法利用递推思想,使条件概率局部最大,从而获得模型参数的最终估计值。具体步骤如下:
定义
表示t时刻的状态为
、
时刻状态为
的概率,
。根据前向–后向算法可推出
(9)
定义
为t时刻状态为
的概率,
,
为从
状态转移出去的期望次数,
为从
状态转移到
状态的期望次数,因此可以得到
和
的重估值
和
。则得到Baum-Welch算法的重估公式为
(10)
其中,
为重估后从
状态转移到
状态的期望概率。
(11)
其中,
为从
状态转移到
状态的概率离散程度,
为初始概率矩阵中从
状态转移到
状态的初始状态转移概率。
(12)
其中,
为初始概率矩阵中从
状态转移到
状态的概率。
(13)
其中,
为修正后的状态转移矩阵。首先,随机生成几组数值,包括初始状态的概率分布
、状态转移矩阵
以及符合正态分布的观察概率矩阵
,利用Baum-Welch算法对数据集进行训练,通过多轮迭代,直到参数达到预设的优化阈值时停止计算,从而使参数逐步趋于最优值。通过计算可以得到波动率状态的划分结果,为构建结构突变前后的波动率模型奠定基础。
3. 模拟研究
本章通过数值模拟研究检验所提估计方法的好坏。首先给定待估参数的真实值,生成随机数作为观测数据集,然后利用该数据集对模型进行数值模拟,最后利用偏差(Bias)、经验标准差(SD)和均方根误差(RMSE)指标评价模拟结果。取隐状态个数K = 2,转移概率矩阵为如下二阶方阵:
设隐状态1时DNGARCH-X的模型参数为
,隐状态2时DNGARCH-X的模型参数为
,在模拟过程中,设置n = 400,n = 800和n = 1200,并且每种情况下重复1000次试验。
模拟结果见表1和表2所示,展示了参数估计量的Bias、SD和RMSE。结果显示所有估计量的Bias均很小,SD和RMSE的值相当接近,并且随着样本量的增加,几乎所有估计量的SD和RMSE值都在不断减小。通过数值模拟结果可以发现在样本容量有限的情况下,参数的估计量是有效的,进一步说明该估计方法是比较准确的。
Table 1. Estimation simulation results of hidden state 1 of the HMM-DNGARCH-X mode
表1. HMM-DNGARCH-X模型隐状态1的估计模拟结果
|
参数 |
|
|
|
|
|
|
|
|
|
T = 400 |
Bias |
0.0090 |
−0.0034 |
−0.0152 |
−0.0175 |
−0.0199 |
−0.0132 |
0.0511 |
0.0353 |
0.0248 |
RMSE |
0.0198 |
0.0456 |
0.1002 |
0.0631 |
0.0621 |
0.0763 |
0.3320 |
0.0321 |
0.0228 |
SD |
0.0176 |
0.0454 |
0.0991 |
0.0607 |
0.0588 |
0.0752 |
0.0316 |
0.0194 |
0.0181 |
T = 800 |
Bias |
0.0082 |
0.0066 |
−0.0282 |
−0.0151 |
−0.0188 |
−0.0016 |
0.0273 |
0.0244 |
0.0157 |
RMSE |
0.0196 |
0.0478 |
0.3306 |
0.0392 |
0.0554 |
0.0577 |
0.0232 |
0.0186 |
0.0104 |
SD |
0.0178 |
0.0473 |
0.3294 |
0.0361 |
0.0521 |
0.0576 |
0.0220 |
0.0097 |
0.0087 |
T = 1200 |
Bias |
0.0026 |
−0.0002 |
−0.0012 |
−0.0049 |
−0.0053 |
−0.0036 |
0.0107 |
0.0087 |
0.0079 |
RMSE |
0.0100 |
0.0054 |
0.0158 |
0.0221 |
0.0240 |
0.0161 |
0.0193 |
0.0085 |
0.0065 |
SD |
0.0096 |
0.0054 |
0.0158 |
0.0216 |
0.0234 |
0.0156 |
0.0120 |
0.0043 |
0.0037 |
Table 2. Estimation simulation results of hidden state 2 of the HMM-DNGARCH-X model
表2. HMM-DNGARCH-X模型隐状态2的估计模拟结果
|
参数 |
|
|
|
|
|
|
|
|
|
T = 400 |
Bias |
0.0284 |
−0.0021 |
0.0048 |
−0.0098 |
−0.0667 |
−0.0885 |
−0.0711 |
0.0353 |
0.0248 |
RMSE |
0.0664 |
0.0570 |
0.0445 |
0.2430 |
0.2810 |
0.1818 |
0.2220 |
0.0321 |
0.0228 |
SD |
0.0286 |
0.0123 |
0.0065 |
0.0587 |
0.0667 |
0.0885 |
0.2103 |
0.0194 |
0.0181 |
T = 800 |
Bias |
0.0154 |
0.0009 |
0.0000 |
−0.0219 |
−0.0225 |
−0.0519 |
−0.0417 |
0.0244 |
0.0157 |
RMSE |
0.0497 |
0.0112 |
0.0023 |
0.0588 |
0.0607 |
0.1367 |
0.1697 |
0.0186 |
0.0104 |
SD |
0.0155 |
0.0027 |
0.0006 |
0.0219 |
0.0225 |
0.0519 |
0.0641 |
0.0097 |
0.0087 |
T = 1200 |
Bias |
0.0078 |
0.0011 |
0.0001 |
−0.0121 |
−0.0128 |
−0.0275 |
−0.0338 |
0.0087 |
0.0079 |
RMSE |
0.0365 |
0.0126 |
0.0019 |
0.0441 |
0.0476 |
0.0994 |
0.1270 |
0.0085 |
0.0065 |
SD |
0.0079 |
0.0020 |
0.0004 |
0.0121 |
0.0128 |
0.0275 |
0.0378 |
0.0043 |
0.0037 |
4. 实证分析
4.1. 数据描述
国债市场的发展与国家经济密切相关,是经济运行的重要组成部分。因此选择2003年4月7日至2010年12月31日上证国债指数1879个数据点作为研究对象。此外选择了同一时期的人民币兑美元汇率作为外生变量,令
为上证国债指数取对数后的收盘价,并取对数收益收益率
。图1和图2分别是日收益率分布图和日收益率波动图,由图2可以看出国债日收益率序列集中在0附近剧烈波动。根据对数收益率序列波动趋势,将国债指数价格波动划分为正常波动状态和异常波动状态,建立两状态HMM-DNGARCH-X模型。
Figure 1. The daily yield distribution of the SSE treasury bond index
图1. 上证国债指数的日收益率分布图
Figure 2. Daily yield fluctuation chart of the Shanghai composite treasury bond index
图2. 上证国债指数的日收益率波动图
Figure 3. Daily yield series ACF and PACF
图3. 日收益率序列ACF和PACF
4.2. 统计特征分析
通过图1可以发现国债日收益率序列其呈现左偏特征,表明该序列分布不对称;峰度为25.074,远大于3,表明序列呈现出明显的尖峰特征;通过图3对序列进行ACF和PACF检验,显示出日收益率序列是平稳的;进一步对人民币兑美元汇率序列进行平稳性测试,结果表明该序列在进行差分处理后变为平稳序列;对国债日收益率序列进行ARCH效应检验,根据LM统计量为454.818,p值远小于0.001,认为残差项有明显的ARCH效应。
4.3. HMM-DNGARCH-X模型
首先,对国债指数序列构建HMM模型,将国债指数序列划分为正常、异常状态。假设初始时刻处于正常状态的概率为1,异常状态的概率为2。使用Baum-Welch算法估计模型参数,然后利用Viterbi算法确定隐状态序列的最佳估计。通过分析正常、异常状态的数据分别建立DNGARCH-X模型[18]。
当
时,即正常波动状态下的模型为:
当
时,即异常波动状态下的模型为:
得到一步状态转移概率矩阵为:
其中,
表明正常状态的稳定性高于异常状态,符合实际情况。由
,
可知,在两种波动状态下,上证国债指数具有杠杆效应,利空消息带来的冲击要比利好消息更强烈。此外,外生变量的系数为正,表示人民币兑美元汇率对国债指数收益率的波动性产生正向影响,并且异常波动状态下的影响相对正常状态来说要更加强烈。通过分析对比与NPGARCH、HMM-DNGARCH-X等5类模型对该序列的拟合预测效果,比较结果见表3:
Table 3. Comparison of the effects of the three models fitting the prediction index
表3. 三种模型拟合预测指数效果对比
模型 |
RMSE |
MAE |
SD |
NPGARCH |
0.038 |
0.030 |
0.031 |
GJR-GARCH |
0.042 |
0.033 |
0.034 |
DNGARCH |
0.029 |
0.024 |
0.026 |
DNGARCH-X |
0.018 |
0.014 |
0.017 |
HMM-DNGARCH |
0.017 |
0.014 |
0.016 |
HMM-DNGARCH-X |
0.014 |
0.011 |
0.013 |
利用该模型对上证国债指数的日收益率进行预测,见图4。预测的置信区间很好地反映了股票收益率的趋势,表明所建立的HMM-DNGARCH-X模型能够良好地拟合上证国债指数收益率序列,并且对于该序列的预测具有较高的参考价值。
Figure 4. Comparison of the true and predicted values of the HMM-DNGARCH-X model
图4. HMM-DNGARCH-X模型真实值和预测值对比图
5. 结束语
本文为了刻画股票数据中蕴含的非线性、非对称特性以及考虑到外部冲击和复杂状态变化的影响,通过结合HMM、NPGARCH模型以及GJR非对称项和外生变量构建了HMM-DNGARCH-X模型。该模型运用HMM划分股市价格波动为正常与异常状态,通过Baum-Welch算法估计模型参数、Viterbi算法识别隐状态序列,将不同状态对应的收益率带入到HMM-DNGARCH-X模型进行预测分析。通过设置两状态不同的参数值对该模型进行模拟并验证了其有效性,实证于上证国债指数显示相较于NPGARCH、GJR-GARCH、DNGARCH等5类模型,HMM-DNGARCH-X模型拟合损失更低,预测性能更佳。综上所述,HMM-DNGARCH-X模型能够较好地预测股票价格波动情况,在金融投资事件中具有广泛的应用潜力。
NOTES
*第一作者。
#通讯作者。