1. 引言
1.1. 研究背景
股票市场在金融领域占据了越来越重要的地位。股票市场的建立和发展对促进经济改革和经济发展发挥了重要作用。因此,股票发行一直是许多学者和投资者研究的焦点,准确预测股票价格一直是研究人员感兴趣的方向。但是,股票市场的价格经常大起大落,呈现复杂的非线性和随机性,影响股票价格的因素很多,每个因素对股票价格的影响程度都不一样,这使得准确预测股票变得很困难。因此,寻找有效的预测方法是摆脱股票预测困境的关键。
1.2. 研究意义和目的
股票市场的价格预测研究不仅有重要的学术意义,而且有重要的实际意义。股票价格预测可以更好地理解和把握股票市场运行规律、股票价格波动规律及其对实体经济的影响机制和影响程度,更好地把握货币政策的传导机制。在实践中,在股票价格剧烈波动的情况下选择和实施有效的货币政策,有助于减少和消除股票市场的不稳定因素,从而进一步提高各国宏观经济的运行质量。
2. 文献综述
目前国内外对于股票价格预测的方法不尽相同,从最初的单一预测模型,如惠晓峰等人利用来自美国联邦储备局提供的统计数据(www.economagic.com)中的1994~1997年的日汇率数据建立GARCH模型。由于GARCH模型更适合于收益率的时间序列,因此作者对人民币/美元的日汇率序列进行了相应的处理,并将其转化为一个收益率序列。之后对收益性序列绘制了自相关图和偏自相关图,得出收益性序列是存在相关性的,接着又进行了ARCH检验,得出存在着明显的异方差性 [1]。在得到估计模型后,对估计的结果进行有关的残差检验,来验证估计的有效性。最后利用滚动算法和递归算法分别来进行预测,选择了平均预测误差平方和的平方根(RMSE),Theil不相等系数(U),平均绝对误差(MAE),平均预测误差(MFE) 和平均绝对误差(MAPE)来衡理时间序列预测效果。人民币兑美元的时间序列存在GARCH效应(即异方差),GARCH(1, 1)模型完全适用于人民币兑美元的建模。预测结果也再次证明了GARCH(1, 1)模型预测短期汇率的可行性 [2]。刘国旗采用了两种GARCH修正模型:二次GARCH模型(即QGARCH模型)和Glosten、Jagannathan和Runkle即GJR模型。以及标准GARCH模型对中国股市的波动性进行了预测。首先讨论了中国股市数据的统计特征,得出了拒绝正态分布的原假设 [3]。之后给出了模型的估计结果,为了评价非线性GARCH模型预测金融时间序列波动性的能力,给出了收益率波动性的测量公式,得出QGARCH模型是最优的。杨建辉等人首先使用EMD方法对上证指数日收盘价数据进行分解,得到6个本征模态分量IMF和1个剩余分量R [4]。然后将分解后的不同频率的数据重新组合成高频序列、低频序列和趋势序列,IMF1~IMF4都是均值在0附近的高频分量,IMF5~IMF6是均值显著偏离0的低频部分 [5]。剩余分量代表指数的长期趋势项。为了避免预测过程中的误差累积,提高最终的数据预测精度。分别对IMF组合的高频项、低频项和趋势项进行了拟合和预测。利用自回归模型对低频序列和残差序列进行了模拟和预测。股票的高频序列表现出负偏态,因此拒绝原序列服从均值为0的正态分布的零假设,同时表现出过峰度(峰度大于3时称为过峰度)。J-B统计量拒绝了零假设,即高频率的金融数据序列是非正态的。因此,选择了GARCH模型对其进行拟合。最后,对三个序列的预测值进行加权和重组,得到最终的预测结果。
由于模型复杂度的限制和信息冗余的影响,单个预测模型很难考虑所有的影响因素,因此预测精度无法保证。在这种情况下,人们提出了组合预测方法,即对同一对象采用两种或两种以上的预测方法进行预测。例如,张超首先将数据分为样本内数据和样本外数据。利用样本内数据进行建模,利用样本外数据检验模型的预测能力 [6]。同时,为了便于建模,将股票价格数据转换为对数收益率数据。其次,建立了收益率序列的ARMA-GARCH模型,并对未来收益率进行了预测。将预测收益率值转换为预测股价值,计算实际值与预测值之间的误差。误差序列数据又分为样本内数据和样本外数据,样本内数据用来建立回归模型,样本外数据用来检验回归模型的预测能力。然后通过变量间的相关分析,筛选出与预测误差相关的影响因素。对筛选出的影响因素进行主成分分析,实现降维,提取具有代表性的综合指标。建立了综合指标和误差序列的回归模型 [7]。利用回归模型对误差进行预测,得到预测值。最后,利用误差预测值对ARMA-GARCH模型预测的股价进行修正,得到最终的股价预测值。这种引入误差校正的方法(即回归模型)对误差的预测比ARMA-GARCH模型准确,明显减小了ARMA-GARCH模型预测的误差,从而在一定程度上克服了ARMA-GARCH模型因为考虑外部因素不足导致预测误差偏大的缺点。杨琦和曹显兵利用深圳A股大众公用(600635)在2014年1月2日至2015年3月31日共301天的收盘价数据进行分析与预测,首先,通过对数据的初步分析,建立ARMA拟合模型;然后,通过对残差序列的平方进行相关性检验(这里采用Box-Ljung检验),认为残差的平方项存在强相关性,即序列存在条件异方差性。故通过加入GARCH模型消除条件异方差性。从残差的检验中作者发现,模型的残差并不服从正态分布,而且有一定的右偏,所以在建立GARCH模型时,将标准化残差的分布分别改为t分布、有偏的t分布、广义误差分布和有偏的广义误差分布来建立模型,并进行比较 [8]。在参数通过t检验的条件下,选取AIC最小的模型。最后得到ARMA-GARCH拟合模型。在得到ARMA-GARCH模型后,用标准化残差及其平方检验拟合模型的充分性。
3. ARIMA-GARCH模型简介
3.1. ARMA模型
形如如下结构的模型称为自回归移动平均模型,简记为ARMA(p, q):
当
时,上述模型可以写为
该模型称为中心化ARMA(p, q)模型。
当前序列值乘以一个延迟算子时,此时就变为前一个序列值,即
为简化上述结构,引入延迟算子,故ARMA(p, q)模型简记为:
其中
为p阶自回归系数多项式,
为q阶移动平均系数多项式。
3.2. 差分运算
根据Cramer分解定理,方差齐性非平稳序列都可以分解为:
展开一个d阶差分,有
进一步
3.3. GARCH模型
假设在已知历史数据的情况下,零均值和纯随机残差序列具有异方差性
,在正态分布的假设下,有
,那么异方差等价于残差平方的均值
。具有
这种结构的模型称为q阶自回归条件异方差模型,简记为ARCH(q)。
而ARCH模型只适用于异方差函数的短期自相关过程。在实际应用中,残差序列的异方差函数并非都是短期自相关性的。因此,根据ARCH模型,通过加入考虑异方差函数的p阶自相关,建立了GARCH模型。GARCH模型能有效地拟合具有长期记忆的异方差函数。GARCH(p, q)模型的结构如下:
其中
为
的确定性信息拟合模型,
。
3.4. 参数估计
对于非中心化ARMA(p, q)模型,有
其中
,
,
。
参数
采用矩估计的方法来估计,即用样本均值估计总体均值。
估计完参数
后,估计参数
,用三种方法估计
个未知参数:矩估计法,极大似然估计法和最小二乘估计法。
1) 矩估计法
采用样本自相关系数估计总体自相关系数的方法,即
通过求解以上方程组,可以获得参数值
的矩估计
。再用样本方差估计总体方差
。在ARMA(p, q)模型两边同时求方差,得到
,把估计值代入其中得到
的估计值。
2) 极大似然估计法
假设序列服从多元正态分布
记
其中
那么
的似然函数为:
对数似然函数为:
对未知参数求偏导数,得到似然方程组
其中
。
求解似然方程组就可得到未知参数的极大似然估计值。
3.5. 模型检验
1) 模型的显著性检验
如果一个序列的信息提取是充分的,那么拟合该序列的模型是显著的。也就是说,在一个好的拟合模型中,拟合残差项不再包含任何相关信息,残差序列是一个纯随机序列。所以接下来对残差序列进行白噪声检验。
原假设
:
备择假设
:至少存在某个
检验统计量:
如果零假设被拒绝,则表明残差序列中仍然存在未提取的信息,拟合模型不显著。
2) 参数的显著性检验
原假设
:
备择假设
:
对于线性拟合模型,记
为
的最小二乘估计,有
在正态分布假定下,第j个未知参数的最小二乘估计值
服从正态分布:
(1)
由于
不可观测,故用最小残差平方和估计
:
根据正态分布的性质,有
(2)
由式(1)和式(2)可以构造出检验统计量t:
当
时,拒绝原假设,则认为该参数显著。
4. 数据预处理
4.1. 数据来源和基本特征
本文中采用的是绿色拇指工业公司2018年6月18日至2020年10月21日的日收盘价格,其中2018年6月18日至2020年7月27日共计531个数据为样本内建模数据,2020年7月28日至2020年10月21日共计61个数据为样本外数据进行预测,所有的数据均来源于 https://www.datafountain.cn/datasets/5410。

Table 1. Basic statistical characteristics of sequences
表1. 序列的基本统计特征
从表1可以看出,序列的偏度为0.8361,大于0,说明序列是右偏的;峰度为1.1609,小于3,表明该序列具有细尾特征。
4.2. 数据预处理
通过观察日收盘价序列的时序图,该序列具有明显的递增趋势,所以它是非平稳序列。由于该数据是股票数据,为了能直观感受到收益率的变化,为了使数据更平稳,不改变数据间的相关关系,同时削弱数据的异方差和共线性,本文对数据进行预处理,采取对数收益率的方式。我们将日收益率定义为日收盘价的对数的一阶差分:
从时序图可以看出,日收益率始终在零值附近波动,没有明显的趋势和周期,因此可以初步认为是一个平稳序列。自相关图1显示出除了延迟3阶自相关系数在2倍标准差范围之外,其他阶数的自相关系数在2倍标准差范围之内,显示出很强的短期自相关性。但是衰减到零的速度很慢,可以判断该序列具有拖尾的特征。同时偏自相关图也显示了拖尾的性质。
通过对收益率序列进行纯随机性检验,发现延迟6阶的Q统计量的P值为0.0001689小于显著性水平
,延迟12阶的Q统计量的P值为0.001266小于
,因此,可以拒绝纯随机性的原假设,并对该序列进行统计分析。
5. 建立模型
5.1. 建模原理
当我们拿到一个观察值序列之后,一个完整的分析应该关注水平和波动两方面。首先提取序列的水平信息,然后分析残差序列的波动信息。所以我们首先对每日收益率序列进行ARIMA建模,对残差序列进行GARCH建模。通过用ARIMA模型和GARCH模型结合的ARIMA-GARCH模型进行预测。由于预测值与真实值之间存在误差,所以利用主成分分析剔除变量间的冗余信息,寻找适合回归模型的自变量,对误差序列进行回归拟合。利用该回归模型进行误差序列的预测,最后将预测值对ARIMA-GARCH模型的预测值进行校正。
5.2. 建模步骤
如图2所示,本文建模步骤划分为四个流程:① 将原始数据序列转换为收益率数据序列,针对收益率序列建立ARIMA模型;② 对ARIMA模型的残差序列建立GARCH模型;③ 利用ARIMA-GARCH模型进行预测,得到预测值
;④ 利用实际值与预测值之间的误差序列拟合回归模型并对误差序列进行预测,得到预测值
;⑤ 将误差序列的预测值对ARIMA-GARCH模型得预测值校正,得到最终的预测值
。
5.3. 建立模型
通过自相关图和偏自相关图分析,建立了ARIMA(1, 1, 1)模型。图3显示了建立的ARIMA模型的残差检验结果。延迟6阶的P值均大于0.05,没有充分的理由拒绝原假设。因此,残差序列是纯随机的,表明拟合模型ARIMA(1, 1, 1)显著有效。参数的显著性检验中P值均小于0.05,因此,该参数通过了显著性检验。
由于建立的模型和参数均通过了显著性检验,故所拟合模型可以用于进一步的预测。拟合的ARIMA(1, 1, 1)模型:

Figure 3. Significance test chart of ARIMA model
图3. ARIMA模型的显著性检验图
通过观察ARIMA(1, 1, 1)模型的残差序列时序图(如图4),发现残差序列的波动在大部分时期是平稳的,但在某些时期波动持续偏大,某些时期波动持续偏小,呈现出集群效应,有理由怀疑序列的方差是非齐性的。因此对残差序列进行ARCH检验,检验结果表明残差序列具有显著的方差异质性,故对残差序列进行了GARCH(1, 1)模型拟合。
GARCH(1, 1)模型拟合的结果表明模型和参数都通过了显著性检验。通过将水平模型和波动模型相结合,得到拟合的ARIMA-GARCH模型:
采用ARIMA-GARCH模型进行初步预测,预测结果
见下表2。

Table 2. Predicted value of ARIMA-GARCH model
表2. ARIMA-GARCH模型的预测值
从表2观察到预测值与真实值之间的误差比较大,并且通过对误差序列进行白噪声检验,发现误差序列不是白噪声序列,误差序列中还存在着未提取的有用信息,还可以对误差序列进行统计分析。同时考虑到ARIMA-GARCH模型仅仅考虑了用历史的日收盘价数据预测将来的日收盘价,没有考虑外部因素对于日收盘价的影响,建立的模型进行预测难免会使误差偏大。因此,本文通过主成分分析找出影响误差序列的因素,并对误差序列进行回归建模。
以ARIMA-GARCH模型2020年7月28日至2020年10月12日的拟合误差序列为样本内建模数据,把2020年10月13日至10月21日的误差序列作为样本外数据进行预测。取绿色拇指工业公司对应时间的Open、High、Low以及AdjClose,对这4组数据取对数,然后利用变量间的相关性分析方法判断哪些变量与ARIMA-GARCH模型误差序列具有相关关系。这4组数据与误差序列之间的相关性,P值均小于显著性水平
,判别结果是Open、High、Low以及AdjClose与ARIMA-GARCH模型拟合残差都有一定的相关性。
为了降低自变量的维数,提取影响因素中包含的信息,考虑采用主成分分析法提取具有代表性的综合指标。bartlett球形检验的结果P值小于显著性水平
,表明可以进行主成分分析。下方的子图显示了KMO检验,整体的与每个变量的检验统计量MSA均大于0.7,说明这4组数据非常适合做主成分分析。接下来针对这4组数据利用主成分分析法寻找误差序列的解释变量,进而对误差序列进行回归建模。
由主成分分析结果,可以看出,第一主成分所占方差贡献率为95.22139%,然而第二主成分所占方差贡献率仅为0.02647444%,因此,第一主成分能较好地反映4个一致指标的整体变化,因此本文仅提取第一主成分作为回归方程的解释变量,用Z表示。
以Z为解释变量,误差序列
为被解释变量,拟合回归模型。模型结果显示参数通过了显著性检验并且
,这表明拟合的回归模型是显著的,回归方程:
。

Table 3. Analysis of error prediction results
表3. 误差预测结果分析
利用回归模型给出的误差预测结果,对ARIMA-GARCH模型的预测误差结果进行修正,得到最终的股价预测值。从表3可以观察到回归模型对误差的预测明显减小了ARIMA-GARCH模型预测的误差,从而在一定程度上克服了ARIMA-GARCH模型因为考虑外因素不足导致预测误差偏大的缺点。
6. 结论
由于影响股票市场的随机因素有很多,股票价格波动大,表现出复杂的非线性、不确定性,故股票市场是一个很不平稳的动态变化过程,建立一个准确的预测模型是很困难的。仅用时间序列模型不能很好地预测股票价格。因此在对未来股票价格进行预测时,不能只关注于时间序列预测模型给出的预测值,同时要对预测的误差多加关注。因为误差序列中含有预测模型未提取的信息,充分利用误差值里所含有的重要信息,对于提高预测精度是很有帮助的。
本文引入了误差校正的思想,先利用ARIMA-GARCH模型对日收盘价进行初步预测,但是预测精度不高,通过对误差序列进行的白噪声检验,发现误差序列存在还有未被ARIMA-GARCH模型提取的信息。然后利用变量间的相关性,找出与误差序列相关的变量。接着通过主成分分析对变量进行降维,筛选出合适的解释变量。对解释变量和误差序列进行回归分析,预测误差。最后,将预测误差值与ARIMA-GARCH模型的预测值相加,得到最终的预测值。通过将最终的预测值与ARIMA-GARCH模型的预测值相比较,观察到预测精度有了很大的提高,进而验证了引入误差校正的方法是合理的。
此论文将ARIMA-GARCH模型与回归模型相结合对日收盘价进行了预测,提高预测精度,实现了不仅仅靠历史收盘价数据预测未来价格,还同时考虑了日开盘价、日最高价数据等对日收盘价的影响。综合模型的预测精度相较于单一的ARIMA-GARCH模型有所提高,可以为实际的股票预测工作提供一些参考价值。