1. 引言
股票市场在我国金融市场中扮演着关键角色,对推动我国的经济发展发挥了至关重要的作用,其价格波动性研究受到了广泛的关注。股票价格不仅受到宏观经济因素、企业基本面信息的影响,还受到市场情绪、投资者行为等多种复杂因素的影响[1]。因此,如何准确地描述和预测股票未来价格的波动趋势,已成为金融领域中的一项重要研究课题。股票的波动性研究在金融学和投资领域中占据重要地位,股票价格的波动性不仅直接影响投资者的风险承受能力,还对金融市场的稳定性和有效性产生深远影响。
目前,关于股票价格的预测方法主要包括以下三种:传统投资分析、时间序列分析以及人工智能技术。时间序列分析法主要基于统计学和计量经济学等相关理论,如移动平均法、趋势外推法等,然而,这些方法在处理非平稳、非线性的金融数据时存在一定的局限性。近年来,随着计算机技术的日新月异,人工智能和机器学习等方法逐渐被应用到金融领域[2],为股票价格波动性研究提供了新的视角和工具。本文旨在将机器学习方法引入到时间序列分析中,对股票价格的波动性进行深入分析研究。广义自回归条件异方差(Generalized Autoregressive Conditional Heteroskedasticity, GARCH)模型作为一种基于时间序列的波动性预测模型,能够捕捉到股票价格波动性的自相关性和聚集性特征,但由于对参数选择具有敏感性,导致预测结果与实际情况存在偏差;而BP神经网络(Back Propagation Neural Network)作为一种典型的机器学习模型,能够从海量数据中提取有价值的信息,有效应对时间序列中复杂的非线性问题,但由于其容易产生过拟合风险,一定程度上也会影响预测准确率。尽管这两种方法各具优势,但单独使用其中一种方法往往难以全面准确地描述股票价格的波动性,因此本文将两种模型相结合,可以更好地适应股票市场的复杂性和非线性性,提高股票价格的预测精度和稳定性。
2. 模型方法
2.1. GARCH模型
Bolleralev [3]于1986年扩展了ARCH模型,提出GARCH模型,修正了由于残差序列的异方差函数具有长期自相关性而导致模型阶数过高的问题。GARCH模型的公式如下:
(1)
其中
为滞后的残差平方,即ARCH项,
为GARCH项,这个模型简记为GARCH
。GARCH模型对于参数的选取有两点基本的要求,一是为了确保条件方差始终为正,而要求参数非负:
(2)
二是要求条件方差是平稳的,这导致了参数有界的约束条件:
(3)
2.2. BP神经网络模型
BP神经网络由Rumelhart和McClelland等人于1986年提出,是一种广泛应用于机器学习和人工智能领域的神经网络模型。它的学习规则是采用动态调整参数的梯度下降方法,即利用反向传播误差算法使网络能够自动更新权重和偏置,从而使得误差最小化。
Figure 1. BP neural network structure diagram
图1. BP神经网络结构图
BP神经网络的基本架构如图1所示,它包含了输入层、隐藏层和输出层[4],网络中的每一层都由若干个神经元构成,这些神经元之间的连接则通过权重来实现,从而形成一种多层前馈网络结构。算法的具体步骤如下:
(1) 初始化网络参数。将神经网络的输入数据定义为变量
;设定输入层与隐藏层之间的连接权重为
、隐藏层与输出层之间的权重为
、以及隐藏层偏置
和输出层偏置
,将它们分别赋予[0, 1]内的数值。
(2) 计算网络隐藏层的输出。根据输入变量序列X以及权值
、偏置
进行计算,得到隐藏层的输出
:
(4)
其中,f表示输入层到隐藏层的激活函数,取激活函数为
。
(3) 计算网络输出层的输出。根据得到的隐藏层的输出
、权值
和偏置
,计算网格结构的预测值
:
(5)
(4) 计算输出层的误差。根据期望达到值和网络预测值,得出输出层的误差E:
(6)
其中,
表示第k个期望值,
为网络的第k个输出值。
(5) 将输出层的输出
代入误差式,则有:
(7)
再将隐藏层的输出
代入上式,有:
(8)
由上式可知,误差函数E是网络各层权值
、
与偏置
、
的函数,因此可以使用梯度下降法求解误差函数E的极小点:
(9)
(10)
权重和偏置的调整应遵循使模型的误差逐步减小的原则,因此应使调整量与误差的梯度下降成正比,其中
为学习率。
(6) 更新权重和偏置。计算出连接到各层神经元的误差
,根据以下公式调整神经网络的连接权值和偏置:
(11)
(12)
2.3. 组合预测模型原理
传统的单一模型在拟合股票价格时,只能捕捉到实际数据的部分信息,难以全面准确地刻画股票的动态变化,预测准确度不高[5]。为了实现对股票价格更精确的预测,本文结合了两种不同预测领域的模型,即时间序列方法中的GARCH模型和机器学习方法中的BP神经网络模型,组合预测的技术路线如图2所示,预测算法的具体步骤如下:
(1) 获取中国农业银行历史股票价格数据;
(2) 对数据预处理获得对数收益率序列,进行平稳性检验和LM检验,进而对GARCH模型识别和定阶;
(3) 建立GARCH模型进行预测,并计算GARCH模型的方差;
(4) 提取拟合好的GARCH模型残差序列,连同股票收益率与GARCH模型方差一起作为BP神经网络的输入数据,拟合BP神经网络模型;
(5) 运用BP神经网络对GARCH模型的残差进行建模预测;
(6) 将修正好的残差值再带回GARCH模型中,得到组合预测结果。
Figure 2. The technical route predicted by the combined model
图2. 组合模型预测的技术路线
3. GARCH模型实证分析
3.1. 数据的选取与处理
本文选取中国农业银行从2021年5月6日至2024年1月30日的每日交易收盘价作为研究对象,一共有669个股票数据。为了让收益率更符合股票市场中的实际情况,并保持随机变量的二阶矩稳定,对股票日收盘价取对数后再进行一阶差分处理,从而得到对数收益率序列,共有668个数据,其计算公式为:
(13)
其中
为t时刻的对数收益率,
、
分别表示t时刻和t前一时刻的股票日收盘价。
3.2. 平稳性检验与LM检验
为了确保时间序列分析的准确性、可预测性以及模型建立的有效性,在GARCH模型建立前需要进行平稳性检验和异方差性检验。本文采用单位根检验来确定股票收益率序列是否平稳,ADF检验结果如表1所示:
Table 1. Stability test results of return series
表1. 收益率序列平稳性检验结果
检验项 |
数值 |
ADF值 |
−13.7397 |
P值 |
<1.1e−25 |
1%置信水平ADF值 |
−3.4403 |
5%置信水平ADF值 |
−2.8659 |
10%置信水平ADF值 |
−2.5691 |
从单位根检验结果可知,股票收益率的P值接近于0,且ADF统计量的值为−13.7397,在0.1、0.05和0.01等不同显著性水平下,ADF检验统计量均小于对应的临界值,则认为中国农业银行的股票收益率序列是平稳的。
由于GARCH模型的均值方程仅有常数项,将中国农业银行的股票收益率数据与其均值作差即可得到残差序列,对其进行LM检验,结果如表2所示:
Table 2. LM test results for residual series
表2. 残差序列的LM检验结果
Null hypothesis: no ARCH effects |
Chi-squared值 |
自由度 |
P值 |
59.674 |
10 |
4.178e−09 |
设置LM检验的自由度为10,从检验结果可以看出,卡方统计量的值为59.674,对应的P值接近于0,可以拒绝原假设,说明该残差序列存在ARCH效应,表现出显著的条件异方差性,因此运用GARCH模型进行后续的建模分析与股价预测是合理且可行的。
3.3. GARCH模型的建立
在实践研究中,GARCH(1,1)模型形式简单且实用性强,能够满足众多应用场景的需求,这使得它在金融领域的波动性分析中得到广泛运用,因此本文建立GARCH(1,1)模型来预测股票收益率。输出的结果如下表3所示:
Table 3. Table of GARCH(1,1) model coefficients
表3. GARCH(1,1)模型系数表
参数 |
Estimate |
Std. Error |
t value |
Pr(>|t|) |
|
0.000179 |
0.000240 |
0.74707 |
0.45502 |
|
0.000003 |
0.000003 |
1.11675 |
0.26410 |
|
0.159324 |
0.049608 |
3.21166 |
0.00132 |
|
0.821670 |
0.045022 |
18.25060 |
0.00000 |
根据输出的GARCH模型的参数结果,可以得到拟合的方程为:
(14)
(15)
从表3可以看出,GARCH项的系数
和ARCH项的系数
对应的P值均接近于0,说明GARCH模型的方差方程中这两部分的拟合结果都是显著的。观察可知,
和
之和为0.980994,小于1,说明建立的GARCH模型是有效的。
4. GARCH-BP组合模型实证分析
4.1. 数据来源
组合模型是在拟合GARCH模型的基础上建立BP神经网络对其残差序列进行修正预测,所以数据的选取同GARCH模型部分,依旧以中国农业银行从2021年5月6日至2024年1月30日的每日交易收盘价作为研究对象,共有669个股票数据。将不同时刻的股票价格数据看成时间序列
,其预测模型可以描述为:
(16)
其中,
表示非线性函数,预测窗口的大小l表示利用前l天的股票数据预测后1天的值,本文预测窗口的大小为15,构造样本如下:
(17)
式中,
,表示从第i天开始的l天的历史股票数据集
,表示第
天的股票数据。训练样本示意图如图3所示:
Figure 3. Schematic diagram of training samples
图3. 训练样本示意图
为了加快训练的速度与预测精度,在将数据输入BP神经网络前一般需要进行归一化处理,使得不同的数据统一到同一范围内。归一化公式如下:
(18)
最后,将预测结果进行反归一化处理,以获得原始数值。
(19)
其中
是初始数据,
、
分别为序列中的最小值和最大值,a为经过归一化处理后的数据,其范围为
。
4.2. 组合模型的建立与预测
基于上述训练样本构建BP神经网络模型,其拟合结果如图4所示:
Figure 4. BP neural network model fitting results
图4. BP神经网络模型拟合结果
从拟合结果可以看出,训练好的BP神经网络模型在训练集和测试集上的拟合优度均接近于1,说明实际数据拟合的很好,利用BP神经网络来预测股票收盘价是可行有效的。
组合模型中,建立BP神经网络模型是为了预测GARCH模型的残差序列,预测的训练周期选为5日,即用连续5天的历史数据作为残差的预测依据。每天的历史数据包括GARCH模型的残差、GARCH模型的方差以及对数收益率,按时间顺序依次将连续5天的数据作为BP神经网络的输入数据,其后一天的残差值作为目标输出数据。
根据训练好的BP神经网络模型对未来25个交易日的残差数据进行预测,其结果如表4所示:
Table 4. Residual value of GARCH model predicted by BP neural network
表4. BP神经网络预测的GARCH模型残差数值
0.00140290 |
0.01332771 |
0.02614103 |
−0.00270965 |
−0.00510912 |
0.00546183 |
−0.00579877 |
−0.00561953 |
−0.00400343 |
−0.00189212 |
0.00539392 |
0.00726650 |
−0.00028073 |
0.01152046 |
−0.00255672 |
0.00217936 |
0.01151830 |
−0.00103313 |
−0.00032976 |
−0.00013037 |
0.01276713 |
0.00477311 |
0.00272148 |
0.00672187 |
0.00409929 |
将上述预测残差代入到之前拟合好的GARCH模型中可以得到对数收益率序列的预测值,再将收益率转化为股票收盘价,即可得到中国农业银行未来25个交易日的预测股票价格。
4.3. 预测精度分析
为了分析不同模型关于股票价格波动率的预测精度,本文选取三种常用的模型性能评估指标对预测值与实际值之间的误差进行比较,它们分别为MAE (平均绝对误差)、MSE (均方误差)以及RMSE (均方根误差),其运算公式如下:
(20)
(21)
(22)
上式中,n为样本总量,
和
分别表示真实值和预测值。为了直观地判断预测值与真实值之间的差异,现绘制出单一模型GARCH模型、BP神经网络模型以及两者组合模型的收盘价预测结果对比图,如图5~7所示,预测精度对比如表5所示:
Table 5. Comparison of prediction errors of different models
表5. 不同模型预测误差对比
方法 |
MAE |
MSE |
RMSE |
GARCH模型 |
0.07218 |
0.0086404 |
0.092954 |
BP神经网络模型 |
0.04642 |
0.0051764 |
0.071947 |
组合模型 |
0.04621 |
0.0032366 |
0.056891 |
Figure 5. Comparison of actual and predicted closing prices of GARCH model
图5. GARCH模型的实际与预测收盘价对比
Figure 6. Comparison of actual and predicted closing price of BP neural network model
图6. BP神经网络模型的实际与预测收盘价对比
Figure 7. Comparison of actual and predicted closing prices of the combined model
图7. 组合模型的实际与预测收盘价对比
从以上的预测结果对比图可以观察到,BP神经网络模型和组合预测模型的实际与预测收盘价之间的偏差较小,预测的准确度相对较高,说明这两种模型拟合效果不错,都很好地描述了中国农业银行未来25个交易日股票价格的走势。
组合模型的本质是对GARCH模型的残差做出修正处理,从表5的预测误差结果对比可以看出,引入BP神经网络对残差进行预测的组合模型相较于GARCH模型的准确度的确有很大的提高,而且无论选择哪种模型评价指标,组合预测模型的误差都最小,预测效果最佳。
5. 结论
针对股票价格变化具有不确定性和非线性的规律,单一模型很难准确预测未来股票价格的走势,因此本文将GARCH模型和BP神经网络模型相结合,构建了二者的组合预测模型,并基于实际的股票价格数据通过实证分析,验证了组合模型的有效性。对于拟合的三种预测模型,经过三种误差评价指标的比较可知,组合模型的预测精度最高,其次是BP神经网络模型,相对较差的是GARCH(1,1)模型。这是因为GARCH模型善于捕捉时间序列数据中的自相关性和波动性,而BP神经网络有很好的非线性学习能力,通过将这两种模型相结合,可以充分利用其优势,提高股票价格的预测精度。
基金项目
中国石油大学(北京)油气资源与探测国家重点实验室“1158”项目(No. PRP/DX-2306)。