1. 引言
从1997年,IBM的深蓝(Deep Blue)超算程序战胜了世界象棋冠军加里·卡斯帕罗夫,到2012年,标志着深度学习兴起的AlexNet深度神经网络在ImageNet图像识别竞赛中获得巨大突破,再到2015年,谷歌的自动驾驶汽车首次成功通过完全无人驾驶测试,机器学习的快速发展,为人工智能领域的发展提供了坚实基础。因物联网、社交媒体、在线交易等各行业的火爆,时间序列类数据数量急剧增加,从海量时序数据中挖掘潜在的有效信息并明晰数据之间的关系,具有极大的学术价值与现实意义。深度学习因其强大的建模能力、对大数据的处理能力以及在各类金融任务中的应用潜力吸引了大量金融行业研究者的注意。从市场预测到算法交易、风险管理,再到投资组合优化,深度学习为金融领域提供了许多创新的方法和工具,也极大地推动了金融科技的变革[1]。股票作为“经济健康的晴雨表”,作为金融行业中的重要组成部分,也间接影响到我们的日常生活。
在机器学习中,循环神经网络对具有时间依赖性的序列数据有很好的处理效果,但当序列长度增加时就会产生梯度消失或梯度爆炸的问题[2]。长短期记忆神经网络LSTM是专门针对这一问题而提出的改进模型,在金融数据方面有广泛的应用[3]。杨瑞奇针对美股股指进行BP、RNN、LSTM三种神经网络模型训练,分析对比得知模型效果逐步提升,LSTM网络表现较显著[4]。赵红蕊和薛雷结合长短期神经网络、卷积神经网络和注意力机制模块(Convolutional Block Attention Module, CBAM)成为深度学习模型,针对上证指数数据进行价格预测,验证了结合模型的有效性与可行性,进一步提高了股票的预测性能[5]。
本文将Transformer模型与长短期记忆网络相结合,建立Transformer-LSTM模型,选取2018~2024年间三只股票的收盘价作为实证分析,并与LSTM神经网络进行对比,得到了较好的结果。
2. 长短期记忆网络与Transformer模型
2.1. 长短期记忆网络
长短期记忆网络(Long Short-Term Memory, LSTM)是一种特殊类型的循环神经网络(Recurrent Neural Network, RNN),具有一定的记忆功能,够更好地处理序列中的长期依赖关系。LSTM由多个组件组成,其中最核心的部分是三个门:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。其中,输入门决定当前输入的信息有多少会传递到细胞状态;遗忘门决定当前细胞状态中的信息有多少需要被“遗忘”;输出门决定当前细胞状态中有多少信息将输出。每个门都由一个激活函数控制,它的输出在0到1之间,表示信息的保留程度[6]。神经元具体结构见图1,其中Cell是细胞单元。
在该模型中,每个记忆单元都要从输入开始训练完整的三套权重,包括前一时间步中的所有隐藏状态。信息进入单元后,会同时流经遗忘门、输入门、输出门,这些门通过不同的计算和更新机制,决定了细胞状态和隐含状态。每个门都独立计算,再反馈到本身。具体公式如下:
输入门:
(1)
遗忘门:
(2)
输出门:
(3)
循环层状态的输出值:
(4)
其中,
与
分别为三个门的权重矩阵与偏置项,通过训练得到;
为细胞单元在
时刻维持的记忆值,更新公式为
。
Figure 1. LSTM neural network structure
图1. LSTM神经网络结构
2.2. Transformer模型
Transformer模型是一种用于自然语言处理和其他序列任务的深度学习模型架构,核心创新在于引入了自注意力机制,使得每个输入的元素在处理时可以考虑整个输入序列的所有其他元素,而无需像传统的RNN或LSTM那样逐步处理序列。这使得Transformer在训练时能并行处理整个序列,大大提高了训练速度和效率[7]。Transformer模型分为两部分:编码器(Encoder)和解码器(Decoder),运行原理结构如图2所示。
Figure 2. Simple structure of Transformer model
图2. Transformer模型简单结构
在金融股票数据分析中,Transformer模型通过其强大的自注意力机制能够有效地捕捉情绪与市场数据之间的复杂关系。通过集成情绪数据(如社交媒体评论、新闻情绪等),Transformer模型不仅能基于历史股市数据进行预测,还能根据市场情绪的变化动态调整预测结果,提升模型的准确性。情绪调控在股市预测中尤为重要,因为市场情绪对价格波动有深远影响,Transformer通过长程依赖和多头注意力机制能够深入理解这些复杂的情绪驱动因素,从而在动态市场环境中提供更为精准的预测[8]。
2.3. Transformer-LSTM模型
部分数据由于其特性需同时捕捉局部特征和全局特征,但LSTM擅长捕捉局部时序依赖,难以建模长距离全局关系;Transformer模型可以依靠自注意力机制,通过计算任意两个时间步的关系权重,直接建模全局依赖。所以提出使用Transformer与LSTM的协同机制,由Transformer提供“全局上下文特征”,LSTM细化“局部时序动态”,两者通过注意力机制进行融合。模型结构分为编码器和解码器两部分:
1) Transformer编码器:将输入序列
(
表示
时刻的股票特征)映射为全局上下文表示
,核心公式为:
(5)
(6)
其中,
、
、
为可学习参数矩阵,
为缩放因子。
2) LSTM解码器:基于Transformer的全局特征和自回归机制逐步生成预测序列
。LSTM通过门控机制为每一步
更新隐藏状态
和细胞状态
,并融合Transformer的上下文向量
:
(7)
(8)
(9)
其中,
为解码器对编码器第
时间步的注意力权重,通过
与
的相似度计算得到。
3. 实证分析
3.1. 数据选取
Figure 3. Closing prices of three stocks
图3. 三只股票的收盘价
本文获取的原始数据来自AKShare,选取了京粮控股(000505)、东北制药(000597)和中钢国际(000928)三只A股股票来预测收盘价,包含2018年7月20日到2024年11月22日共1544个交易日的数据,前1244个数据作为训练集,后300个数据作为测试集。考虑到对股票价格影响比较重要的一些指标,选取了21个指标数据。其中包含5个基本交易数据,分别是开盘价、最高价、最低价、收盘价、成交量,也包含了基于基本交易数据通过数学公式计算得到的能够反映股价多方面信息的技术指标,分别是移动平均线(MA)、指数平滑异同移动平均线(MACD)、趋向指标(DMI)、能量潮指标(OBV)、随机指标(KDJ)、均量线(VOL)、心理线(PSY)、相对强度指标(RSI)和布林带(Bollinger Bands)共九个指标,特征个数分别为3、1、2、1、3、1、1、1、3。三只股票的收盘价如图3所示。
3.2. LSTM神经网络模型
针对实际问题,数据集中的样本特征往往存在差异,故在建模前对数据进行规范化处理至关重要。首先对所选数据清洗后得到完整样本,然后采用“max-min标准化”方法来消除指标间的量纲差异,公式为:
(10)
其中,
为原始数据,
为标准化后的数据,
为收盘价中的最大值,
为收盘价中的最小值,数据处理后不改变原始意义。在建模预测后,再将收盘价数据作反归一化处理,使其在检验数据建模效果时能够更加直观。
数据处理好之后,输入到LSTM网络当中,采用前60日的特征信息来预测下一日的股票收盘价格,并采用滑动窗口预测法进行实验。设置不同的参数进行测试,设置不同层数进行超参优化后发现选用Adam作为优化算法,隐含层个数设置为2时预测精度最高,对应的隐含层节点数分别为128、192、128,学习率为0.0001、0.0008和0.0005,迭代次数为200次。选用决定系数(R-Square,
)来检验实验精度,反映因变量的全部变异能通过回归关系被变量解释的比例,计算公式为:
(11)
其中,
为原始收盘价,
为平均收盘价,
为预测收盘价。
LSTM神经网络对京粮控股、东北制药和中钢国际的模型拟合优度分别为0.8394、0.8261和0.8404,均超过80%,说明LSTM神经网络模型可以较好地预测股票的收盘价,但对数据的波动不敏感,模型存在优化空间。
3.3. Transformer-LSTM神经网络模型
与文献[9]中先降维进行特征选择再训练模型的方法不同,由于股票数据的高复杂性,本次实验使用全部指标进行训练。实验先将处理好的数据输入到Transformer编码器(Encoder)中,数据会被映射到向量空间进行位置编码,并利用自注意力机制来捕捉序列中不同位置之间的关系,提取全局特征,然后将提取的特征输入到LSTM神经网络中,利用LSTM来捕捉时间序列中的局部时间依赖性。通过Keras-Tuner的3种不同的搜索调试策略(即RandomSearch、贝叶斯优化和HyperBand),针对不同的层数组合调参后发现,使用HyperBand方法,三只股票均在Transformer编码层数为1,使用两个多头注意力组合,且LSTM隐藏层层数也为1,对应的隐含层节点数分别为64、256和192。迭代次数为200时,模型运行效果最佳,预测结果如图4所示。
Figure 4. Prediction of stock closing price
图4. 股票的收盘价预测
实验仍选择决定系数来检验实验精度。Transformer-LSTM网络对京粮控股、东北制药和中钢国际的模型拟合优度为0.9329、0.8903和0.9330,其中对京粮控股和中钢国际两只股票的模型拟合优度均达到93%,效果提升10%左右,显著优于LSTM;而对东北制药的模型拟合优度为89%,未达到90%但也有6.42%的提升。实验结果表明,Transformer的引入能够有效提高模型的拟合能力,尤其是在全局特征提取方面,Transformer帮助LSTM更好地捕捉股票价格波动趋势,使模型的预测精度大幅提升。
3.4. 预测比较分析
将LSTM神经网络与Transformer-LSTM模型进行比较,针对测试集对收盘价进行预测,并将预测结果还原与真实值进行比较,采用均方误差(
)作为标准进行评价,公式为:
(12)
对比结果如表1所示。
Table 1. Closing price prediction MSE
表1. 收盘价预测MSE
|
LSTM |
Transformer-LSTM |
京粮控股 |
0.0613 |
0.0245 |
东北制药 |
0.0553 |
0.0302 |
中钢国际 |
0.0517 |
0.0222 |
由图表对比结果发现,京粮控股、东北制药和中钢国际在Transformer-LSTM模型下的预测误差分别为0.0245、0.0302和0.0222,而在LSTM神经网络模型下的误差为0.0613、0.0453和0.0517,说明Transformer-LSTM模型对股票收盘价预测更有效。
训练过程中发现,Transformer-LSTM模型通过扩展了一层Transformer架构,使用了更多的参数,数据得到了深度挖掘。而由于其并行化的特点,可以在一次计算中处理整个序列,所以模型最终训练时间与单一LSTM模型训练时间相差不大,这说明在保证高预测精度的情况下,Transformer-LSTM的混合结构通过全局–局部特征融合,平衡了长短期依赖关系,验证了其设计合理性,仍具备较好的优势。
4. 总结
本文通过实证分析比较了LSTM神经网络和Transformer-LSTM混合模型在股票收盘价预测中的应用与效果。通过对京粮控股(000505)、东北制药(000597)和中钢国际(000928)三只A股股票的历史数据进行建模与预测,Transformer-LSTM混合模型在股票收盘价预测中表现出了更强的拟合能力和预测精度,特别是在捕捉股价的长期趋势方面具有较好的优势。实验也存在不足之处,一是在模型网络参数设置中,Keras-Tuner超参调优的过程耗时耗力;二是虽然模型提高了预测精度,但对股票数据的近期剧烈波动仍不敏感。未来的研究可以对所选指标进行筛选并评估模型贡献值,以提高模型效率;其次,进一步优化Transformer和LSTM的结合方式,探索更多的特征选择与模型调优策略,以提升预测的精度和稳定性;与此同时,考虑到股市本身的高度复杂性和不确定性,之后还可以结合更多的外部因素,如宏观经济数据、投资者情绪数据等,来进一步增强模型的预测能力。
NOTES
*通讯作者。