基于Transformer-LSTM模型的股票预测

doi:10.12677/aam.2025.145268

期刊菜单

基于Transformer-LSTM模型的股票预测
Stock Prediction Based on Transformer-LSTM Model

DOI: 10.12677/aam.2025.145268, PDF, HTML, XML,
作者: 马昱晗^*, 孙德山^*, 代雨鑫：辽宁师范大学数学学院，辽宁大连
关键词: 神经网络；LSTM；Transformer；股票预测；Neural Network； LSTM； Transformer； Stock Prediction

摘要: 近年来，全球经济金融环境动荡不安，充满挑战与风险，在此情况下，投资者在金融交易方面的抉择更加复杂，股票交易市场也面临着更大的挑战，传统的计量经济学模型难以充分适应此类变化。本文运用深度学习中的长短期记忆(LSTM)神经网络作为基本模型对股票数据的收盘价进行预测，选用京粮控股(000505)、东北制药(000597)和中钢国际(000928)三组数据，并在LSTM神经网络中引入Transformer模型。经实验，该模型的预测精度有明显提升，说明Transformer-LSTM网络模型在股票预测领域具有一定的可靠性。

Abstract: In recent years, the global economic and financial environment has been volatile and full of challenges and risks. In this situation, investors’ choices in financial trading have become more complex, and the stock trading market is also facing greater challenges. Traditional econometric models are difficult to fully adapt to such changes. This article uses the Long Short-Term Memory (LSTM) neural network in deep learning as the basic model to predict the closing price of stock data. Three sets of data from Jingliang Holdings (000505), Northeast Pharmaceutical (000597), and Zhonggang International (000928) are selected, and the Transformer model is introduced into the LSTM neural network. Through experiments, the prediction accuracy of the model has been significantly improved, indicating that the Transformer LSTM network model has certain reliability in the field of stock prediction.

文章引用：马昱晗, 孙德山, 代雨鑫. 基于Transformer-LSTM模型的股票预测[J]. 应用数学进展, 2025, 14(5): 387-393. https://doi.org/10.12677/aam.2025.145268

1. 引言

从1997年，IBM的深蓝(Deep Blue)超算程序战胜了世界象棋冠军加里·卡斯帕罗夫，到2012年，标志着深度学习兴起的AlexNet深度神经网络在ImageNet图像识别竞赛中获得巨大突破，再到2015年，谷歌的自动驾驶汽车首次成功通过完全无人驾驶测试，机器学习的快速发展，为人工智能领域的发展提供了坚实基础。因物联网、社交媒体、在线交易等各行业的火爆，时间序列类数据数量急剧增加，从海量时序数据中挖掘潜在的有效信息并明晰数据之间的关系，具有极大的学术价值与现实意义。深度学习因其强大的建模能力、对大数据的处理能力以及在各类金融任务中的应用潜力吸引了大量金融行业研究者的注意。从市场预测到算法交易、风险管理，再到投资组合优化，深度学习为金融领域提供了许多创新的方法和工具，也极大地推动了金融科技的变革[1]。股票作为“经济健康的晴雨表”，作为金融行业中的重要组成部分，也间接影响到我们的日常生活。

在机器学习中，循环神经网络对具有时间依赖性的序列数据有很好的处理效果，但当序列长度增加时就会产生梯度消失或梯度爆炸的问题[2]。长短期记忆神经网络LSTM是专门针对这一问题而提出的改进模型，在金融数据方面有广泛的应用[3]。杨瑞奇针对美股股指进行BP、RNN、LSTM三种神经网络模型训练，分析对比得知模型效果逐步提升，LSTM网络表现较显著[4]。赵红蕊和薛雷结合长短期神经网络、卷积神经网络和注意力机制模块(Convolutional Block Attention Module, CBAM)成为深度学习模型，针对上证指数数据进行价格预测，验证了结合模型的有效性与可行性，进一步提高了股票的预测性能[5]。

本文将Transformer模型与长短期记忆网络相结合，建立Transformer-LSTM模型，选取2018~2024年间三只股票的收盘价作为实证分析，并与LSTM神经网络进行对比，得到了较好的结果。

2. 长短期记忆网络与Transformer模型

2.1. 长短期记忆网络

长短期记忆网络(Long Short-Term Memory, LSTM)是一种特殊类型的循环神经网络(Recurrent Neural Network, RNN)，具有一定的记忆功能，够更好地处理序列中的长期依赖关系。LSTM由多个组件组成，其中最核心的部分是三个门：输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。其中，输入门决定当前输入的信息有多少会传递到细胞状态；遗忘门决定当前细胞状态中的信息有多少需要被“遗忘”；输出门决定当前细胞状态中有多少信息将输出。每个门都由一个激活函数控制，它的输出在0到1之间，表示信息的保留程度[6]。神经元具体结构见图1，其中Cell是细胞单元。

在该模型中，每个记忆单元都要从输入开始训练完整的三套权重，包括前一时间步中的所有隐藏状态。信息进入单元后，会同时流经遗忘门、输入门、输出门，这些门通过不同的计算和更新机制，决定了细胞状态和隐含状态。每个门都独立计算，再反馈到本身。具体公式如下：

输入门： $i_{t} = σ (W_{x i} x_{t} + W_{h i} h_{t - 1} + b_{i})$ (1)

遗忘门： $f_{t} = σ (W_{x f} x_{t} + W_{h f} h_{t - 1} + b_{f})$ (2)

输出门： $o_{t} = σ (W_{x o} x_{t} + W_{h o} h_{t - 1} + b_{o})$ (3)

循环层状态的输出值： $h_{t} = o_{t} ⊙ \tanh (c_{t})$ (4)

其中， $W$ 与 $b$ 分别为三个门的权重矩阵与偏置项，通过训练得到； $c_{t}$ 为细胞单元在 $t$ 时刻维持的记忆值，更新公式为 $c_{t} = f ⊙ c_{t - 1} + i_{t} ⊙ \tanh (W_{x c} x_{t} + W_{h c} h_{t - 1} + b_{c})$ 。

Figure 1. LSTM neural network structure

图1. LSTM神经网络结构

2.2. Transformer模型

Transformer模型是一种用于自然语言处理和其他序列任务的深度学习模型架构，核心创新在于引入了自注意力机制，使得每个输入的元素在处理时可以考虑整个输入序列的所有其他元素，而无需像传统的RNN或LSTM那样逐步处理序列。这使得Transformer在训练时能并行处理整个序列，大大提高了训练速度和效率[7]。Transformer模型分为两部分：编码器(Encoder)和解码器(Decoder)，运行原理结构如图2所示。

Figure 2. Simple structure of Transformer model

图2. Transformer模型简单结构

在金融股票数据分析中，Transformer模型通过其强大的自注意力机制能够有效地捕捉情绪与市场数据之间的复杂关系。通过集成情绪数据(如社交媒体评论、新闻情绪等)，Transformer模型不仅能基于历史股市数据进行预测，还能根据市场情绪的变化动态调整预测结果，提升模型的准确性。情绪调控在股市预测中尤为重要，因为市场情绪对价格波动有深远影响，Transformer通过长程依赖和多头注意力机制能够深入理解这些复杂的情绪驱动因素，从而在动态市场环境中提供更为精准的预测[8]。

2.3. Transformer-LSTM模型

部分数据由于其特性需同时捕捉局部特征和全局特征，但LSTM擅长捕捉局部时序依赖，难以建模长距离全局关系；Transformer模型可以依靠自注意力机制，通过计算任意两个时间步的关系权重，直接建模全局依赖。所以提出使用Transformer与LSTM的协同机制，由Transformer提供“全局上下文特征”，LSTM细化“局部时序动态”，两者通过注意力机制进行融合。模型结构分为编码器和解码器两部分：

1) Transformer编码器：将输入序列 $X = {x_{1}, x_{2}, \dots, x_{T}}$ ( $x_{t} \in ℝ^{d}$ 表示 $t$ 时刻的股票特征)映射为全局上下文表示 $H_{t r a n s} \in ℝ^{T \times d}$ ，核心公式为：

$H_{t r a n s} = S o f t \max (\frac{Q K^{⊤}}{\sqrt{d_{k}}}) V$ (5)

$Q = W^{Q} X, K = W^{K} X, V = W^{V} X$ (6)

其中， $W^{Q}$ 、 $W^{K}$ 、 $W^{V}$ 为可学习参数矩阵， $d_{k}$ 为缩放因子。

2) LSTM解码器：基于Transformer的全局特征和自回归机制逐步生成预测序列 $\hat{Y} = {{\hat{y}}_{1}, \dots, {\hat{y}}_{N}}$ 。LSTM通过门控机制为每一步 $t$ 更新隐藏状态 $h_{t}$ 和细胞状态 $c_{t}$ ，并融合Transformer的上下文向量 $c_{t}$ ：

$i_{t}, f_{t}, o_{t} = σ (W \cdot [h_{t - 1}; {\hat{y}}_{t - 1}; c_{t}])$ (7)

$c_{t} = \sum_{i = 1}^{T} α_{t, i} H_{t r a n s, i}$ (8)

${\hat{y}}_{t} = W_{o} h_{t} + b_{o}$ (9)

其中， $α_{t, i}$ 为解码器对编码器第 $i$ 时间步的注意力权重，通过 $h_{t - 1}$ 与 $H_{t r a n s}$ 的相似度计算得到。

3. 实证分析

3.1. 数据选取

Figure 3. Closing prices of three stocks

图3. 三只股票的收盘价

本文获取的原始数据来自AKShare，选取了京粮控股(000505)、东北制药(000597)和中钢国际(000928)三只A股股票来预测收盘价，包含2018年7月20日到2024年11月22日共1544个交易日的数据，前1244个数据作为训练集，后300个数据作为测试集。考虑到对股票价格影响比较重要的一些指标，选取了21个指标数据。其中包含5个基本交易数据，分别是开盘价、最高价、最低价、收盘价、成交量，也包含了基于基本交易数据通过数学公式计算得到的能够反映股价多方面信息的技术指标，分别是移动平均线(MA)、指数平滑异同移动平均线(MACD)、趋向指标(DMI)、能量潮指标(OBV)、随机指标(KDJ)、均量线(VOL)、心理线(PSY)、相对强度指标(RSI)和布林带(Bollinger Bands)共九个指标，特征个数分别为3、1、2、1、3、1、1、1、3。三只股票的收盘价如图3所示。

3.2. LSTM神经网络模型

针对实际问题，数据集中的样本特征往往存在差异，故在建模前对数据进行规范化处理至关重要。首先对所选数据清洗后得到完整样本，然后采用“max-min标准化”方法来消除指标间的量纲差异，公式为：

$x_{i}^{'} = \frac{x_{i} - \min x_{i}}{\max x_{i} - \min x_{i}},$ (10)

其中， $x_{i}$ 为原始数据， $x_{i}^{'}$ 为标准化后的数据， $\max x_{i}$ 为收盘价中的最大值， $\min x_{i}$ 为收盘价中的最小值，数据处理后不改变原始意义。在建模预测后，再将收盘价数据作反归一化处理，使其在检验数据建模效果时能够更加直观。

数据处理好之后，输入到LSTM网络当中，采用前60日的特征信息来预测下一日的股票收盘价格，并采用滑动窗口预测法进行实验。设置不同的参数进行测试，设置不同层数进行超参优化后发现选用Adam作为优化算法，隐含层个数设置为2时预测精度最高，对应的隐含层节点数分别为128、192、128，学习率为0.0001、0.0008和0.0005，迭代次数为200次。选用决定系数(R-Square, $R^{2}$ )来检验实验精度，反映因变量的全部变异能通过回归关系被变量解释的比例，计算公式为：

$R^{2} = \frac{\sum_{i = 1}^{n} {(\hat{y_{i}} - \bar{y_{i}})}^{2}}{\sum_{i = 1}^{n} {(y_{i} - \bar{y_{i}})}^{2}},$ (11)

其中， $y_{i}$ 为原始收盘价， $\bar{y_{i}}$ 为平均收盘价， $\hat{y_{i}}$ 为预测收盘价。

LSTM神经网络对京粮控股、东北制药和中钢国际的模型拟合优度分别为0.8394、0.8261和0.8404，均超过80%，说明LSTM神经网络模型可以较好地预测股票的收盘价，但对数据的波动不敏感，模型存在优化空间。

3.3. Transformer-LSTM神经网络模型

与文献[9]中先降维进行特征选择再训练模型的方法不同，由于股票数据的高复杂性，本次实验使用全部指标进行训练。实验先将处理好的数据输入到Transformer编码器(Encoder)中，数据会被映射到向量空间进行位置编码，并利用自注意力机制来捕捉序列中不同位置之间的关系，提取全局特征，然后将提取的特征输入到LSTM神经网络中，利用LSTM来捕捉时间序列中的局部时间依赖性。通过Keras-Tuner的3种不同的搜索调试策略(即RandomSearch、贝叶斯优化和HyperBand)，针对不同的层数组合调参后发现，使用HyperBand方法，三只股票均在Transformer编码层数为1，使用两个多头注意力组合，且LSTM隐藏层层数也为1，对应的隐含层节点数分别为64、256和192。迭代次数为200时，模型运行效果最佳，预测结果如图4所示。

Figure 4. Prediction of stock closing price

图4. 股票的收盘价预测

实验仍选择决定系数来检验实验精度。Transformer-LSTM网络对京粮控股、东北制药和中钢国际的模型拟合优度为0.9329、0.8903和0.9330，其中对京粮控股和中钢国际两只股票的模型拟合优度均达到93%，效果提升10%左右，显著优于LSTM；而对东北制药的模型拟合优度为89%，未达到90%但也有6.42%的提升。实验结果表明，Transformer的引入能够有效提高模型的拟合能力，尤其是在全局特征提取方面，Transformer帮助LSTM更好地捕捉股票价格波动趋势，使模型的预测精度大幅提升。

3.4. 预测比较分析

将LSTM神经网络与Transformer-LSTM模型进行比较，针对测试集对收盘价进行预测，并将预测结果还原与真实值进行比较，采用均方误差( $M S E$ )作为标准进行评价，公式为：

$M S E = \frac{1}{n} \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2}$ (12)

对比结果如表1所示。

Table 1. Closing price prediction MSE

表1. 收盘价预测MSE

	LSTM	Transformer-LSTM
京粮控股	0.0613	0.0245
东北制药	0.0553	0.0302
中钢国际	0.0517	0.0222

由图表对比结果发现，京粮控股、东北制药和中钢国际在Transformer-LSTM模型下的预测误差分别为0.0245、0.0302和0.0222，而在LSTM神经网络模型下的误差为0.0613、0.0453和0.0517，说明Transformer-LSTM模型对股票收盘价预测更有效。

训练过程中发现，Transformer-LSTM模型通过扩展了一层Transformer架构，使用了更多的参数，数据得到了深度挖掘。而由于其并行化的特点，可以在一次计算中处理整个序列，所以模型最终训练时间与单一LSTM模型训练时间相差不大，这说明在保证高预测精度的情况下，Transformer-LSTM的混合结构通过全局–局部特征融合，平衡了长短期依赖关系，验证了其设计合理性，仍具备较好的优势。

4. 总结

本文通过实证分析比较了LSTM神经网络和Transformer-LSTM混合模型在股票收盘价预测中的应用与效果。通过对京粮控股(000505)、东北制药(000597)和中钢国际(000928)三只A股股票的历史数据进行建模与预测，Transformer-LSTM混合模型在股票收盘价预测中表现出了更强的拟合能力和预测精度，特别是在捕捉股价的长期趋势方面具有较好的优势。实验也存在不足之处，一是在模型网络参数设置中，Keras-Tuner超参调优的过程耗时耗力；二是虽然模型提高了预测精度，但对股票数据的近期剧烈波动仍不敏感。未来的研究可以对所选指标进行筛选并评估模型贡献值，以提高模型效率；其次，进一步优化Transformer和LSTM的结合方式，探索更多的特征选择与模型调优策略，以提升预测的精度和稳定性；与此同时，考虑到股市本身的高度复杂性和不确定性，之后还可以结合更多的外部因素，如宏观经济数据、投资者情绪数据等，来进一步增强模型的预测能力。

NOTES

^*通讯作者。

参考文献

[1]	苏治, 卢曼, 李德轩. 深度学习的金融实证应用: 动态、贡献与展望[J]. 金融研究, 2017(5): 111-126.
[2]	Hochreiter, S. and Schmidhuber, J. (1997) Long Short-Term Memory. Neural Computation, 9, 735-780. https://doi.org/10.1162/neco.1997.9.8.1735
[3]	赵薇. 基于LSTM神经网络的金融数据预测分析[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2020.
[4]	孙瑞奇. 基于LSTM神经网络的美股股指价格趋势预测模型的研究[D]: [硕士学位论文]. 北京: 首都经济贸易大学, 2016.
[5]	赵红蕊, 薛雷. 基于LSTM-CNN-CBAM模型的股票预测研究[J]. 计算机工程与应用, 2021, 57(3): 203-207.
[6]	陈治颖. LSTM模型优化及其在中国股票指数预测中的对比研究[D]: [硕士学位论文]. 济南: 山东财经大学, 2024.
[7]	孟祥福, 石皓源. 基于Transformer模型的时序数据预测方法综述[J]. 计算机科学与探索, 2025, 19(1): 45-64.
[8]	郑国杰. 基于互联网投资者情绪的股票时间序列分析与预测[D]: [硕士学位论文]. 杭州: 浙江工业大学, 2019.
[9]	危冰淋, 刘春雨, 刘家鹏. 基于Transformer-LSTM模型的多因素碳排放权交易价格预测[J]. 价格月刊, 2024(5): 49-57.

为你推荐

友情链接