1. 引言
长短期记忆神经网络(Long Short-Term Memory, LSTM)是由Hochreiter和Schmidhuber于1997年提出的一种特殊循环神经网络(RNN),其核心在于通过引入记忆单元和门控机制(输入门、遗忘门、输出门)解决传统RNN的长期依赖问题,有效缓解梯度消失与爆炸的缺陷。LSTM通过动态调整细胞状态,能够选择性保留或遗忘时序数据中的关键信息,使其在金融时间序列预测中表现出显著优势。相较于传统模型,LSTM不仅能捕捉股票价格的非线性波动特征,还能从历史数据中提取长期趋势规律,提供股价预测的建模框架。
长短期记忆网络(LSTM)在金融时序预测中的创新应用已形成系统性研究脉络。基础模型构建方面,张晓春等(2020)通过单特征与多特征预测的对比实验,证实多维数据输入可使均方误差降低19.6%,揭示了金融变量协同效应的重要性[1]。模型优化领域呈现多元化路径:LSTM-GA混合模型引入遗传算法进行超参数自适应搜索,在沪深股市数据中将预测结果波动幅度压缩至基准模型的67% [2];为提升模型对市场复杂性的适应能力,学者们探索了多源信息融合方法。创新性地将社交媒体情感分析纳入特征工程,其情绪因子加权模型在牛熊市转换节点的预测准确率明显提升[3]。通过构建包含技术指标、宏观经济等七类特征的多维矩阵,使LSTM的拟合优度进一步提高,证实了跨维度金融变量交互建模的有效性[4]。针对高频交易场景,采用时间片重采样技术处理tick级数据,在沪深300指数的15分钟级预测中实现1.78%的平均绝对误差,突破传统模型在短期预测中的性能瓶颈[5]。
本文构建多特征LSTM模型,旨在进一步挖掘多维金融数据的潜在规律,为股票市场分析提供更精准的预测方法。
2. 长短期记忆神经网络
LSTM神经网络的神经单元结构如图1所示,其中包含了输入门、遗忘门、输出门和记忆单元。输入门通过参数化方式决定当前候选状态信息向记忆单元融合的比例;遗忘门以可学习权重调节历史记忆特征的保留系数;输出门则建立记忆单元当前状态与最终隐藏层之间的动态映射关系,实现记忆信息到输出结果的适应性转换。
输入门:记忆现在的某些信息。基于长短期记忆网络门控动力学方程,需分别求解输入门控单元激活量
及其对应时间步记忆细胞,候选状态
的参数化计算过程
Figure 1. LSTM neural network cell architecture
图1. LSTM神经网络的神经单元结构
其中,
,
代表相应的权重,
与
代表相应的偏置。
遗忘门:控制舍去哪些信息。计算在
时刻遗忘门的值
其中,
,
分别表示遗忘门的权重和偏置,
表示Sigmoid函数。
细胞状态更新:根据输入门和遗忘门的计算结果,对细胞状态进行更新,从而得出
时刻的细胞状态更新值
输出门:控制决定哪些信息需要输出。根据计算得到的细胞状态更新值
,可以得到输出门的计算公式
其中,
和
代表输出门的权重和偏置,
为当前单元的输出值。
3. 实证分析
3.1. 数据来源及预处理
本次实验利用Python中的Tushare包获取腾讯控股股票2005年3月7日至2025年3月7日的4195条价格数据。通过设置访问令牌(token)并调用pro_api,使用hk_daily_adj方法获取指定日期范围内腾讯控股(代码为'00700.HK')的历史调整价格数据,数据为前复权数据,再将结果打印输出。最后,将获取到的数据导出为CSV格式并保存为“腾讯控股,00700.SH.csv”文件,方便后续分析和使用。部分交易数据如表1所示。
Table 1. Display of Tencent holdings trading data (Partial)
表1. 腾讯控股交易数据展示(部分)
 
  
    | Date | Open | High | Low | Close | Volume | 
  
    | 2005/3/7 | 0.9 | 0.91 | 0.89 | 0.9 | 4069000 | 
  
    | 2005/3/8 | 0.9 | 0.92 | 0.9 | 0.9 | 3979000 | 
  
    | 2005/3/9 | 0.9 | 0.9 | 0.88 | 0.88 | 1498000 | 
  
    | 2005/3/10 | 0.88 | 0.92 | 0.87 | 0.91 | 3955000 | 
  
    | 2005/3/11 | 0.9 | 0.9 | 0.87 | 0.89 | 2964000 | 
  
    | … | … | … | … | … | … | 
  
    | 2025/3/3 | 483.6 | 497 | 479.8 | 483.2 | 32752020 | 
  
    | 2025/3/4 | 479 | 493 | 473.2 | 491 | 31124965 | 
  
    | 2025/3/5 | 502 | 509 | 498 | 505.5 | 35165758 | 
  
    | 2025/3/6 | 521 | 544 | 521 | 544 | 79683875 | 
  
    | 2025/3/7 | 539 | 547 | 529 | 533.5 | 46494426 | 
 本文将数据集划分为训练集、验证集和测试集,训练集占80%,验证集占10%,测试集占10%,将数据以折线图展示,如图2所示,成交量则是基本稳定,接着对数据进行了归一化处理并划分了数据块和数据集。
Figure 2. Tencent holdings stock price line chart
图2. 腾讯控股股价折线图
本文实证中使用Min-Max归一化的方法对数据进行标准化的处理。对原始数据进行标准化后的数据如表2所示。
Table 2. Standardized trading data presentation for Tencent holdings (Partial)
表2. 腾讯控股交易标准化数据展示(部分)
 
  
    | Date | Open | High | Low | Close | Volume | 
  
    | 2005/3/7 | 0.0000725 | 0.0000573 | 0.0000740 | 0.0000580 | 0.01174291 | 
  
    | 2005/3/8 | 0.0000725 | 0.0000717 | 0.0000887 | 0.0000580 | 0.011450688 | 
  
    | 2005/3/9 | 0.0000725 | 0.0000430 | 0.0000592 | 0.0000290 | 0.003395084 | 
  
    | 2005/3/10 | 0.0000435 | 0.0000717 | 0.0000444 | 0.0000725 | 0.011372762 | 
  
    | 2005/3/11 | 0.0000725 | 0.0000430 | 0.0000444 | 0.0000435 | 0.008155066 | 
  
    | … | … | … | … | … | … | 
  
    | 2025/3/3 | 0.6995768 | 0.7110936 | 0.7084054 | 0.6994490 | 0.104874321 | 
  
    | 2025/3/4 | 0.6929108 | 0.7053605 | 0.6986437 | 0.7107599 | 0.099591407 | 
  
    | 2025/3/5 | 0.7262412 | 0.7282930 | 0.7353241 | 0.7317865 | 0.11271153 | 
  
    | 2025/3/6 | 0.7537750 | 0.7784578 | 0.7693423 | 0.7876160 | 0.2572582 | 
  
    | 2025/3/7 | 0.7798597 | 0.7827576 | 0.7811747 | 0.7723898 | 0.149494785 | 
 本文构建的监督学习范式以历史窗口期为基准,将连续N个交易日的多维交易特征矩阵作为时序样本单元,建立与目标交易日收盘价的动态映射关系去预测第N + 1日收盘价的数据。通过滑动时间窗切片技术对原始时序数据进行特征工程重构,在训练集与测试集层面统一实施结构化样本划分策略,形成具有时空关联性的建模数据集,为深度学习模型提供符合时序特性的输入拓扑结构。
3.2. 实证分析
本文的开发环境是Python 3.10,同时选择了Anaconda作为开发工具,在Windows操作系统下搭建GPU版本的PyTorch框架并完成计算过程,PyTorch版本为2.4,PyTorch框架具有模块化、易用性、易扩展等优点,因此选择PyTorch来进行LSTM神经网络的构建。设计对比实验框架,采用两个LSTM神经网络,第一个是单特征输入的LSTM神经网络,是以收盘价时间序列进行预测;第二个是多特征输入的LSTM神经网络,选取最低价(Low)、最高价(High)、收盘价(Open)、开盘价(Close)以及交易量(Volume)作为特征数据输入。在优化器(optimizer)方面,采用了AdamW算法对损失函数进行优化,模型选择了AdamW算法优化损失函数。
选择收盘价作为唯一的输入特征,构建LSTM神经网络:在模型参数设置方面,通过进行多次实验最终确定隐藏层有128个神经元,迭代次数(epoch)为50次,将每20个样本数据组成一个batch进行训练,即batch_size = 20,采用AdamW算法作为模型的优化器,权重衰减系数为0.001,学习率为0.001,Dropout为0.2,对训练集数据采用随机打乱。以MSE指标作为模型的损失函数进行训练。
图3即为神经网络的训练图,通过对模型收敛特性的可视化分析可知,在参数优化过程中,模型的损失函数曲面呈现显著的梯度衰减特性且在预设的收敛阈值范围内达到稳定状态。这一优化轨迹表明,网络权重更新路径符合凸优化理论预期。将利用测试集代入模型得到的预测的数据和原始真实数据进行可视化展示,预测结果如图4所示,该模型对于价格趋势的预测较为准确,价格差距较小。经过计算,该预测结果的MSE值为0.000138。
Figure 3. Training diagram of LSTM neural network with single-feature input
图3. 单特征输入LSTM神经网络训练图
Figure 4. Prediction diagram of LSTM neural network with single-feature input
图4. 单特征输入LSTM神经网络预测图
在模型架构层面保持与基准LSTM同构性的前提下,选取交易数据开盘价格、最高价格、最低指数、收盘价格以及成分证券成交量构成五维市场状态特征张量对股价(收盘价)进行预测,模型构建同单特征LSTM神经网络。隐藏层有128个神经元,迭代次数(epoch)为50次,将每20个样本数据组成一个batch进行训练,即batch_size = 20,采用AdamW算法作为模型的优化器,权重衰减系数为0.001,学习率为0.001,Dropout为0.2,对训练集数据采用随机打乱,以MSE指标作为模型的损失函数进行训练,如图5,通过对模型收敛特性的可视化分析可知,在参数优化过程中,模型的损失函数曲面呈现显著的梯度衰减特性且在预设的收敛阈值范围内达到稳定状态。这一优化轨迹表明,网络权重更新路径符合凸优化理论预期,选择了最后490天的数据来进行预测,预测结果如图6,可以看到,该模型对于价格趋势的预测很准确,价格差距较小。经过计算,该预测结果的MSE值为0.000123,证明多特征LSTM神经网络的确优于单特征LSTM神经网络。
Figure 5. Multi-feature input LSTM neural network training diagram
图5. 多特征输入LSTM神经网络训练图
Figure 6. Multi-feature input LSTM neural network prediction diagram
图6. 多特征输入LSTM神经网络预测图
3.3. 结果评价
通过比较单特征与多特征LSTM模型的预测效能,发现多特征LSTM的拟合效果更佳,表明LSTM能够对多维数据进行建模,并可从多维度数据中提取有价值的信息。
Table 3. Model prediction performance on the test set
表3. 模型在测试集上预测性能
 
  
    | 模型结构 | MSE | MAE | R2 | 
  
    | 单特征LSTM神经网络(标准化数据) | 0.000138 | 0.008537 | 0.9715 | 
  
    | 多特征LSTM神经网络(标准化数据) | 0.000123 | 0.008134 | 0.9745 | 
  
    | 单特征LSTM神经网络(原始数据) | 76.288 | 6.3431 | 0.9715 | 
  
    | 多特征LSTM神经网络(原始数据) | 68.379 | 6.0438 | 0.9745 | 
 多特征LSTM在标准化数据下的MSE (0.000123)较单特征模型(0.000138)降低10.87%,MAE (0.008134 vs. 0.008537)减少4.92%,R2提升至0.9745。结果表明,多维特征(价格序列与成交量)通过LSTM的门控机制动态提取市场供需与情绪信息,标准化处理均衡了量纲差异,优化了模型收敛效率。
原始数据中,多特征模型的MSE (68.379)与MAE (6.0438)仍优于单特征模型(MSE = 76.288, MAE = 6.3431),R2值保持稳定(0.9745)。尽管绝对误差较高(反映股价实际波动),LSTM对原始数据仍具鲁棒性,表明其对多维非标准化特征的适应能力。
从应用视角看,多特征LSTM的预测结果可为量化投资策略提供可靠信号。例如,当模型预测次日收盘价高于当日时,可结合波动率指标构建多头组合;反之则可触发风险对冲指令。此外,R2值接近0.97表明模型能够解释97%以上的股价波动,这一精度显著优于传统时间序列模型。
3.4. 模型泛化能力验证
为验证LSTM模型的泛化能力,本研究选取中国神华(601088)股票数据作为实验对象,采用相同的开发环境进行趋势预测,并与前期实验结果进行对比分析。实验中选择收盘价作为输入特征,构建LSTM神经网络进行预测。模型参数设置如下:隐藏层神经元数量为128个,训练迭代次数(epoch)设为50次,batch_size为128,采用AdamW优化器,设置学习率为0.0004,权重衰减系数为0.001,Dropout比例为0.2,并对训练集数据进行随机打乱处理,模型采用MSE作为损失函数进行训练。实验分别进行了单特征和多特征输入的预测分析,结果如图7和图8所示。通过对比实验结果,验证了该LSTM模型在不同股票数据上的良好泛化能力。
Figure 7. Chinashenhua prediction diagram of LSTM neural network with single-feature input
图7. 中国神华单特征输入LSTM神经网络预测图
Figure 8. Chinashenhua Multi-feature input LSTM neural network prediction diagram
图8. 中国神华多特征输入LSTM神经网络预测图
下面,比较单特征与多特征LSTM模型的预测效能,发现多特征LSTM的拟合效果佳,表明LSTM具有较好的泛化性,能够对多维数据进行建模,并可从多维度数据中提取有价值的信息。
Table 4. Model prediction performance on the Chinashenhua test set
表4. 模型在中国神华测试集上预测性能
 
  
    | 模型结构 | MSE | MAE | R2 | 
  
    | 单特征LSTM神经网络(标准化数据) | 0.00898 | 0.07462 | 0.9188 | 
  
    | 多特征LSTM神经网络(标准化数据) | 0.00220 | 0.03808 | 0.9800 | 
  
    | 单特征LSTM神经网络(原始数据) | 2.15111 | 1.15452 | 0.9188 | 
  
    | 多特征LSTM神经网络(原始数据) | 0.52882 | 0.58914 | 0.9800 | 
 表4显示的实验结果表明,与单特征模型相比,多特征LSTM在标准化数据下表现出显著优势,MSE从0.00898降至0.00220,MAE从0.07462降至0.03808,R2值达到0.9800。这表明多维特征(价格序列与成交量)结合LSTM的门控机制能够有效捕捉市场供需与情绪信息,而标准化处理则通过均衡量纲差异优化了模型收敛效率。值得注意的是,即使在原始数据中,多特征模型仍保持优势(MSE = 0.52882 vs. 2.15111, MAE = 0.58914 vs. 1.15452),R2值稳定在0.9800,充分证明了模型良好的泛化能力。
4. 结论
本研究基于LSTM网络构建多维时序预测模型,采用腾讯控股(HK.0700)高频交易数据(2005年3月至2025年3月),涵盖开盘价、收盘价、最高价、最低价及成交量五维特征,通过Z-score标准化处理和滑动窗口法划分训练集、验证集与测试集(8:1:1)。实验对比单特征(收盘价)与多特征输入模式,模型配置128维隐藏层单元,迭代50次,优化器选用AdamW算法(学习率α = 0.001,权重衰减λ = 0.001),Dropout率为0.2以防止过拟合。结果表明,多特征模型显著优化预测性能:均方误差(MSE)较单特征模型下降10.87%至0.000123,平均绝对误差(MAE)降低4.92%至0.008134,拟合优度(R2)提升至0.9745。研究证实,LSTM通过动态门控机制有效捕捉了价格序列的非平稳特征和量价关系的时间依赖性,展现出优于传统线性模型的特征提取能力。此外,模型在其他股票(如中国神华)数据上的泛化能力验证良好。该模型为量化投资提供决策支持,未来可探索跨尺度特征融合、时空注意力机制优化及跨市场泛化能力提升。
基金项目
2024年昌吉学院科研项目“张量分解在金融时间序列中的应用研究”(编号:KY2024037)。
NOTES
*通讯作者。