融合CEEMDAN的SSA-BiGRU股价预测研究
Research on SSA-BiGRU Stock Price Prediction Integrating CEEMDAN
摘要: 由于股票市场的复杂性,股价预测精度一直不高。因此,本文结合信号处理领域的模态分解方法,建立了融合投资者情绪的多源异构信息股价预测模型。首先,该模型使用BERT获取财经新闻词向量,并使用改进后的融合自注意力机制的BiLSTM模型量化投资者情绪。其次,使用CEEMDAN算法分解股价序列为本征模态函数,最后,将投资者情绪、本征模态函数、历史交易数据、技术指标进行特征融合,通过融合自注意力机制的双向门控循环单元实现对次日股价的预测。本文所提出的预测模型在四支股票数据集上的拟合优度平均达到了97.39%,与现有的单一信息源预测模型相比,所提出的混合多种信息源的预测模型效果更加优越。
Abstract: Due to the complexity of the stock market, the accuracy of stock price prediction has always been low. Therefore, this paper combines the modal decomposition method in the field of signal processing to establish a multi-source heterogeneous information stock price prediction model that integrates investor emotions. Firstly, the model uses BERT to obtain financial news word vectors, and uses an improved BiLSTM model that integrates self-attention mechanism to quantify investor emotions. Secondly, the CEEMDAN algorithm is used to decompose the stock price sequence into intrinsic modal functions. Finally, investor emotions, intrinsic modal functions, historical trading data, and technical indicators are feature fused, and the prediction of the next day’s stock price is achieved through a bidirectional gated loop unit that integrates self-attention mechanism. The prediction model proposed in this paper has an average goodness of fit of 97.39% on four stock datasets, which is comparable to existing models. Compared with the single information source prediction model, the proposed prediction model that combines multiple information sources has superior performance.
文章引用:杨珂, 秦一天, 蔡涛. 融合CEEMDAN的SSA-BiGRU股价预测研究[J]. 建模与仿真, 2024, 13(6): 6198-6210. https://doi.org/10.12677/mos.2024.136568

1. 引言

股票市场是企业融资的重要渠道之一。股票价格波动对国家经济市场的发展起着重要的作用[1]。在国际经济形势政策、行业和市场环境、媒体报道和舆情等众多因素的综合影响下,股票价格呈现出非线性、非平稳的波动特点[2]。因此,建立科学有效的股价预测模型,准确的预测股票市场走势,已经成为经济学、学术界中的热难点研究问题之一。

早期股价预测研究多使用基本面分析方法,即直接基于公司财务状况[3]、竞争环境等预测未来股价,这种传统的分析手段被证明偶尔能取得较好的效果[4]。目前,股票预测模型大多采用技术指标进行建模预测,预测模型主要包括三类,经济计量模型[5]、机器学习模型[6]以及深度学习模型[7]。经济计量模型与机器学习模型是在股价预测系统中较早有人引入的方法,但可惜前者需假定时间序列满足线性平稳性假定,而后者存在梯度爆炸、过拟合等导致预测效果不佳的问题。

过往一切,皆为序章。深度学习模型凭借优越的性能在众多股价预测模型中脱颖而出。在使用深度学习方法建立股价预测模型时,其拟合效果与两方面问题密切相关。一方面,股价的波动变化受到众多因素影响,需要全面的考虑股价预测因子。有众多研究表明,除股票的历史数据、技术指标以外,投资者情绪也会对股价的涨跌产生影响[8]。行为金融学理论认为,投资者并非都是理性的,新闻媒体播报会加重投资者对投资行为的主观看法[9]。互联网科技的飞速发展与全球范围内网民的广泛普及也为这一理论奠定了基础。根据有效市场假说理论[10],未达半强势有效市场条件下,投资者收益与市场基本面分析息息相关,即散落在有关公司营运前景信息中的非结构化金融文本中蕴含的市场信息也会对股票投资市场产生较大影响[11]。Swathi等[12]使用LSTM量化Twitter中隐含的投资者情绪,同时利用TLBO模型优化LSTM情绪分类效果,以求更好的辅助股票市场价格预测。Jing等[13]通过CNN对网络中提取的文本进行情感分类,量化文本数据为情感指标,与股市历史数据构造LSTM神经网络模型对股市报价进行预测。Farimani等[14]提出了FinBERT-simf预测模型,使用FinBERT模型提取新闻情感特征,并结合股票历史信息,通过预训练语言模型对股价进行预测。实验结果表明,加入情绪指标预测股票市场价格是有效的。另一方面,股价的时序变化具有复杂性与无规律性,选择适用于提取金融时间序列内部隐含特征并能够进行高精度预测的模型与算法至关重要。近些年来,随着迁移学习思想的发展,信号处理领域的分解集成方法被证明能够有效捕捉金融时序数据中不同时间尺度特征并提高下游任务预测精度。李佳裕等[15]将VMD算法引入LSTM神经网络中实现了对股价收盘价的预测,并使用了粒子群优化算法对预测股价结果进行修正。本文综合考虑了股价预测中两方面的问题,提出了融合CEEMDAN的SSA-BiGRU股价预测模型,在融合投资者情绪的基础上,引入本征模态函数作为预测因子,基于融合自注意力机制的双向门控循环单元实现了次日股票收盘价的精准预测。具体而言,本文基于BERT模型将股票新闻文本向量化,在融合注意力机制的长短时记忆网络情感分类器中叠加了全连接层作为辅助情感极性判别器,结合两者损失函数值对模型参数反向传播,更新模型参数以求更精确的量化投资者情绪,并使用CEEMDAN算法将股价序列细化分解为经验模态子序列,以求更有效的挖掘股价序列内部隐藏规律性,从而更准确的预测股票价格。

2. 方法介绍

这一节介绍本文所使用的模型与算法,主要包括词向量模型、情感分析模型、完全集合经验模态分解与自适应噪声算法以及融合自注意力机制的双向门控循环单元。

2.1. 词向量模型

本文使用了预训练语言模型BERT来获取词向量表征,它利用周围双向文本信息来完成对单词向量的建模,同时采用预测随机遮蔽的输入文本词汇的Masked语言建模方式。本文中对于长度为n的新闻文本,使用BERT模型表示为 H n =[ H 1 , H 2 ,, H n ]

2.2. 改进的融合注意力机制的双向长短时记忆网络(FC-SA-BiLSTM)模型

LSTM是递归神经网络的一种特殊变体。它利用输入门、遗忘门和输出门三个门控单元自适应地保留和遗忘过去的信息,其通过控制信息的流动,实现对长期依赖关系的建模和处理,LSTM模型数学表达式分别如下所示。

i t =σ( W i [ h t1 , x t ]+ b i ) (1)

C ˜ t =tanh( W c [ h t1 , x t ]+ b c ) (2)

f t =σ( W f [ h t1 , x t ]+ b f ) (3)

其中, x t 为当前时刻的输入值、 h t1 为上一时刻的输出、 C t1 为上一时刻记忆单元状态, W i W c 表示输入门权重参数矩阵, b i b c 表示输入门偏置项, W f b f 分别表示遗忘门中参数矩阵与偏置项。

随后对当前的细胞状态 C t 进行更新,并将信息传递到 h t 中作为输出。公式如下所示。

C t = f t × C t1 + i t × C ˜ t (4)

o t =σ( W o [ h t1 , x t ]+ b o ) (5)

其中, W o b o 分别表示激活函数的参数矩阵与偏置项, h t 表示该时刻的输出。

BiLSTM模型是由两个LSTM构成,其可以按序列捕获文本前后信息,从而更好理解上下文任务。本文中将BiLSTM和自注意机制相结合构建主情感分类器模型,并在此基础上叠加了全连接层构建辅情感分类器模型,综合两部分分类器损失函数对结果进行反向传播调整模型参数以寻求最优情感分类性能。

模型处理过程如下:预处理后的词向量 H i 分别被输入到两个分类器模型,主分类器模型通过BiLSTM捕获上下文文本特征得到词向量 H i BiLSTM ˜ ,随后将其输入自注意机制层,计算BiLSTM层的权重并返回加权和。对于每个时间步长的输出 H i BiLSTM ˜ ,相乘矩阵 W i 得到向量 g i 。计算公式如下所示:

h t = o t ×tanh( C t ) (6)

g i = W i H i BiLSTM ˜ + b i (7)

计算每个单词对应的权值 α i 。计算公式如下所示:

α i = exp( g i ) t exp( g i ) (8)

将每个时间步长对应的词向量 H i BiLSTM ˜ 与自注意权值 α i 进行加权求和,得到SA-BiLSTM层的输出向量。计算公式如下所示:

G i = t α i H t BiLSTM ˜ (9)

随后将由注意力机制处理后的词向量映射到全连接层中,计算文本的情感极性。计算公式如下所示:

y i =softmax( W y G i + b y ) (10)

辅分类器模型由全连接层组成,全连接层通过将预处理后的词向量表示映射到样本标记空间,可以理解为映射后的向量由原词向量加权求和得到。计算公式如下所示:

y i '= W H i BiLSTM ˜ (11)

本文中采用交叉熵损失函数计算损失值,并综合两种分类器损失结果反向传播调整模型参数以寻求最优分类结果。

在文本情感极性分类模型建立后,对搜集到的个股新闻文本的情感极性进行判定。并根据模型判定的每日积极或消极新闻数量量化投资者情绪。

本文使用的情感指标计算方法如下公式所示:

S t =ln 1+nu m t pos 1+nu m t neg (12)

其中, nu m t pos 表示每日积极的新闻数量, nu m t neg 表示每日消极新闻的数量。

2.3. 完全集合经验模态分解算法(CEEMDAN)

CEEMDAN是针对EMD算法分解信号中存在的模态混叠问题以及CEEMD算法分解信号后本征模态分量中残留的白噪声问题进行改进的一种算法。为了算法表达更加清晰,定义如下:

假设 E i ( ) 为EMD分解后得到的第i个本征模态分量,CEEMDAN分解得到的第i个本征模态分量为 C ¯ i ( t ) v j 为满足标准正态分布的高斯白噪声信号, j=1,2,,N 为加入高斯白噪声的次数, ε 为白噪声信噪比, x( t ) 为待分解信号。首先,将高斯白噪声加入到待分解信号 x( t ) 得到新信号 x( t )+ ( 1 ) q ε v j ( t ) ,其中q取1或2。对新信号进行EMD分解,得到第一阶本征模态分量 C 1

E( x( t )+ ( 1 ) q ε v j ( t ) )= C 1 j ( t )+ r j (13)

对产生的第N个本征模态分量进行总体平均得到CEEMDAN分解的第一个本征模态分量:

C ¯ 1 ( t )= 1 N j=1 N C 1 j ( t ) (14)

计算去除第一个本征模态分量后的残差:

r 1 ( t )=x( t ) C ¯ 1 ( t ) (15)

r 1 ( t ) 中加入正负成对高斯白噪声得到新信号,对新信号进行EMD分解,得到第一阶模态分量 D 1 ,由此可以得到CEEMDAN分解的第二个本征模态分量:

C ¯ 2 ( t )= 1 N j=1 N D 1 j ( t ) (16)

随后计算去除第二个本征模态分量后的残差:

r 2 ( t )= r 1 ( t ) C ¯ 2 ( t ) (17)

重复上述步骤直至获得的残差信号为单调函数,不能继续分解,此时算法结束。假设此时得到的本征模态分量数量为K,则原始信号 x( t ) 被分解为:

x( t )= k=1 K C ¯ k ( t )+ r k ( t ) (18)

2.4. 融合注意力机制的双向门控循环单元(SA-BiGRU)

在时间序列的预测过程中为了确保预测准确性,应当充分考虑时间序列前向与后向信息。双向门控循环单元(BiGRU)将两个以相反方向运行的隐藏层连接到同一个输出层,方便神经网络提取序列中的双向关系。在时刻t,输入的序列为 X t ={ x 1 , x 2 ,, x n } ,双向GRU在第t步的输出可表示为:

h t =BiGRU( X t1 , X t ) (19)

本文在BiGRU层后引入了注意力机制,将BiGRU输出层向量 h t 作为Attention层输入,通过注意力机制的不断迭代更新模型参数,并凸显预测关键特征以寻求最优权重参数矩阵。

初始化三个权重矩阵 W Q , W K , W V ,对 h t 做线性映射,得到 Q,K,V 三个矩阵,此时注意力机制如下所示:

Attention( Q,K,V )=softmax( Q K T d k )V (20)

对Attention机制层的输出 s t 使用全连接层进行计算,选取Relu作为激活函数,得到最后的股价预测值为 Y={ y 1 , y 2 ,, y n } y t 为第t时刻的预测输出值为:

y t =Relu( w 0 s t + b 0 ) (21)

其中: w 0 b 0 分别为对应的偏差矩阵向量和偏置向量。

3. 实验与分析

3.1. 数据来源与预处理

本文基于两个新闻文本数据集训练情感极性判别器,在对文本数据进行预处理,删除多余无关字符以降低训练复杂度后,新闻文本数据集共包括雪球网上公开的带有正负情感极性标签的10,193条财经新闻以及东方财富网站上随机抽取的7232条股票新闻资讯标题。对于未带有情绪极性的股票新闻资讯标题进行人工打标签,共获得包含日期、极性标签、新闻文本的17,425字段数据集。数据分布如表1所示。

股价预测模型训练过程中,本文选取了上海交易所的四支股票作为本次实验对象,四只股票分别为贵州茅台(SH600519)、山西汾酒(SH600809)、泸州老窖(SH000568)、迎驾贡酒(SH603198)。股票历史数据及其对应新闻资讯均来自东方财富网页平台。因考虑到2020年以前,存在股票新闻资讯稀少而造成股票新闻情感值稀疏的问题,故拟定研究时间为2020年1月1日至2023年9月27日,共909个交易日。划定训练集与测试集样本比例为9:1,即训练集为2020年1月1日至2023年5月22日的股票数据,2023年5月23日至2023年9月27日的股票数据作为测试集。

Table 1. Distribution of financial news text dataset

1. 财经新闻文本数据集分布

数据集

积极

消极

中性

共计

雪球网

6637

3556

-

10,193

东方财富网

4386

1504

1342

7232

共计

11,023

5060

1342

17,425

技术指标数据根据所获取到的股票历史数据,利用Python中Talib库计算得到,共包括移动平均线(MA)、指数移动平均线(EMA)、平滑异同移动平均线(MACD)、变动率指标(ROC)、相对强弱指数(RSI)、随机震荡指数(KD)、能量潮(OBV)七个技术指标。

考虑到需要消除股票的历史数据、技术指标、投资者情绪指标以及CEEMDAN分解后的经验模态子序列指标之间的量纲差异,本文对预测因子采用了归一化的预处理方法,并在训练模型后对预测值反归一化以评估预测模型性能。

归一化计算公式如下所示:

x * = xmin maxmin (22)

其中,min表示样本数据的最小值,max表示样本数据中的最大值。

3.2. 参数设置及评价指标

本文共构建了两个模型,模型的最优参数设置略有不同。情感极性判别模型中Batch Size设置为16,Dropout设置为0.1,模型参数更新使用AdamW优化器,学习率设置为0.0001。训练过程采用早期停止训练策略,并将训练轮数设置为100轮,在迭代过程中,如果连续10轮迭代没有出现更高性能,则停止训练。而混合多源信息的股价预测模型Batch Size设置为32,Dropout设置为0.5,模型参数更新使用Adam优化器,学习率设置为0.001,训练轮数设置为200轮,全连接层激活函数设置为Relu函数。

本文在情感极性识别模型的可行性检验中,除了使用了较为常用的准确性(Accuracy)、F1分数作为评价指标,还额外考虑了检验样本极性分类平衡性的Kappa指标。各指标计算公式如下所示:

Accuracy= TP+TN TP+TN+FP+FN (23)

F1-score= 2PrecisionRecall Precision+Recall (24)

Precision= TP TP+FP (25)

Recall= TP TP+FN (26)

Kappa= p 0 p e 1 p e (27)

其中,TP、TN、FP、FN分别为真正率、真负率、假正率、假负率。 p 0 是分类器的总体准确度, p e 表示分类器预测值和实际类别值的一致程度。

而本文为检验所提出股价预测模型的有效性,选取了平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MPAE)和R平方作为本次实验优劣的评价指标。计算公式分别如下:

MAE= 1 m i=1 m | y i y ^ i | (28)

MAPE= 1 m i m | y ^ i y i y i | 100 (29)

RMSE= 1 m i=1 m ( y i y ^ i ) 2 (30)

R 2 =1 ( i=1 m ( y i y ^ i ) 2 )/m ( i=1 m ( y ¯ i y i ) 2 )/m (31)

其中,m表示样本总数, y i y ^ i 和分别表示样本的真实值与预测值, y ¯ i 为样本真实值的平均值,R2的取值范围为 [ 0,1 ] ,越接近1表示模型拟合效果越好。MAE、RMSE、MAPE的取值越接近于0,表示模型预测越完美。

3.3. 情感判别模型

下表列出了所提出模型与其他模型在同一数据集上的性能实验结果。从表2表3中可知在相同的数据集上,本文提出的改进后的融合注意力机制的双向长短时记忆网络模型分别在三个评价指标上均取得了最好的性能。故本文提出的改进后的FC-SA-BiLSTM模型在识辨财经新闻文本极性的过程中能够兼顾准确性与均衡性。

Table 2. Classification performance comparison of FC-SA-BiLSTM (Oriental Wealth Network Dataset)

2. FC-SA-BiLSTM分类性能比较(东方财富网数据集)

模型

Accuracy

F1-Score

Kappa

Adaboost

0.8594

0.8600

0.7512

RUSboost

0.8673

0.8679

0.7657

TextCNN

0.9378

0.9380

0.8896

GRU

0.9470

0.9474

0.9064

BiLSTM

0.9498

0.9500

0.9080

SA-BilSTM

0.9502

0.9503

0.9092

FC-SA-BiLSTM

0.9618

0.9615

0.9312

Table 3. Classification performance comparison of FC-SA-BiLSTM (Snowball Dataset)

3. FC-SA-BiLSTM分类性能比较(雪球网数据集)

模型

Accuracy

F1-Score

Kappa

Adaboost

0.8793

0.8784

0.7324

RUSboost

0.8738

0.8742

0.7259

TextCNN

0.9523

0.9522

0.8954

GRU

0.9581

0.9581

0.9090

续表

BiLSTM

0.9595

0.9594

0.9109

SA-BilSTM

0.9588

0.9586

0.9091

FC-SA-BiLSTM

0.9630

0.9629

0.9188

3.4. 完全集合经验模态分解结果

在股价序列的CEEMDAN分解中,贵州茅台、山西汾酒、泸州老窖、迎驾贡酒这四支股票的原始股票收盘价序列分别被分解成了7个IMF分量。分解结果如下方图1~4所示。

原始股价序列模态分解为子序列后,每个子序列均代表时序数据中的不同频率或振动模式。这种非线性特征提取能够更好地反映原始序列中的非线性关系,提高下游任务预测准确性。且CEEMDAN对于原始序列中的噪声有较好的适应性,使得预测模型可以更好地捕捉到数据中的有效信号,有助于提高股价预测精度。

3.5. 多源信息股票预测模型

为了验证本文所提出方法的有效性,我们将四支股票的历史数据和技术指标、投资者情绪因子、经验模态分解子序列作为输入数据预测次日股票收盘价。并将测试集实验结果与多种预测模型进行对比验证。

同时为了进一步探究投资者情绪因子以及经验模态分解子序列对次日收盘价的影响情况,本文分别为模型设置了三种不同的输入特征数据,第一种输入特征为股票历史数据与技术指标,第二种输入特征为股票历史数据、技术指标与投资者情绪因子指标,第三种输入特征为股票历史数据、技术指标、投资者情绪因子指标与模态分解子序列指标。第一种输入特征在四支股票上的实验结果如下表4~7所示。

Figure 1. CEEMDAN exploded view (Kweichow Moutai)

1. CEEMDAN分解图(贵州茅台)

Figure 2. CEEMDAN exploded view (Shanxi Fenjiu)

2. CEEMDAN分解图(山西汾酒)

Figure 3. CEEMDAN exploded view (Luzhou Laojiao)

3. CEEMDAN分解图(泸州老窖)

Figure 4. CEEMDAN exploded view (Yingjia Gongjiu)

4. CEEMDAN分解图(迎驾贡酒)

Table 4. Comparison of experimental effects (Kweichow Moutai)

4. 实验效果比较(贵州茅台)

模型

MAE

MAPE

RMSE

R2

BiLSTM

21.5288

1.2129

27.3380

88.47%

BiGRU

20.0925

1.1318

25.7138

89.90%

SA-BiGRU

19.0742

1.0786

23.7910

91.35%

Table 5. Comparison of experimental effects (Shanxi Fenjiu)

5. 实验效果比较(山西汾酒)

模型

MAE

MAPE

RMSE

R2

BiLSTM

5.4416

2.4651

6.2042

90.19%

BiGRU

5.2406

2.4395

6.3483

89.73%

SA-BiGRU

4.0504

1.8303

5.0112

93.60%

Table 6. Comparison of experimental effects (Luzhou Laojiao)

6. 实验效果比较(泸州老窖)

模型

MAE

MAPE

RMSE

R2

BiLSTM

3.3160

1.4937

3.8006

88.67%

BiGRU

3.0810

1.3781

3.7397

89.03%

SA-BiGRU

2.2265

0.9833

3.1995

91.97%

Table 7. Comparison of experimental effects (Yingjia Gongjiu)

7. 实验效果比较(迎驾贡酒)

模型

MAE

MAPE

RMSE

R2

BiLSTM

1.8162

2.7811

2.1540

90.46%

BiGRU

1.5696

2.2842

1.9888

91.87%

SA-BiGRU

1.4044

2.0441

1.8191

93.20%

将历史数据与技术指标作为预测因子的模型实验结果可以发现BiLSTM与BiGRU在四支股票数据集上的性能较为接近。由于考虑到BiGRU架构具有参数少、训练速度快的优点,故本文在BiGRU的基础上引入自注意力机制并进行下一类型输入特征模型训练,训练实验结果如下表8所示。

Table 8. Comparison of experimental effects of SSA BiGRU

8. SSA-BiGRU实验效果比较

模型

MAE

MAPE

RMSE

R2

贵州茅台

15.2795

0.8655

21.4912

92.95%

山西汾酒

3.3158

1.4954

4.3662

95.14%

泸州老窖

1.8594

0.8274

2.7911

93.89%

迎驾贡酒

1.0377

1.5193

1.2875

96.60%

投资者情绪因子由统计每日积极新闻、消极新闻数量量化而来,能够在一定程度上反应股民对待股票市场发展前景的判断,将情绪指标纳入预测因子能够更全面的考虑到股票市场发展情况。从实验结果中可以看出,引入投资者情绪因子后,四支股票的拟合优度值平均上升了2.12%,MAE、MAPE与RMSE值平均降低了1.3158、0.3072、0.9712。因此说明将投资者情绪引入股价预测模型中是有效的。

CEEMDAN通过频率分解将时间序列分解为不同时频特征的IMF分量,使得SSA-BiGRU模型更容易捕捉不同时间尺度上的市场变化和趋势,发现序列中潜在的非线性、非平稳性或隐含的规律,更有利于提高预测效果。实验结果表明在加入模态分解序列作为预测因子构建融合CEEMDAN的SSA-BiGRU预测模型后,模型在股票数据集上的拟合效果最优达到了98.26%,实验结果如下表9所示。同样从图5中可以看出,本文构建的混合信息股价模型预测性能显著。除个别异常值外,次日股价的预测值与实际值基本拟合。

Table 9. Comparison of experimental results of SSA-BiGRU fused with CEEMDAN

9. 融合CEEMDAN的SSA-BiGRU的实验结果比较

模型

MAE

MAPE

RMSE

R2

贵州茅台

10.0033

0.5659

12.5148

97.58%

山西汾酒

2.4537

1.1236

3.1486

97.47%

泸州老窖

1.4014

0.6237

2.1832

96.26%

迎驾贡酒

0.7439

1.1010

0.9564

98.24%

Figure 5. Fitting curve of stock price prediction with CEEMDAN fusion

5. 融合CEEMDAN的股价预测拟合曲线图

4. 结论与展望

面对股票市场的预测问题,现代研究者们一直尝试将市场情绪指标纳入预测系统并不断尝试引入现代方法对股票市场进行分析。投资者情绪提供市场基本面分析与技术分析不同的视角和补充信息,可以量化投资者非理性投资的程度,提供更全面的市场信息。本文使用了改进后的融合注意力机制的双向LSTM对股票新闻资讯进行情感极性判定,并借助情绪量化公式计算投资者情绪指数。实验结果表明,在融合多源信息后,SA-BiGRU模型比BiGRU和LSTM的效果更准确,这说明加入注意力机制能够有效提高神经网络的预测性能。此外,本文构建出的融合CEEMDAN的SSA-BiGRU混合信息股价预测模型在四支股票数据集上的拟合优度平均达到了97.39%。这说明本文在预测模型中使用信号分解算法挖掘时序数据隐藏规律特征,并将多因素指标纳入股价预测系统是可行并且有效的。

在未来的工作中,我们希望能够使用更多的信号分解算法挖掘股价序列深层隐藏变化规律,并借助更先进的深度学习方法,构建高精度的股价市场预测系统。

参考文献

[1] Khadjeh Nassirtoussi, A., Aghabozorgi, S., Ying Wah, T. and Ngo, D.C.L. (2014) Text Mining for Market Prediction: A Systematic Review. Expert Systems with Applications, 41, 7653-7670.
https://doi.org/10.1016/j.eswa.2014.06.009
[2] Ariyo, A.A., Adewumi, A.O. and Ayo, C.K. (2014). Stock Price Prediction Using the ARIMA Model. 2014 UKSim-AMSS 16th International Conference on Computer Modelling and Simulation, Cambridge, 26-28 March 2014, 106-112.
https://doi.org/10.1109/uksim.2014.67
[3] Agarwal, P., Bajpai, S., Pathak, A., et al. (2017) Stock Market Price Trend Forecasting Using Machine Learning. International Journal for Research in Applied Science and Engineering Technology, 5, 1673-1676.
[4] Checkley, M.S., Higón, D.A. and Alles, H. (2017) The Hasty Wisdom of the Mob: How Market Sentiment Predicts Stock Market Behavior. Expert Systems with Applications, 77, 256-263.
https://doi.org/10.1016/j.eswa.2017.01.029
[5] Almasarweh, M. and Wadi, S.A. (2018) ARIMA Model in Predicting Banking Stock Market Data. Modern Applied Science, 12, 309-312.
https://doi.org/10.5539/mas.v12n11p309
[6] Reddy, V.K.S. (2018) Stock Market Prediction Using Machine Learning. International Research Journal of Engineering and Technology (IRJET), 5, 1033-1035.
[7] Nabipour, M., Nayyeri, P., Jabani, H., Mosavi, A., Salwana, E. and S., S. (2020) Deep Learning for Stock Market Prediction. Entropy, 22, Article No. 840.
https://doi.org/10.3390/e22080840
[8] Li, X., Wu, P. and Wang, W. (2020) Incorporating Stock Prices and News Sentiments for Stock Market Prediction: A Case of Hong Kong. Information Processing & Management, 57, Article ID: 102212.
https://doi.org/10.1016/j.ipm.2020.102212
[9] Birău, F.R. (2012) The Impact of Behavioral Finance on Stock Markets. AnnalsEconomy Series, 3, 45-50.
[10] Fama, E.F. (1970) Efficient Capital Markets: A Review of Theory and Empirical Work. The Journal of Finance, 25, 383-417.
https://doi.org/10.2307/2325486
[11] Ren, R., Wu, D.D. and Liu, T. (2019) Forecasting Stock Market Movement Direction Using Sentiment Analysis and Support Vector Machine. IEEE Systems Journal, 13, 760-770.
https://doi.org/10.1109/jsyst.2018.2794462
[12] Swathi, T., Kasiviswanath, N. and Rao, A.A. (2022) An Optimal Deep Learning-Based LSTM for Stock Price Prediction Using Twitter Sentiment Analysis. Applied Intelligence, 52, 13675-13688.
https://doi.org/10.1007/s10489-022-03175-2
[13] Jing, N., Wu, Z. and Wang, H. (2021) A Hybrid Model Integrating Deep Learning with Investor Sentiment Analysis for Stock Price Prediction. Expert Systems with Applications, 178, Article ID: 115019.
https://doi.org/10.1016/j.eswa.2021.115019
[14] Anbaee Farimani, S., Vafaei Jahan, M., Milani Fard, A. and Tabbakh, S.R.K. (2022) Investigating the Informativeness of Technical Indicators and News Sentiment in Financial Market Price Prediction. Knowledge-Based Systems, 247, Article ID: 108742.
https://doi.org/10.1016/j.knosys.2022.108742
[15] 李佳裕, 陈曦, 刘闻仲. 基于VMD-LSTM神经网络的量化投资研究[J]. 数学建模及其应用, 2022, 11(3): 72-84.