1. 引言
波动率作为金融市场风险的指示标,广泛应用于金融市场各个领域,是金融市场资产价格的变化速度的体现,波动率与市场变化速度成正相关,故精准刻画波动率尤为关键。在对金融市场大量数据的实证研究中发现,波动率数据往往是不服从正态分布的,而是呈现尖峰厚尾、非对称性、聚集性、长期记忆性和持续性等特征 [1]。
随着经济的发展,越来越多科学技术应用到金融领域,这为获取高频数据提供了极大方便,高频数据相比于早期使用的低频数据,包含了更为丰富与全面的日内市场信息,并且省去了复杂的参数估计过程,故交易者可利用高频交易数据对波动率进行更为精确的分析和预测 [2],成为现阶段的研究热点。通过对已有金融数据的分析表明,金融市场有明显的异质性属性,Corsi [3] 基于市场异质假说,认为每一个时间尺度的潜在波动率都会受相同时间尺度的过去实际波动率和更大时间尺度上的未来潜在波动率的影响。考虑不同时间尺度对实际波动率的影响,建立了异构自回归模型(HAR)。Andersan [4] 通过对汇率、股票指数回报和债券收益率的实证分析,发现波动率跳跃分量不仅非常重要,而且明显比连续分量的持久性更差,将粗糙的跳跃移动与平稳的连续移动分开可以显著提高样本外波动率预测。考虑到跳跃的重要性,于是构建了HAR-RV-J模型。Patton和Sheppard [5] 关注的是不对称效应(即杠杆效应),提出了HAR-RV-RS模型。
以上学者不断地对HAR模型进行完善,形成了相对完备的HAR框架。但随着人工智能的不断发展,一些机器学习方法也应用到波动率研究领域。2016年,Ryo Akita [6] 等人在研究中加入了数据的文本类信息,通过深度学习中的LSTM算法对上市公司的股票进行了价格预测,得到不错的预测结果。2018年,王钧 [7] 利用了深度学习中的神经网络中的LSTM、优化模型、RNN及Seq2Seq对股票数据样本进行短期价格预测,其中Seq2Seq的预测效果最优。而深度学习中的GRU模型,由于对于非线性数据敏感,也受到了学者们的重视。黎镭等 [8] 利用神经网络对未来股票收盘价进行预测,精准度可以高达98%。
本文受到文献 [8] 的启发,将深度学习中的GRU模型引入到股票市场波动率预测领域,并考虑新闻信息对于股票市场波动率的影响,构建了新的情感词典,将情绪指标与经典的HAR模型相结合,最后通过实证分析证明,GRU模型预测效果最好,加入了情绪指标后,确实提高了模型的预测精度。
2. 模型构建
2.1. 情感词典的构建
在互联网的当今大数据飞速发展的环境下,各品牌网站的新闻信息大部分都是通过文本形式来展示。这是属于非结构化的数据形式,这种形式下通常会包含着大量的价值性高的信息,因此,需要对这些信息进行量化处理。本篇讨论的重点是关于新闻类的文本数据在股市上关于波动性的影响,因此,关键要点就是发现找出关于新闻的文本信息。一则新闻即可看作是一篇文本,而多个词也可以组合成一篇文本,而词又可以分为积极词和消极词,因此新闻中的情感表达可以通过文本中的积极词和消极词来展示。
在《中国金融情感词典》的编纂过程中,以《清华褒贬词典》、《大连理工大学情感词典》和《LM翻译词典》为基础词典。知网情感词典(HowNet)在金融领域涉及少之又少,所以没有收录。作为中国的主流媒体之一,新浪新闻实时报道着国际上的新闻,并与中国证券报、人民日报、CNKI等多家新闻网站和机构合作,新闻信息全面渗入整个金融领域。
所以,本文的多个主要板块优先选择新浪股票设置为新闻语料库。具体步骤如下:
1) 合并大连词典、清华词典等词典中的正反词,剔除重复项,删除单个字的单词。形成了《中国金融情感词典》的基础词典。
2) 选择2017年1月至2021年1月,新浪股票网站上的一些专业板块的新闻文本来形成新闻专业的语料库。同时使用python工具包,将全部的文档做出分段处理,然后选择最适用于文本分析工作的“精确模式”。
3) 对已经构建的基础词典中存在的正反单词出现在新闻语料中的频率进行统计分析。将频率未出现过的单词剔除出去,此时可得到初步的,版本为1.0。
4) 上一步得出的金融词典1.0版本中,全部的单词都是来自清华词典、大连词典等词典,以上所说的几部词典不存在“不足”和“崩溃”这两个典型的金融领域的消极性词汇,以及“双赢”和“转机”这两个经典的金融领域的积极性词汇,所以在本文统计的新闻语料库中,每个词汇出现的频率都会被监测到,然后根据人工筛选,筛选出频率的大小,最终选择出现频率最高的金融词语,以正反词各100个的形式,最终得到财经词典的2.0版本。
5) 使用word2vec将建立的新闻语料转变成词向量,然后依照相似率的高低,对金融词典2.0进行扩展,对扩展后情感极性分类有误的单词以人工的方时进行检查,得到金融词典3.0版本。
6) 合并金融词典1.0版本和金融词典3.0版本,消除重复的单词,最终形成本文所述的中文金融情感类大词典CFED。
最终通过以上的过程而建立的中文财经情感词典,里面共有5897个词语,其中正面3275个,负面2622个。如表1所示。

Table 1. Frequency comparison table of news words in various dictionaries
表1. 各个词典新闻词语频率对照表
从表中可以看出来,新闻中出现的词语在中文财经情感词典中出现的比例是100,这说明后者是根据前者的范围来制定的,也说明我们所构建的词典是全面有效的。
2.2. 情绪指标的构建
为了一些能够体现股票市场舆论导向影响的一些投资者的情绪,我们建立了情绪指标,这些指标的建立主要是通过上文中的CFED对于每天的新闻来具体的定量分析。我们有如下定义:
为了一些能够体现股票市场舆论导向影响的一些投资者的情绪,我们建立了情绪指标,这些指标的建立主要是通过上文中的CFED对于每天的新闻来具体的定量分析。我们有如下定义:
看涨指数:
情绪一致性指标:
当BI = −1时,表示一致看跌;
当BI = 1时,表示一致看涨;
当BI = 0时,表示看涨看跌持平。
可以得出AI取值为(0, 1),AI接近0,表示意见统一度低,AI与1接近,表示意见统一度高。
本文将进行交易的那天的所以新闻都放在一起,并不是只拿当天的某一个,总共的新闻文档大概一天120份,然后再这个基础上计算情绪指标。这样的操作方式可以减少因为文本数目不够而造成情绪指标结果的不准确现象。如果看涨情绪变高,那么股票的收益率也会变高。呈现正相关,而情绪一致性于其的关系恰好和看涨情绪相反,呈现负相关。因为本文的研究目的是波动率变化,所以我们主要观察情绪一致性的变化。
2.3. 模型构建
2.3.1. 已实现波动率
Merton等人提出,如果在足够大的采样频率前提下,高频平方变量之和能够作为独立同散布随机变量(在固定周期内)方差的一个足够准确的预估 。因此,日已实现波动率的非参数估计可以通过将日内分时数据在一定频率下的对数收益率的平方根相加得到,即已实现波动率,具体为:
(2.1)
其中:N:日内观测频率,
,
。
2.3.2. HAR-RV和HAR-RV-AI模型
Corsi认为每一个时间尺度的潜在波动率都会受相同时间尺度的过去实际波动率和更大时间尺度上的未来潜在波动率的影响。考虑不同时间尺度对实际波动率的影响,构建了实际波动率预测的HAR (Heterogeneous Autoregressive,异构自回归)模型,即HAR-RV模型 [3] ,刻画过去日、周、月(即1个、5个、22个交易日)实际波动率对未来日实际波动率的滞后影响,简称为(1, 5, 22)结构.模型形式如下:
(2.2)
(2.3)
大量的研究表明,新闻媒体的情绪指标的确可以影响股票市场的波动,所以将情绪指标与预测模型相结合是有意义的,本文基于HAR-RV模型,建立了HAR-RV-AI模型,模型如下:
(2.4)
2.3.3. GRU模型
门控循环单元(Gate Recurrent Unit),以下简称GRU,是循环神经网络(Recurrent Neural Network, RNN)的一种,是为了解决长期记忆和反向传播中的梯度问题提出的,应用于自然语言处理,图像识别以及其他领域。相比于一般的RNN模型,对于解决长期记忆性问题比较好,而与长短记忆循环网络(Long Short Term Memory network, LSTM)相比,GRU参数比LSTM少,但是却可以高效的完成与LSTM相同的任务,既提高了计算效率,又节省了时间成本因此,近年来也被应用于预测股票收益。GRU详细结构图如图1所示:
这里的激发函数为tanh,误差计算利用MAE损失函数。模型的“epoch”设定为50,“batch”大小设定为72。在本文中,我们只研究一个隐藏层,隐藏层节点的计算公式如下所示:
i表示隐藏层节点的个数,n表示输入层节点个数,l表示输出层节点个数,m是一个1~10之间的常数。(5, 10, 22)可以考虑为短期,中期,长期的波动,我们考虑这些参数根据公式得到相应的隐藏层的节点个数,然后训练神经网络模型得到相对误差的平均值,最后选择误差最小的隐藏层节点数,根据这种方法,对于GRU模型,输入层节点数为22,隐藏层节点数为5,输出层节点数为1。对于GRU-AI模型,输入层节点数为22,隐藏层节点数为7,输出节点数为1。
考虑到新闻媒体情绪对股票市场的影响,我们在GRU单变量模型中加入AI作为解释变量,建立GRU-AI模型来研究实现波动率。
2.4. 损失函数及MCS检验
2.4.1. 损失函数
损失函数有很多种表达方式,但是由于研究还不够深入,所以对于其选取还没有一个统一的说法。它主要是判断损失和误差的函数。
Hansen和Lunde [9] 认为损失函数的多少可以成为模型好坏的标准。由于不同的损失函数模型是从不同方面对于评价模型进行考虑的,本文采用下面介绍的六种损失函数:
(2.5)
(2.6)
(2.7)
(2.8)
(2.9)
(2.10)
其中:
:真实值,
:预测值。
2.4.2. MCS检验
损失函数受到外界的影响因素也有很多,如果我们要讨论模型的猜测准确度的时候把损失函数作为参考物,那么就必须进行很多次的样本猜测,只通过一次猜测就得出结论的行为,是不能被认同的,因为没有做到科学严谨,如果在其中出现了一些不正常的数值,那么损失函数的结果就会快速的增大,最终影响结论。
为了解决上述的问题,Hansen和Lunde [10] 提出了一种新的检验方式,这个方式可以先将模型聚集起来,然后再对所有的进行检验。这种方法被称为,模型信度集检验。
计算相对函数损失值的公式:
(2.11)
MCS检验过程:
1) 用M*来表示所有预测模型的组合。
2) 在假设所有的模型的预测能力是一样的基础上,给出MCS的最开始的假设:
(2.12)
3) 在
置信水平确定的情况下,用该方法把M*中的模型两两分组,然后再分别检验。由Hansen等提出,定义如下:
(2.13)
对应于统计量
和
的剔除准则
和
分别为:
(2.14)
不断地将第三个步骤重复,一直到M*中的模型都处于一定显著水平,即p值大于
,此时便不再剔除模型,p值与预测精度成正相关。
3. 实证分析
3.1. 数据说明和描述性统计
本文采用的是5分钟高频沪深300指数交易数据,时间为2017年1月3日~2020年4月15日,期间共799个交易日。将样本总量三分之二作为训练样本,三分之一作为测试样本。根据我国股市交易时间,每个交易日共有48个交易数据。记为
,样本总数为38,252。
本文情绪指标的获取途径主要是我国的新浪新闻。我们首先获取了关于股票的网站中的各个新闻板块所发布的新闻的文字部分,而且在选取的时候要注意新闻发布的时间应该和股票进行买卖的时间是一样的,如果是在节假日发布了新闻,我们所采取的处理方式把这个行为放到下一个股票买卖的时间里面去,在确保我们组合的样本的时间长度和跨度适合股票指数的时间长度和跨度是一样的。从2017年1月3日至2021年的4月15日我们一共整理了,1174个每日的新闻文本,共计799个股票买卖的时间,总共将近12万篇。我们再把每个股票买卖的时间的新闻文本分开词语,和CFED里面的正面词语和负面词语相比较,利用工具算出AI,然后确定了我们所要利用的样本。
学者们进行了大量的研究发现,资产的波动率并不是正态分布。但是因为HAR-RV模型对于这些变化是有特殊要求的,要求它的扰动项必须符合正态分布,我们对比了对数和非对数的已经实现的变化率,发现前者的分布符合要求,各变量信息如表2所示:

Table 2. Descriptive statistical tables
表2. 描述性统计表
由表我们可以得到以下结论:
1) 我们知道在正态分布中偏度是零,峰度也是零,由表2可知,每天的利润率
有着很明显超越正常额度的最高值,并且非正偏度十分的明显,由J-B检验知,每天的利润率和我们所假设的正态分布并不吻合;在置信水平1%的时候RVt的偏度为5.729,峰度为37.9,我们可以拒绝原假设;对数化的日实际波动率虽然也出现了类似情况,但是他的两个度值都很接近正态分布;这也是我们选择对数化已实现波动率为变量的原因。
2) 根据ADF检验的结果可以看出来,每个序列均拒绝了原假设,即每个序列存在1%置信水平下的单位根,这种情况我们就说每个序列都是平稳的;在检验和证明自相关性的时候,L-BQ统计量显示,在各个滞后阶的序列全部拒绝了原假设,这种情况就说明每个序列都有自相关性。除此之外,利用Hurst指数分析了序列长记忆性,从表中显示的来看,利润率的Hurst指数与0.5接近,这表明了序列类似于随机游走过程。反观其他三项的指数都在(0.5, 1)区间,对数化的已实现波动率更明显,这也是将对数已实现波动率作为因变量建模的有力依据。
3.2. 样本外的预测结果
3.2.1. 基于损失函数下的模型预测精度评估
在公式(2.5)~(2.10)的基础上,我们给出了文中四种波动率模型在不同损失函数下的样本外预测结果,如表3所示:

Table 3. Results of each loss function
表3. 各个损失函数结果
在表3中,我们可以很明显的看出:1) GRU波动率模型(GRU和GRU-AI)比HAR-RV波动率模型(HAR-RV和HAR-RV-AI)具有更好的预测性能。这可能是因为GRU模型相对于的一般RNN模型,可以解决长期依赖问题,所以能有效地维持时间序列中每个时刻的状态,体现已实现波动的非线性特点。另外,HAR-RV模型本质上来讲是自回归线性模型,它展现了不同时期波动率之间的线性关系。2) 将(MSE,MSPE、MAPE、QLIKE、R2LOG)五种损失函数为评估标准,我们发现,HAR-RV-AI模型的预测精度优于HAR-RV模型。我们还发现,将4种损失函数(MAE、MSE、MAPE、MSPE)最为评价标准,GRU-AI模型的预测准确性要优于GRU模型。这表明,在某种程度上,将AI情绪指数添加到的波动率预测模型中对原有模型的预测能力确实有所提高。
3.2.2. MCS检验下的模型预测精度评估
为了使检验结果更有说服力,我们给出了各个模型在MCS检验的结果,如表4所示:
表4的结果表明,所有模型都通过了基于QLIKE损失函数的测试。以三个损失函数(MSE、MAE、MAPE)作为评价标准,我们发现HAR模型和HAR-RV-AI模型都没有通过检验,只有GRU-AI模型通过检验,p值为1,表明实现了基于神经网络的波动率预测模型具有较强的预测精度。同时,通过对比HAR-RV-AI和HAR-RV,发现加入AI情绪指标的模型比原始模型具有更好的预测精度。因此,加入AI情绪指标的模型可能提高预测模型的准确性。结果表明,GRU-AI模型是最佳的预测模型。
4. 结论
本文主要研究股票市场波动的预测,以便更准确地了解市场经济,由此来帮助投资者把握股市波动走向。本文首先表明了金融股票市场确实可以受到新闻媒体的影响,并证实了在金融领域挖掘新闻信息文本的重要性。在此基础上,本文研究了文本大数据对股票波动性的影响,我们利用机器学习的方法,在股票波动预测方面提供了新的想法。
我们研究了两个方面:考虑深度学习方法(GRU)预测波动率,以及考虑新闻媒体对波动率的影响波动。因此,首先构建一个面向金融领域的中文金融情感词典。在此基础上,我们将新闻媒体中的情绪量化为要添加到模型中的情绪指数,并建立了新的预测模型——HAR-RV-AI和GRU-AI。为了比较模型的预测能力,我们以损失函数法和MCS 检验为评价标准,采用滚动窗口策略进行样本外预测。最后得出结论,深度学习GRU模型在股票波动率预测领域拟合良好。GRU神经网络模型对已实现波动率的预测能力明显高于HAR-RV模型。这可能是因为GRU模型相对于一般RNN模型,可以解决长期依赖问题,所以能有效地维持时间序列中每个时刻的状态,体现已实现波动的非线性特点。另外,HAR-RV模型本质上来讲是自回归线性模型,它展现了不同时期波动率之间的线性关系。此外,添加情感指数后,预测模型的精度有所提高。这说明及时掌握新闻信息可以提高股票市场的风险控制能力。