1. 引言
股票市场在金融领域中一直有着举足轻重的地位。股票价格的波动能够在一定程度上反映一个国家经济周期的变化。近年来随着经济的发展和疫情的冲击,股票的价格再次引发了大家广泛的关注。韩金磊等采用长短期记忆网络(LSTM)和灰色模型对股价进行预测研究 [1] ;荆思寒等基于A股上市公司股票交易数据建立了股票风险传染模型 [2] ;左川等记录了深度学习在股票投资领域中的应用 [3] 。
股票是经济的晴雨表,无论是对于国家还是对于投资者来说股价预测都具有重要的意义 [4] [5] 。股票价格往往对时间因素非常敏感,因此本文建立ARIMA时间序列模型对短期股票价格进行分析与预测。
2. 模型的建立
2.1. ARIMA模型的定阶方法
ARIMA模型的定阶方法主要是通过观察自相关图和偏自相关图,根据其系数的相关特性来判断阶数。若AC是拖尾的,PAC是p阶截尾的,则选择AR(p)模型;若PAC是拖尾的,AC是q阶截尾的,则选择MA(q)模型;若AC和PAC都表现为拖尾性,则选择ARMA(p,q)模型,然后通过模型的参数检验,进一步判断p、q的阶数。
由于样本具有随机性,相关系数并不会表现出完美截尾的情况,通常会呈现出小值振荡的情况,这就给模型的定阶带来了一定的困难。根据以往的经验,如果样本自相关系数或偏自相关系数在初始的d阶明显大于两倍标准差范围,其后几乎95%的自相关系数都在两倍标准差范围内,并且由非零自相关系数衰减为小值波动的过程非常突然,这时可以视为自相关系数或偏自相关系数d阶截尾。
2.2. ARIMA模型建模步骤
构建ARIMA模型的大致步骤有以下几个:
(一) 序列的平稳性。首先,需要观察原序列是不是平稳的 [6] 。当原序列不是平稳的情况时,可以选择一些合理的方法让原序列变成平稳的,如差分转化。
(二) 模型的定阶。通过软件能够计算得出序列特征的自相关系数与偏自相关系数等。ARIMA模型的滞后阶数p和q再利用其他方法确定。
(三) 模型的构建。构建该模型的残差序列是否是正态分布的也值得关注。残差序列的自相关图以及偏自相关图可以观察得出其结论,或运用检验序列相关的方法来测试残差序列的随机性。
(四) 模型的预测。经过了上面的步骤后就大致拟合出了模型,并可以在未来的短期时间里进行股价的预测 [7] 。
3. 关于股票价格的预测
选取中国银行(601988) 2022年4月10日至2023年4月10日的股票日开盘价数据。基于ARIMA模型的建模理论,建立阶数p = 0,d = 1,q = 1的ARIMA(0,1,1)模型对中国银行未来三天的股票日开盘价进行预测 [8] 。
3.1. 平稳性检验
3.1.1. 时序图检验
从图1的折线图大概可以推测出该序列数据可能并不是平稳的。因为股票的开盘价数据为原始数据,该数据在短期内波动是比较大的,在长期的时间序列中也没有遵循显著的规律 [9] [10] 。

Figure 1. Timing diagram of opening price of China Bank
图1. 中国银行开盘价时序图
3.1.2. 单位根(ADF)检验
为了更加精准得确认该序列是不是平稳的,对序列做ADF单位根检验。在显著性水平下,该序列的P值大于0.05,因此该时间序列的数据不是平稳的。
对原始数据的时间序列进行一阶差分处理后,将一阶差分后的数据再次进行ADF检验。序列的p值小于显著性水平0.05,因此推断出该序列属于平稳的时间序列。对于一阶差分后的数据再进行白噪声检验,该序列为非白噪声系列。综上,对以上结果分析该序列为平稳非白噪声序列。
3.2. 序列的自相关图和偏自相关图并识别模型
在对时间序列数据进行平稳性处理之后,需要利用ACF、PACF图,如图2、图3所示来识别模型形式,并确定滞后阶数p、q的值。
观察样本自相关图和偏自相关图,如图2、图3所示。由图2可知自相关系数除了滞后一阶的数值较大,其他数值均在两倍标准差范围内做小值随机波动,并且相关系数衰减的过程非常突然,所以可以判断自相关系数为一阶截尾。由图3可知,偏自相关系数缓慢衰减且过程相当连续,呈现拖尾性质。
综上,决定建立ARIMA (0,1,1)模型来预测该序列,即模型的阶数p = 0,d = 1,q = 1。但此推测仍然具有一些主观性,所以需要进一步检验来验证 [11] 。
3.3. 模型的拟合性检验
完成上述参数估计步骤后,最关键的步骤就是要对该拟合模型的残差序列进行正态性检验 [12] 。我们

Figure 2. ACF diagram of first-order differential data
图2. 一阶差分后数据的ACF图

Figure 3. PACF diagram of first-order differential data
图3. 一阶差分后数据的PACF图
在做序列拟合的时候,Y应该是X的函数。但是现实并没有那么友善,往往会出现一些奇奇怪怪的事让X与Y不符合这个函数。比如对身高的影响,一对双胞胎,从小一块长大,但是他们身高不可能完全一样。所以把这种只有上帝才知道怎么回事的变化叫做随机误差项,它本身就是随机的、不可预测的。
我们所做的模型中的残差就是对这个随机误差的估计,残差如果不是随机的,那说明残差中的一部分还是与预测变量有关系,需要再继续拟合。如果它是随机的就可以认为它是对随机误差比较好的拟合,就可以认为你的可确定部分X提取了所有的可预测部分,证明你的模型是把所有的X提取全了。我们对文中所建模型的残差序列进行正态性检验,发现其残差符合正态分布。表明所建模型拟合程度较好,可以较为准确地预测未知数据。
3.4. 对开盘价进行预测分析
下面利用所构建的ARIMA模型对中国银行股票的日开盘价进行预测。由于ARIMA模型短期内预测的结果较为精确,因此本文只是对股票价格做出短期限内的预测,即2023年4月11日至2023年4月13日的开盘价。如表1所示:

Table 1. Opening price and forecast price results
表1. 开盘价与预测价结果
通过表1可以观察到,利用这个模型预测的中国银行股票2023年4月11日至2023年4月13日的开盘价分别是3.43、3.46、3.49,误差比分别为0.0816、0.0809、0.0716。我们发现实际值与预测值之间的误差比是比较小的,根据上述数据进一步证实了此次构建的模型是准确的。
4. 结语与建议
本文对中国银行股票开盘价这一时间序列进行ADF单位根检验,绘制该序列的自相关图和偏自相关图。建立了阶数p = 0,d = 1,q = 1的ARIMA(0,1,1)模型对股票开盘价进行预测。由于ARIMA模型不能精确拟合股票价格的长期趋势,只适用于短期预测。于是我们运用该模型预测中国银行未来三天的股票开盘价 [13] 。模型预测中国银行股票2023年4月11日至2023年4月13日的开盘价分别是3.43、3.46、3.49。真实值与预测值的误差比分别为0.0816、0.0809、0.0716。误差比较小,因此所构建的股票开盘价预测模型合理。
文末,给资本市场一些建议。
4.1. 健全信息披露机制
我国市场存在十分典型的羊群效应。捕风捉影投资方式大量存在,即股民们根据从各个渠道收集来的内幕消息买进卖出股票。若程度过大就将造成市场极大的波动,股民们对市场失去信心势必会影响家庭资本结构的变化,同时内需也得不到刺激。健全信息披露机制可以防止股市环境恶化,促进投资者进行理性投资。
4.2. 加强证券市场化建设
在供给侧改性改革背景下,政府对证券市场的干预不能太大,但减少投机行为的产生也是在当下的实际情况中所必要的。充分发挥市场作用、加强市场化建设是相关部门需要进一步完善的。
4.3. 对投资者的理性教育
股市中的投资者以散户居多,这导致市场中跟风投资的现象比较明显,所以对投资者进行理性教育是必不可少的。投资者在买卖证券时应该基于其实际情况进行选择。