1. 引言
股票市场作为金融市场中最重要的组成部分之一,对投资者和机构来说具有巨大的吸引力和挑战性。股票市场的价格波动受到众多因素的影响,包括经济指标、公司业绩、市场情绪等,这使得股票价格的预测变得非常复杂而具有挑战性。然而,准确预测股票价格对投资决策和风险管理至关重要。在过去的几十年中,许多经济学家和研究者提出了各种各样的模型来解决股票市场预测的问题。时间序列分析是一种基于时间的数据分析方法,它利用过去的观测值来推断未来的走势和模式。
传统的时间序列模型如ARIMA (Autoregressive Integrated Moving Averag)和GARCH (Generalized Autoregressive Conditional Heteroskedasticity)被广泛应用于股票价格的分析和预测。刘红梅 [1] (2008)用ARIMA模型对鞍钢股份股票价格序列进行了短期的动态预测。吴玉霞 [2] (2016)用ARIMA模型对华泰证券250期的股票收盘价进行建模,发现ARIMA模型对于短期动态、静态的预测效果较好,而对于长期趋势预测的偏差会较大。Bollerslev [3] (1986)详细介绍了GARCH模型的原理和应用。该方法为金融领域的波动性建模提供了重要的理论基础,并且推动了GARCH模型在金融数据分析中的广泛应用。李亚静 [4] (2003)用GARCH模型族来拟合中国股市的波动性,证实中国股市的波动具有显著的波动聚类性与持续性。然而,传统的ARIMA和GARCH模型在股票市场中存在一些局限性。首先,它们无法很好地捕捉到金融市场中的非线性特征和波动性聚集现象。股票市场经常出现非线性的价格变动和波动性的聚集现象,这使得传统模型在预测市场行为时表现不佳。其次,传统模型对于极端事件的预测能力有限。在金融市场中,极端事件(如金融危机)可能对股票价格产生重大影响,但传统模型很难准确预测这些事件。为了克服传统模型的局限性,研究者们提出了ARIMA-GARCH模型的改进版本。Robert Engle [5] (1982)首次ARIMA模型和GARCH模型结合起来,提出了ARIMA-GARCH模型来处理金融时间序列数据中的异方差性问题,通过引入滚动窗口机制来适应金融市场中的非线性特征和波动性聚集现象。因此,ARIMA-GARCH模型成为近年来股票市场预测领域的研究热点。Ding, Z., Granger, C. W. J.和Engle, R. F. (1993) [6] 将ARFIMA-GARCH模型用于处理长记忆性的股票市场回报数据。Radha和Thenmozhi (2006) [7] 分别利用ARMA,ARMA-GARCH和ARMA-EGARCH模型对短期利率进行预测。Wang等(2010) [8] 利用ARMA-GARCH模型对Dow和标普500指数进行了预测。Lee和Le (2011) [9] 基于ARMA-GARCH模型预测风险价值(Value-at-Risk)。
本文选取长城汽车(601633)股票在2021年1月4日至2023年3月23日的每个交易日的日收盘价数据,共计535组数据,利用R软件分别用ARIMA、ARIMA-GARCH模型对该股票的历史数据进行拟合和参数估计。通过对比模型预测结果和实际数据,评估两个模型的预测能力和准确性。最后,我们讨论了ARIMA-GARCH模型的优点和局限性,并提出未来研究的方向和改进方法。
2. ARIMA-GARCH模型的理论介绍及建模步骤
2.1. ARIMA模型的理论介绍
ARIMA模型称为差分自回归移动平均模型,是由博克思(Box)和詹金斯(Jenkins)于20世纪70年代初提出,因此又称为Box Jenkins模型。ARIMA模型是在ARMA模型的基础之上产生的,具体由三个组成部分构成:自回归部分(AR)、差分部分(I)和移动平均部分(MA)。下面分别介绍这三个部分的理论基础:
自回归部分(AR)是指时间序列数据与其过去值之间存在相关性。AR模型基于这种相关性,假设当前观测值与过去的若干个观测值之间存在线性关系。AR(p)模型可以表示为:
(1)
其中,
是时间序列的当前观测值,c是常数,
是模型的自回归系数,p表示AR模型的阶数,
是误差项。
差分部分(I)是指对时间序列数据进行一阶或高阶差分,以消除数据中的趋势性。通过差分,可以将非平稳的时间序列转化为平稳的时间序列。差分操作的阶数决定了差分的次数。一阶差分可以表示为:
(2)
移动平均部分(MA)是指时间序列数据与过去的误差项之间存在相关性。MA模型基于这种相关性,假设当前观测值与过去的若干个误差项之间存在线性关系。MA(q)模型可以表示为:
(3)
其中,
是时间序列的当前观测值,c是常数,
是当前时刻的误差项,
是模型的移动平均系数,q表示MA模型的阶数。
ARIMA模型通过结合自回归、差分和移动平均三个部分,可以对时间序列数据的自相关性、趋势性和随机性进行建模。ARIMA模型的一般形式为
,其中p表示自回归阶数,d表示差分阶数,q表示移动平均阶数。
模型形式可以表示为:
(4)
其中,
表示不平稳序列
经过d次差分转换形成的平稳序列,
为误差,
和
为模型的待定系数,p和q为模型的阶数。
2.2. GARCH模型的理论介绍
1986年,BOLLERSLEV在ARCH模型的基础上,引入滞后的条件异方差和滞后的波动性项,提出了广义自回归条件异方差模型。GARCH模型是一种用于描述时间序列数据波动性的模型,广泛应用于金融领域的波动性建模和风险管理中。GARCH模型基于条件异方差的概念,可以捕捉数据中的波动性聚集特征。它的表达式如下:
(5)
其约束条件为
(6)
其中,
表示扰动项
的方差。GARCH模型通过引入滞后的波动性项和条件异方差项,能够更准确地描述时间序列数据的波动性和风险。它能够捕捉到金融市场中的波动性聚集特征,提供了更精确的风险度量和波动性预测。
2.3. ARIMA-GARCH模型的理论介绍
ARIMA-GARCH模型是将ARIMA模型和GARCH模型相结合的一种时间序列分析模型,用于对金融市场等数据进行建模和预测。ARIMA-GARCH模型的理论基础是ARIMA模型和GARCH模型的结合,以综合捕捉时间序列数据的自相关、趋势性和波动性特征。考虑遵循以下ARIMA(p,d,q)-GARCH(s,r)过程,则
(7)
2.4. 建模步骤
建立ARIMA-GARCH模型对股票价格进行预测主要包括以下步骤:
1) 利用ADF单位根检验对股票价格序列进行平稳性检验,若原股票价格序列非平稳,进行步骤2。
2) 对非平稳序列进行差分处理,再返回到步骤1进行检验,直到将原序列转换为平稳序列。
3) 对差分后的平稳序列进行白噪声检验,若拒绝原假设,则执行步骤4。
4) 对差分后的序列进行ARIMA模型定阶与参数估计并预测。
5) 对于建立好的ARIMA模型进行残差检验若残差符合正态性与不相关行假设,进行模型预测。
6) 对于建立的ARIMA模型进行ARCH检验,确定模型是否存在异方差性。若存在异方差,则需要建立GARCH模型。
7) 对于建立好的ARIMA-GARCH模型进行残差检验。
8) 利用确定好的模型,对长城汽车的后9天股票收盘价进行预测。
3. ARIMA-GARCH模型的建立与分析
3.1. 数据选取和数据来源
本文选取长城汽车(601633)股票在2021年1月4日值2023年3月20日的每个交易日的日收盘价作为观测值进行模型拟合,2023年3月21日至2023年3月31日的交易日数据作为预测,数据来自RESSET金融研究数据库,共计544组数据。
3.2. 序列平稳化处理和平稳性检验
时间序列平稳性检验是判断一个时间序列是否具有平稳性的关键步骤。平稳性是指时间序列的均值和方差在时间上是稳定的,不随时间的变化而发生显著的变化。常用的时间序列平稳性检验方法有:一、观察法。通过绘制时间序列的折线图,观察序列的整体趋势和波动性,若趋势和波动性在时间上保持稳定,则可以认为序列是平稳的;也可以通过绘制时间序列的自相关图和偏自相关图,观察自相关系数和偏自相关系数是否在一定范围内随时间衰减,并且是否在0附近波动,若满足这些条件,则可以认为序列是平稳的。二、统计量检验法。ADF检验是一种常用的单位根检验方法,用于检验时间序列是否具有单位根,从而判断是否平稳。若检验统计量的p值小于给定的显著性水平,则拒绝单位根假设,表明序列是平稳的。
由此,我们首先观察长城汽车原始序列的时序图,见图1:

Figure 1. Timing diagram of closing price of Great Wall Motor stock
图1. 长城汽车股票收盘价时序图
通过图1,我们可以看到长城汽车的股票收盘价随着时间的变化而发生大幅度的波动变化,初步判断该序列是不平稳的。经单位根检验后证实原序列为非平稳的,因此需要先对原始数据进行一阶差分处理,绘制差分后序列的时序图,结果如图2所示。

Figure 2. Timing diagram after first-order difference
图2. 一阶差分后的时序图
从图2可以明显看到,一阶差分后序列围绕0值上下小幅波动,因此可以初步判断一阶差分后的序列为平稳序列,对一阶差分后的时间序列进行单位根检验,得到p值为0.01,拒绝原假设,则差分后的序列平稳。
3.3. 白噪声检验
在进行ARIMA模型定阶前,需要判断差分后的时间序列是否为白噪声,常用的方法有三种,自相关图、Box-Pierce检验和Ljung-box检验。本文采用自相关图和Ljung-box做白噪声检验,首先用r绘制一阶差分序列的自相关图和偏自相关图,如图3所示:

Figure 3. Autocorrelation diagram and partial autocorrelation diagram of first-order difference sequence
图3. 一阶差分序列自相关图和偏自相关图
从图3可以发现,序列中有较多自相关系数和偏自相关系数在蓝色虚线外,因此该序列很可能不是白噪声。此外,用Ljung-box检验该序列是否为白噪声,计算得到滞后6、12、18、24、30阶的Ljung-box统计量和p值,如表1所示。
由表1可知,p值小于0.05,则认为该序列为非白噪声序列。
3.4. 模型定阶与估计
确定ARIMA模型的阶数(p、d、q)是使用ARIMA模型的关键步骤之一。阶数的选择对模型的准确性和预测能力具有重要影响。常用的方法由以下两种:
第一种方法可以通过观察序列数据的自相关函数和偏自相关函数图像,获得一些关于AR和MA阶数的线索。AR模型的阶数可以从PACF截尾处确定,而MA模型的阶数可以从ACF截尾处确定。
第二种方法是用信息准则进行判断包括赤池信息准则(AIC)和贝叶斯信息准则(BIC)。这些准则根据模型的拟合优度和参数数量之间的平衡,给出了选择最佳模型阶数的依据。较小的AIC或BIC值表示较好的模型拟合,因此可以根据这些准则选择最优的ARIMA模型阶数。
这里我们为了简化操作,使用r自带的ARIMA定阶函数auto.arima()函数自动确定,最终确定用ARIMA(3,1,2)模型拟合股票收盘价的变化规律。
(8)
其中,
。
3.5. ARIMA模型检验
由于在建立模型之初假设残差服从正太分布与残差之间不相关,因此在确定模型后,仍需对模型的残差进行分析,确保残差也是白噪声。首先,通过绘制QQ图验证残差项是否符合正态分布,根据图4所示,途中大部分的散点分布趋近标准线,判断残差项基本符合正态分布的特征。
其次,仍可以通过Ljung-Box检验判断残差之间是否相关。经过检验,得到p值为0.9958,大于0.05,即不能拒绝原假设,可以认为残差之间不相关,说明残差项属于白噪声序列,模型基本完善。
3.6. ARIMA模型预测
根据上述检验结果,运用已建立的ARIMA(3,1,2)模型对该股票后9个交易日的股票收盘价进行预测。预测结果如下表2所示。

Table 2. Stock price forecast table for the next 9 trading days
表2. 未来9个交易日股票价格预测表
从表2可以看到,股票预测值与实际收盘价较为接近,且均在80%和95%的置信区间内,且后五个交易日的误差均不超过4%,明显小于最后四天的预测误差,说明该模型对该股票的短期预测精度较高,同时验证本文构建的ARIMA(3,1,2)模型是较为准确的,可以较好地反映出长城汽车股票收盘价序列的短期变化规律。虽然ARIMA模型的短期预测误差不是高,但原数据仍可能存在异方差性。由于ARIMA模型的基本假设是数据的方差在时间上是恒定的,即具有同方差性。则当数据存在异方差时,ARIMA模型可能会产生模型偏差和参数估计不准确等问题。
对残差序列进行ARCH检验,检验得到的p值为5.205e−07,表明残差序列具有显著的方差异质性。
3.7. ARIMA-GARCH 模型的拟合与预测
由于发现数据存在异方差性,故下面考虑将ARIMA模型与GARCH模型结合,使用ARIMA-GARCH模型进行建模和预测。对残差序列进行了GARCH(1,1)模型拟合,得到如下结果,见表3:

Table 3. Parameter estimation results of GARCH(1,1) model
表3. GARCH(1,1)模型参数估计结果
上表拟合的结果表明模型和参数都通过了显著性检验。为解决异方差问题,下面通过将水平模型和波动模型相结合,得到拟合的ARIMA-GARCH模型:
(9)
其中,
。
采用ARIMA(3,1,2)-GARCH(1,1)模型进行预测,预测结果见表4。从表4中可以看到,采用ARIMA-GARCH模型预测长城汽车后面几个交易日的股票价格时,预测精度都要高于ARIMA模型,表明ARIMA-GARCH模型更适用于该股票的预测分析。

Table 4. Stock price forecast table for the next 9 trading days
表4. 未来9个交易日股票价格预测表
4. 总结
由于影响股票市场的随机因素有很多,股票价格波动大,表现出复杂的非线性、不确定性,故股票市场是一个很不平稳的动态变化过程,建立一个准确的预测模型是很困难的。ARIMA模型是一种简单且广泛应用的时间序列分析方法,具有解释性强和高效性的优点,对于投资者来说具有一定的参考意义。但是由于其假设和数据要求的限制,ARIMA模型在某些情况下可能无法提供相对准确的预测结果,比如异方差等。然而,在现实的金融市场中,股票价格等时间序列数据通常表现出异方差性,即波动性随着时间的变化而变化,此时ARIMA模型显然不是我们的最优选择。ARIMA-GARCH模型能够通过GARCH部分对数据的条件异方差进行建模,更好地反映了数据的实际特征,因此在进行波动性预测时具有更高的准确性。ARIMA-GARCH模型相对于ARIMA模型更适用于金融数据的建模和预测。当然,需要注意的是ARIMA-GARCH模型也有其局限性。它假设数据具有线性关系,可能无法捕捉到数据中的非线性关系。模型的性能还取决于参数的选择,这可能是具有挑战性和主观性的。此外,对于长期预测,模型的预测准确性可能会降低,这是时间序列预测固有的限制。