1. 引言
近年来,比特币投资研究不断增加, [1] 指出了目前比特币研究主要包括利用量化投资模型对比特币投资模型的构建,利用时间序列模型和多因子模型预测比特币的涨跌,利用机器学习模型等结合大数据进行量化投资。 [2] 建立了GARCH模型对比特币波动率进行预测。 [3] 通过基于人工神经网络的方法预测比特币价格变化。
关于时间序列预测,很多学者提出了各种预测模型,其中包括指数平滑预测 [4] [5] 、三次指数平滑预测 [6] [7] 、动态指数平滑预测 [8] [9] 、ES-GA预测 [10] 、ARIMA预测 [4] , [11] [12] 、滚动ARIMA预测 [13] 、SVM预测 [14] 以及LSTM预测 [11] [12] 等。但是,目前很少有关于滚动ARIMA模型的比特币收盘价预测相关文献。
目前的研究中,指数平滑模型广泛应用于时间序列分析中,三次指数平滑模型可以很好地保存时间序列数据的趋势和季节性信息。文献 [7] 研究表明,三次指数平滑模型能够根据时序的变化,清晰地显示出时序的变化趋势,对波动范围较大且呈非线性变化规律的数据具有很强的适用性,具有预测可信度较高、基础数据周期要求短、操作便捷且使用方便等优点。关于ARIMA的预测模型,大多数都是整体预测或者结合深度学习方法预测,在预测阶数比较大的时候,误差会非常大。文献 [13] 提出了滚动ARIMA预测模型,滚动预测模型的主要思想是,每次预测的时候,只预测一期数据,下次预测的时候把上期预测的数据加到训练集,依此类推,这极大地减少了时间序列自相关性降低所带来的误差。但是,目前已知的滚动ARIMA预测模型的文献中,训练集中数据的数量是随着预测次数而增加的,这可能导致过拟合而降低泛化能力。
本文提出了一种新的滚动ARIMA预测模型,即每次预测单期数据后,得到的数据加入到训练集,同时,训练集的第一次数据被移出训练集,这样就保证了每次预测时,训练集中数据的数量保持不变。本文主要通过滚动ARIMA预测和动态指数平滑方法,在比较测试集上的相对误差的同时,预测2023年6月的比特币收盘价。其中第二节讨论了滚动ARIMA和动态指数平滑的方法,第三节比较两种方法的效果,最后一节是本研究的结论。
2. 研究方法
2.1. 滚动ARIMA模型
2.1.1. 传统的ARIMA预测模型 [4]
ARIMA模型是由自回归(AR)模型和移动平均(MA)模型组成的时间序列预测模型 [11] 。它与ARMA模型属于同一自回归模型,但对数据的要求却大不相同。ARMA模型适用于稳态时间序列的数据,而ARIMA模型更适合差分后稳态时间序列的数据 [11] ,ARIMA模型全称为差分自回归移动平均模型,广泛适用于非平稳时间序列,令我们的模型为ARIMA(p, d, q),如果
是时间序列观测值,
是序列的均值常数,
是序列的误差,
是自回归系数,
是移动平均系数,
是d阶差分算子,
,
,这里
;
,则ARIMA模型的表达式为(1)
(1)
传统的ARIMA预测模型的思路如下:1) ADF检验,首先对序列进行ADF平稳性检验,如果序列不平稳,则对序列进行差分,直到序列平稳为止。若对序列的差分阶数为d时序列通过了平稳性检验,则可以确定该模型的参数d。我们对2016年4月到2023年5月的比特币收盘价进行了pp检验,如表1所示。由于p < 0.05,可以断言,比特币收盘价数据是不平稳的,需要进行差分平稳化。2) 白噪声检验 [15] ,序列平稳后,对序列进行白噪声检验,即检验时间序列是否为纯随机的,如果这个时间序列具有纯随机性,则认为序列中不包含任何值得提取的有用信息,即停止对序列进行分析,检验白噪声可用Q统计量或LB统计量。本文中2016年5月到2023年5月比特币收盘价数据白噪声检验的p值小于0.05,所以可认为序列为非白噪声。3) 模型定阶,根据AIC或BIC信息准则 [16] ,即最小化信息量准则或贝叶斯信息准则,选取最小的AIC或BIC所对应的p和q,在这里,ARIMA(p,d,q)模型定阶已经完成。4) 参数估计,定阶完成后,要对ARIMA模型的全部未知参数
进行估计,文献 [17] 提出了PHS算法进行参数估计。Matlab可用直接实现参数估计。5) 预测,参数估计完成后,传统的ARIMA模型可以预测后面多期的数据。为提高模型准确性,我们在2.1.2引入了滚动ARIMA预测模型。6) 异常值处理,由于比特币收盘价具有非负性,所以如果预测到的某一期数据为负值,则令这一次预测的数据为0。

Table 1. Nonparametric test of the Bitcoin closing price series
表1. 比特币收盘价序列的非参数检验
传统的ARIMA预测模型如图1。
也就是说,对一个时间序列建立一个整体的模型,利用这个模型预测后面的数据,如果利用单个模型预测长期数据的话,预测结果会接近一条直线,效果会变得很差。但是,如果每次只预测一期数据,然后把新预测的数据加入训练集,去预测下一期数据,这样的话预测精度会提高很多。因此,我们考虑滚动ARIMA预测模型。

Figure 2. Diagram of rolling ARIMA
图2. 滚动ARIMA模型示意图
2.1.2. 滚动ARIMA预测模型
滚动ARIMA预测模型的主要思路是:提前确定训练集数据的数量k,每次都是单步预测,即每次只预测后面一期数据的值,然后把这个预测的值加入到训练集,再把训练集的最早期的数据移出训练集,这样可以确保训练集的数据数量恒定不变,以减少过拟合并且提高泛化能力。例如,第一次预测,训练集为
,利用这些训练集预测的下一期的数据是
,我们把
加入到训练集,再把训练集的第一个数据移出,第二次预测,训练集为
,依此类推,预测的数据为
,其中n为预测总期数。滚动ARIMA的原理如图2。传统ARIMA模型的时间复杂度是O(1),滚动ARIMA预测模型的时间复杂度是O(n) [13] ,滚动预测在以提高时间复杂度为代价的前提下,提高了预测精度。
2.2. 三次指数平滑模型
三次指数平滑模型是由一次指数平滑模型发展而来的。指数平滑法是一种时间序列分析和预测算法,包括一次、二次、三次指数平滑 [18] 。一次指数平滑法是对当前周期的观测值和预测值赋予不同的权重,从而得到下一个周期的预测值的方法。但是一阶指数平滑不能处理具有长期趋势或季节性影响的时间序列 [8] 。二次指数平滑法是将一次平滑的结果再次平滑为实际值,从而保留趋势信息。但二次指数平滑法不能处理具有季节效应的时间序列。三次指数平滑在二次指数平滑的基础上保留了季节信息,可以预测具有季节效应的时间序列。文献 [7] 提到三次指数平滑的算法如下:设
是第t天的比特币收盘价,则可以构建三次指数平滑预测模型(2)
(2)
这里
表示预测的第T天的比特币收盘价,T为超前预测的期数。
是第t天的预测系数,
分别为第t天的三次指数平滑值,
是平滑系数。
我们首先对未来31天的比特币收盘价进行预测,我们使用的工具是Matlab R2021b。预测的对比图如图3,图4。
3. 模型之间的比较
3.1. 比较模型所使用的统计量
为了对比滚动ARIMA预测模型和三次指数平滑预测模型的效果,我们对比如下的统计量:相对百分误差(MAPE),平均绝对值误差(MAE),均方误差(RMSE) [19] ,符号正确率(DAR) [20]
MAE:平均绝对误差,是预测值和实际值之间的绝对误差算术平均值,如(3)

Figure 3. Bitcoin closing price prediction in 2023.06 by cubic exponential smooth
图3. 三次指数平滑的比特币收盘价预测

Figure 4. Bitcoin closing price prediction in 2023.06 by rolling ARIMA
图4. 滚动ARIMA的2023年6月比特币收盘价预测
(3)
MAPE:是平均绝对百分比误差,是预测值与实际值之间的绝对误差与实际值比值的算术平均值,定义如
(4)
RMSE:均方根误差,是对预测值与实际值之差的平方和的平均值进行开方得到的,定义如(5)
(5)
DAR:符号正确率,是预测的符号正确的累计次数与总预测次数的比值,通常DAR是评价金融相关预测最重要的统计量,DAR的定义如(6)。
(6)
其中,
通过(7)式定义:
(7)
在这里,
表示第t年比特币收盘价的实际值,
表示第t年比特币收盘价的观测值。
3.2. 基于滚动ARIMA和三次指数平滑对比特币收盘价的预测比较
对于滚动ARIMA模型,本文采用2016年5月到2023年5月的比特币收盘价进行实验,用前30天(2016.5~2016.6)的比特币收盘价作为初始数据,生成滚动ARIMA预测模型,测试集为2016.6~2023.5年的比特币收盘价,比特币收盘价的滚动ARIMA预测结果如图3,图4;对于三次指数平滑模型,训练集和测试集同滚动ARIMA模型,我们选取
,使用滚动预测的方法,即
,预测2016.6~2023.5比特币收盘价,预测结果在图3,图4通过对比测试集的MAPE,MAE,RMSE,DAR以量化模型效果,求解结果如表2。

Table 2. Comparison of performance between models
表2. 模型效果对比
3.3. 基于滚动ARIMA预测模型对未来31天比特币收盘价的预测
由于滚动ARIMA模型在测试集中的误差表现良好,即在测试集中,符号正确率DAR为57.9%,但是对于三次指数平滑模型,测试集中,符号正确率DAR小于50%,这说明,滚动ARIMA预测模型具有较好的方向预测以及误差控制效果。由于长期预测时,误差会越来越大。因此,在预测31天后比特币收盘价时,我们选用方向预测和误差控制较好的滚动ARIMA模型,预测结果在图3,图4。
4. 结论
时间序列分析是基于历史观测数据对未来数据进行预测的一种方法,广泛应用于各个学科。为了预测31天后的比特币收盘价,我们先后考虑指数平滑模型,ARIMA模型,在现有的ARIMA模型上使用了改进模型,即滚动ARIMA模型,在提高了时间复杂度的前提下增加了预测的准确度。
我们把2016年6月到2023年5月的比特币收盘价作为测试集,对比特币收盘价预测效果进行了测试,用于比较两种模型的精度,本研究结果显示:整体上两种模型的MAPE都比较小,效果相当。对于滚动ARIMA模型,方向准确率DAR = 57%,但是对于三次指数平滑模型,方向正确率不足50%。结果表明,滚动ARIMA预测模型的方向预测和误差控制效果较好。由于长期预测时,误差会越来越大。因此,在预测31天后比特币收盘价时,我们选用预测方向和误差控制较好的滚动ARIMA模型。
基于滚动ARIMA预测模型,我们预测了未来31天的比特币收盘价,结果显示,在2023年6月,比特币收盘价呈现波动趋势,并且波动趋于平缓。