1. 引言
Wordle源自2023年美国大学生数学建模竞赛C题[1],是一款要求玩家在六次尝试内猜出五字母单词的益智游戏。游戏通过绿色(位置正确)、黄色(字母存在但位置错误)和灰色(字母不存在)提供即时反馈,其简洁的规则设计和独特的社交属性使其迅速走红。深入研究Wordle的每日用户数量变化,不仅能揭示游戏的受欢迎程度和用户留存规律,更为游戏开发者优化用户体验、制定营销策略和提升用户参与度提供了重要的数据支撑。由于Wordle每日用户数量与历史数据呈现显著的时序相关性,因此本质上构成了一个典型的时间序列预测问题。
目前常用的时间序列数据预测方法主要包括经典统计时间序列模型、机器学习模型及近年来流行的深度学习模型。然而,这些模型在实际应用中往往面临预测准确率不高、参数调整复杂以及预测时间较长等挑战。经典统计时间序列模型如[2] ARIMA (自回归积分滑动平均模型)因其理论基础扎实且解释性强,常被用于线性和稳定时间序列的预测。然而,这类方法对数据的线性假设要求较强,难以捕捉非线性和复杂模式。相较之下,机器学习方法[3] (如支持向量机、决策树和随机森林)通过数据驱动的方式,在无需预设数据分布假设的情况下,能够较好地捕捉数据的非线性关系。但是机器学习模型通常依赖大量特征工程,并且在处理长时间序列预测时可能会遇到特征维度过高、过拟合等问题。此外,由于其参数较多,模型调优过程繁琐且时间开销大。近年来流行的深度学习模型[4] (如长短期记忆网络LSTM、GRU和Transformer模型)在时间序列预测中获得了广泛关注。深度学习方法凭借其强大的自动特征提取能力和对非线性关系的捕捉能力,显著提升了预测准确率。但深度学习模型的高计算复杂度、长训练时间以及对数据量的依赖,使其在某些实际场景中难以落地应用。此外,这类模型在数据较少或不稳定时,预测效果可能不稳定,表现出过拟合现象。
针对上述挑战,本文创新性地提出了一种融合指数平滑与ARMA优势的集成模型(ES-ARMA)。该模型充分利用指数平滑在趋势和季节性特征提取方面的优势,结合ARMA模型对自相关结构的精确刻画能力,不仅显著提升了预测精度,还有效降低了模型复杂度和计算开销。实验结果表明,相比传统统计方法、机器学习模型和深度学习方法,ES-ARMA模型在预测准确率和计算效率两个维度上均实现了显著提升。
2. 时间序列数据分析与预处理
2.1. 时间序列数据分解
时间序列是一组按时间顺序排列的观测数据集合,其核心特征在于数据之间存在显著的时序依赖关系,历史数据中蕴含着未来变化的内在规律。这些规律通常可以分解为趋势性、季节性、周期性和随机性等基本成分。为提升模型的可解释性并深入理解各成分对预测结果的影响机制,本研究采用时间序列分解方法,通过对不同成分的独立建模来提高预测精度。
在时间序列分解方法中,主要包括加法模型和乘法模型两种范式。通过对数据特征的深入分析发现,由于随机项中存在零值,使得乘法模型所依赖的比例关系无法维持。此外,加法模型不仅能够更好地体现各组成部分之间的独立性,还便于后续的模型构建和参数估计。基于上述考虑,本研究选择加法模型作为时间序列分解的基本框架。其具体模型表示为:
(1)
其中,T是趋势项,S是周期项,R是随机项。通常在分解时会将季节项S [t]和周期项C [t]和成一项,因为他们都是用于表示时间序列数据的一种周期性,因此用加法模型对数据分解得到的每项结果如图1所示。
Figure 1. Schematic diagram of additive decomposition of Wordle users time series data
图1. Wordle每日用户数量时序数据的加性分解示意图
从图1可以看出,分解后时间序列模型的趋势项对时间序列的影响因素最大,其数据量级大约在105量级;随机项在2022年5月份之前波动较大,其波动范围大致在104量级,而后波动范围较小,约为103量级;季节项对时间序列数据的影响一直较小,其波动范围约在103量级,这两部分相对而言平稳性比较明显,本文选择用ARMA模型进行建模。此外趋势项对时间序列数据影响最大,占时间序列数据最重要的比重,而且非平稳,本文选择常用的指数平滑模型对其进行建模。
2.2. 时间序列平稳性检验
时间序列的平稳性是指序列的统计特征(如均值和方差)在时间维度上保持稳定,不存在系统性变化。这一性质确保了序列的基本特征具有时间一致性,使得基于历史数据构建的统计规律能够有效地推广到未来预测。在实践中,平稳性检验通常采用单位根检验(Augmented Dickey-Fuller Test, ADF)。平稳性检验可转化为单位根检验问题:若序列
不存在单位根,则可判定该时间序列具有平稳性。其中
的定义如下:
(2)
检验假设表示为:
(3)
如果拒绝
就说明没有单位根。使用统计量:
(4)
其中,
为
的最小二乘估计,当ADF足够小时拒绝
。
3. 基于时间序列分析的预测模型
本文首先对原始时间序列进行分解为趋势项和其他项,将趋势项通过指数平滑进行建模,将其他项通过ARMA模型进行建模,最后将结果累加形成ES-ARMA模型。为了验证模型的有效性,又选取了ARIMA,XGBoost和LSTM模型与其进行对比,并通过检验指标进行检验,具体的工作流程如图2所示。
Figure 2. The working framework diagram of this paper
图2. 本文工作框架图
3.1. 基于指数平滑和ARIMA集成模型(ES-ARMA)建立
3.1.1. 经典模型介绍
(1) 指数平滑ES (Exponential Smoothing)模型
指数平滑是一种常见时间序列数据预测方法,常用的指数平滑方法有一次指数平滑,布朗单一参数指数平滑,霍尔特双参数指数平滑等方法,本文选择了较为常用的布朗单一指数平滑法,其计算公式如下:
(5)
其中,
是平滑常数,通常来说α越接近1,指数平滑拟合效果越好,平滑效果越差。
(2) 平稳时间序列预测模型
经典平稳时间序列预测模型包括AR (Auto Regressive)自回归模型,MA (Moving Average)移动平均模型,ARMA (Auto Regressive Moving Average)自回归移动平均模型,ARIMA (Auto Regressive Integrated Moving Average)自回归综合移动平均模型[2] [3]。
这些模型的数学表达式如下:
(6)
(7)
(8)
由于
模型的前提是数据平稳,因此
模型是基于
模型数据非平稳时的优化处理,该模型将数据进行差分化处理直至数据平稳,其基本原理是利用差分的方法对时间序列数据的趋势性进行消除,其中d是差分次数。
3.1.2. ES-ARMA模型的建立与求解
指数平滑模型仅能刻画趋势项,对随机项和周期项的表现不足,导致预测结果波动偏小。而ARIMA模型通过差分处理会破坏随机项特性,使统计特征复杂化。为解决传统模型所出现的问题,本文提出了一种集成ES和ARIMA模型的方法,有效地解决了上述所提到的传统时间序列模型存在的问题。
因为数据经历ES模型处理过后会变得平滑,此时可以将其看为时间序列数据的趋势项,我们将平滑后的时间序列数据记为
,
可以用来很好的描述原始时间序列数据的趋势项。此时,我们将原始数据
减去指数平滑后的数据记为
,即
,用
作为原始数据使用ARIMA模型进行预测,由于去掉了一个趋势项,往往数据呈现平稳性,不需要进行差分处理,这样就消除了上述差分化方法所存在的问题,最后再将预测值加上之前去掉的趋势项
,作为最终的预测结果。
3.2. ES-ARMA模型超参数确定
3.2.1. 平滑常数α的确定
在ES模型参数选择中,平滑系数α的取值直接影响模型对趋势项的刻画能力。当α趋近于1时,模型虽然能够较好地拟合原始数据,但会过度保留季节性波动和随机扰动成分,这不利于后续对残差序列进行平稳性建模。相反,当α趋近于0时,模型的平滑效果过强,导致对原始数据特征的捕捉不足,从而降低预测精度。因此,α的选择需要在趋势提取和噪声过滤之间取得平衡,以确保模型的有效性。取α = 0.1, 0.5, 0.9得到指数平滑的效果如图3所示。
Figure 3. Exponential smoothing diagram of Wordle daily number data
图3. Wordle每日用户数量数据指数平滑图
通过定量分析不同值对模型性能的影响:
1) α = 0.1时,MSE为67824531.2,趋势捕捉不足;
2) α = 0.5时,MSE为52593276.4,达到最优平衡;
3) α = 0.9时,MSE为61247893.5,过度拟合短期波动;
基于上述分析结果,选择α = 0.5作为最优平滑常数。
3.2.2. ARMA (p, q)阶数的确定
(1) 自相关分析法
为了找出适合于原始数据的模型,我们使用自相关分析法研究时间序列的自相关函数(Autocorrelation Function, ACF)和偏自相关函数(Partial Autocorrelation Function, PACF),以此来识别平稳模型类型并初步确定模型阶数。其中自相关函数估计
和偏相关函数估计
的计算方式为:
(9)
(10)
自相关函数是描述时间序列在不同滞后阶数上相关性的完整度量。它综合反映了序列中的趋势性、季节性、周期性以及随机成分等多个方面的相关结构。从本质上看,ACF刻画了序列中任意两个观测值之间的总体相关性,这种相关性既包含直接关联也包含通过中间项产生的间接关联。偏自相关函数则专注于衡量序列与其特定滞后项之间的纯净相关性,它通过消除所有中间滞后项的影响,揭示了观测值
与滞后k阶项
之间的直接关系。具体而言,PACF测度的是在控制了较短滞后项影响后,序列与特定滞后项之间残余的相关程度。
在AR模型当中,不能直接使用ACF图进行检验,因为即使对于过去很多的滞后项,也就是p值非常大时,也会产生良好的相关性,此时ACF值也是很大,而此时由于特征过多,甚至会遇到多重共线性等问题。而PACF则不存在这种问题,因为它删除了滞后已经解释的成分,此时我们只得到了与残差相关的滞后,当p高于滞后项的个数时,PACF值会急剧的下降,因为之前的滞后项可以很好的捕获模型的变化,并不需要更多的滞后项。
MA模型是序列残差项的线性组合,并且时间序列的滞后项不能直接解释当前项,这时PACF就失去了其最重要的特征。另一方面,由于一个MA模型并没有季节性或者趋势项的成分,因此ACF只会捕捉到由于残差项带来的相关项,因此,当q高于模型阶数时,自相关图会产生拖尾现象。
基于上述分析,可以将模型ARMA (p, q)的ACF和PACF变化趋势理论总结如表1所示。
Table 1. ACF and PACF test theory
表1. ACF和PACF检验理论
自相关函数 |
偏自相关函数 |
模型定阶 |
拖尾 |
p阶拖尾 |
AR (p)模型 |
q阶拖尾 |
拖尾 |
MA (q)模型 |
拖尾 |
拖尾 |
ARMA (p, q)模型 |
(2) BIC信息准则法
对于样本自相关函数和偏自相关函数均存在拖尾的情形,信息准则能够起到很好的识别作用。Akaike在1976年提出BIC信息准则[2],目前被广泛应用于ARMA模型的定阶。BIC准则的基本思想就是将拟合模型的优劣程度转化为衡量拟合模型对观测数据符合程度的似然函数值和模型中未知参数个数两个方面进行综合评定。一方面,未知参数越多,模型越灵活,拟合的准确度也相应的越高,似然函数值越大,表明模型的拟合效果越好,但容易导致参数个数较多;另一方面,未知参数越多,估计的难度增大,过拟合的可能也随之增大。因此,BIC准则综合拟合精度和未知参数的个数之间的相互平衡,计算方法可表示为:
(11)
根据推导,其具体的数学表达式为:
(12)
因而,利用BIC准则进行模型定阶可以表示为如下规则:
(13)
4. 对比模型选择
为了进一步突出ES-ARMA模型在Wordle单词报告数据集上的预测效果,本文选取了传统统计学模型、集成机器学习模型、和深度网络模型三大常用于时间序列数据预测的模型对Wordle单词报告数据集进行预测,将预测效果与ES-ARMA模型进行对比。
4.1. 统计时间序列模型ARIMA (p, d, q)
ARIMA模型是描述平稳随机序列最常用的一种模型[3],博克斯和詹金斯为其提供了一种对时间序列进行分析预测,以及对ARIMA模型识别、估计和诊断的系统方法,在统计上有着完善和牢固的理论基础。
4.2. 深度网络时间序列模型LSTM
近年来,递归神经网络(Recurrent Neural Networks, RNNs)由于其强大的时序建模能力而被广泛应用于时间序列预测领域。其中长短期记忆(Long Short-term Memory, LSTM)神经网络由于避免了梯度消失和爆炸的问题,成为RNNS最成功的变体之一[4]。因此,在深度网络领域对比模型的选择中,本文选取LSTM模型对时间序列进行预测。具体算法结构如下:
长短期记忆网络(Long Short-Term Memory, LSTM)是递归神经网络(RNN)的一种高级变体,通过创新性地引入记忆单元和门控机制来增强网络的长期依赖学习能力。其核心架构包含细胞状态和三种门控单元:遗忘门、输入门和输出门[5]。这种精心设计的门控结构使LSTM能够自适应地控制信息的存储、更新和遗忘,有效克服了传统RNN在长序列训练中面临的梯度消失和梯度爆炸问题。通过可控的自循环连接机制,LSTM不仅能够捕获序列数据中的长期依赖关系,还能动态调节不同时间尺度上的信息流动,从而在时序预测任务中展现出优异的性能[6] [7]。
LSTM当前时刻的隐藏层输出
和细胞状态
由上一时刻的隐藏层输出
、细胞状态
与当前时刻的输入
协同决定。LSTM的创新之处在于,随着细胞元状态
从左至右贯穿LSTM结构,序列数据先经过遗忘门筛选掉部分信息,再通过输入门添加需要新增的数据,而长期状态
直接输出。在LSTM结构的每个节点,不断有数据筛选和增加,并且可以通过输出门结构来判断长期状态中的有效信息和无效信息,进行过滤进而形成短期状态
。然后,依据训练出的LSTM模型可以对未来用户报告数量进行预测。具体结构见图4。
Figure 4. LSTM unit structure
图4. LSTM单元结构
4.3. 基于数据驱动的Boosting预测模型
时间序列预测可视为基于历史数据的回归问题。Boosting作为一种重要的集成学习方法,最初由Schapire提出[8],其核心在于通过组合多个弱学习器来构建强学习器。本研究采用XGBoost (eXtreme Gradient Boosting) [9]算法,这是一种高效的Boosting实现,其在处理时序数据的非线性特征方面具有显著优势。
用机器学习Boosting算法对未来数据的预测主要是基于对现在数据中隐藏的规律进行学习,依照学习的模型对未来进行预测[10]。从本质来讲,就是一种非线性拟合数据的方法。具体输入
,通过输出的回归树,对未来的
进行预测。
XGBoost算法是陈天奇在针对GBDT算法要求巨大计算能力的这个问题下在原有梯度提升算法做的进一步改进,其通过二阶泰勒展开和正则项展开优化,解决了GBDT的计算复杂度和过拟合问题。本文选取XGBoost这种常见的Boosting模型作为数据驱动的对比模型。
Figure 5. ACF and BCF order determination variation chart
图5. ACF和BCF定阶变化图
5. 不同模型求解结果分析
5.1. ES-ARMA模型定阶
(1) ACF和PACF
通过计算差分后的数据,得到ACF和PACF的变化如图5所示。从图5可以看出ACF和PACF均有拖尾现象,因此要选择ARMA (p, q)模型,但由于此时很难从自相关图和偏自相关图中确定是从几阶开始拖尾,因此需要通过BIC准则进一步定阶。
(2) BIC准则
基于2.3.2的定阶方法,可以得到ARMA模型BIC热图如图6所示。由图6中的结果分析可知,根据BIC信息最小的准则最终确定ARMA模型参数为p = 6和q = 5。
5.2. ARIMA模型定阶
相比于我们提出的ES-ARMA模型,传统的ARIMA模型是用差分法来使时间序列数据变得平稳,然后在进行回代求解。对差分数据进行ADF检验,得到检验结果如表2所示。分析发现在5%的置信区间下,原始数据就已经是平稳数据,因此我们的模型差分阶数d = 0。同样基于2.3.2节的定阶方法,可以最终确定传统ARIMA (p, d, q)模型的参数分别为4,0,3。因此选择ARIMA (4, 0, 3)作为对比预测模型。
Table 2. ADF test results
表2. ADF检验结果
|
ADF |
p值 |
置信区间(5%) |
原始数据 |
3.8667 |
0.0023 |
−2.87 |
一阶差分数据 |
4.2418 |
0.0006 |
2.87 |
Figure 6. BIC heat map
图6. BIC热图
5.3. ES-ARMA模型求解
原始数据减去ES模型趋势项得到
,经ADF检验方法,
,
已呈现平稳性,可直接用ARMA建模。最终预测结果为ARMA预测值加回趋势项
。
5.4. 不同模型预测结果分析
Figure 7.
data prediction chart
图7.
数据预测图
如图7所示,本文提出的ES-ARMA模型相比于GBRT、XGBoost、LSTM和ARIMA等对比模型展现出了显著的性能优势。从预测曲线可以观察到,该模型不仅在整体趋势的把握上表现出色,尤其在2022-12-01日谷值前后的预测结果更为准确,体现出了较强的预测稳定性。
在对比模型中,XGBoost模型在峰值区域表现出对局部波动的良好拟合能力,这可能归因于其丰富的模型参数能够更好地捕捉数据中的微小波动与扰动。然而,该模型存在波峰预测偏移和整体曲线波动过大的问题,表明模型可能过度拟合了训练数据中的局部特征,从而影响了其整体预测效果。这一现象也反映出在时序预测任务中,模型的泛化能力与预测稳定性同样重要,具体结果如图8所示。
Figure 8. Schematic diagram of sequence prediction results of different comparison method
图8. 不同对比方法的序列预测结果图
5.5. 误差结果分析
为了便于进一步分析不同模型预测效果的好坏我们引入四种评价回归模型的指标,并对不同模型的回归指标进行分析。
5.5.1. 均方误差(Mean Square Error, MSE)
均方误差是回归模型评价最常用的指标,其由于是平方项构成而是凸函数,便于进行优化求解,MSE值越小表示模型越好,其定义如下:
(14)
5.5.2. 均方根误差(Root Mean Square Error, RMSE)
当数据的数量级比较大时,MSE往往会过大,不利于比较,均方根误差在保留均方误差的特性同时,能有效降低评价指标的数量级,RMSE越小表示模型越好,其定义如下:
(15)
5.5.3. 平均绝对误差(Mean Absolute Error, MAE)
平均绝对误差用来衡量预测值与真实值之间的绝对误差,MAE越小表示模型越好,其定义如下:
(16)
5.5.4. 决定系数(R-Square, R2)
决定系数能够有效的评价模型选用的准确度,取值越接近1,表示模型的回归效果越好,其定义如下:
(17)
实验设置:题目给定的数据集共有365个时刻点数据,将前80%数据作为训练集,后20%作为测试集。将上述四种模型在训练集上进行训练,通过比较四种误差评价指标,各个方法的始终对比指标结果如表3所示。
由表3结果可知,相比于其他四种模型,LSTM模型的回归效果较差,这是因为在数据量较小的情况下,传统统计模型往往相对于大型网络模型会表现出更好的性能;在本文的数据中,传统统计模型ARIMA和基于数据驱动的Boost模型在性能上相近。但本文所提出的ES-ARMA模型在四种评价指标上均超越了其他三种模型,这充分说明本文对时间序列数据趋势项重新建模的有效性。
Table 3. Comparison results of performance effects of different sequence prediction models
表3. 不同序列预测模型的性能效果对比结果
对比方法 |
MSE |
RMSE |
MAE |
R2 |
ARIMA |
52593276.4 |
7252.12 |
4298.20 |
0.9934 |
XGBoost |
57114838.3 |
7557.44 |
3797.04 |
0.9928 |
LSTM |
164,388,482 |
12821.41 |
7279.33 |
0.9794 |
ES-ARMA |
29310721.4 |
5423.17 |
3262.01 |
0.9967 |
提升比例 |
44.27% |
25.22% |
13.18% |
0.33% |
在模型性能的系统对比中,ES-ARMA模型展现出显著的有效性。从均方误差(MSE)和均方根误差(RMSE)的角度来看,ES-ARMA分别为29310721.4和5423.17,优于其他对比模型,尤其是LSTM,其MSE达到164,388,482且RMSE为12821.41,指示出更高的预测误差。尽管ARIMA和XGBoost在决定系数(R2)上表现良好,分别为0.9934和0.9928,ES-ARMA的R2值达到0.9967,进一步证明了其在数据拟合能力上的卓越性。此外,绝对误差(MAE)方面,ES-ARMA以3262.01的数值低于其他模型,彰显了其在预测精度上的明显提升。综合分析结果表明,ES-ARMA模型不仅在各项性能指标中均表现优异,在实际应用中具备广泛的适用性和潜在价值。
5.6. 预测区间的求解
由于在ES-ARMA模型中ES模型是对趋势项建模,如果
是正态序列,其本身的随机性还是来自ARIMA模型,因此在计算预测区间时方差只ARIMA模型的方差。如果
则
作为
的线性组合服从正态分布
,
(18)
得到
置信度为0.95的预测区间:
,其中
(19)
其中
递推的顺序是
(20)
通过对上述模型求解,最终得到2023-03-01时的用户报告数量区间为:
6. 结语
6.1. 模型的优点
(1) 兼顾传统统计模型与机器学习、深度学习等数据驱动模型,选用四种模型评价指标从多角度去评价模型的性能,进一步突出了本文所设计的ES-ARMA模型的实际意义。
(2) 对结果及其产生原因进行了一定的理论分析,虽然集成机器学习模型和深度神经网络都有着较复杂的网络结构和大量参数,但在本文较少的数据量中,传统的统计模型却展现着更好的性能,在一定程度上为其他预测问题提供了方向。
6.2. 模型的缺点
在ES-ARMA模型中,趋势项的建模方法可进一步拓展,如采用灰色预测、生长曲线甚至深度网络等方法进行对比分析。然而,由于数据样本量的限制,难以对复杂的深度网络模型进行有效训练。此外,模型中存在多个需要人工调节的超参数,这在一定程度上制约了模型的自动化分析能力。
6.3. 总结与展望
本文基于时间序列分析方法,针对数据维度小、趋势项明显的特点,提出了ES-ARMA预测模型。通过与ARIMA、LSTM和XGBoost等模型的对比实验表明,ES-ARMA模型在全部四项评估指标上均展现出优越性能。研究结果表明,尽管基于数据驱动的复杂网络模型是当前回归预测领域的主流方向,但在特定场景下(尤其是小样本数据集),基于统计分析的时间序列模型可能更具优势,这为相关领域的研究提供了新的思路[11]。此外,本文提出的ES-ARMA模型还有效解决了传统ARIMA模型中差分运算导致的随机项方差性质改变问题。未来研究将探索更多样化的趋势项建模方式,引入深度学习模型进行对比分析,同时扩展数据集类型以验证模型的泛化能力。
NOTES
*通讯作者。