1. 引言
近年来,随着我国综合国力的全面提升,经济的快速发展,以及改革开放取得的一系列重大成就,我国全球影响力日益提升,与此同时我国入境旅游人数也大幅增长。据《中华人民共和国文化和旅游部2018年文化和旅游发展统计公报》所示,2018年全年我国国内旅游人数55.39亿人次,比上年同期增长10.8%;入境旅游人数14,120万人次,比上年同期增长1.2%;全年实现旅游总收入5.97万亿元,占GDP比重6.6%,纳入统计范围的全国各类文化和旅游单位31.82万个,从业人员375.07万人。由此可见,旅游业的发展不仅对中国经济的发展有重要作用,而且也能很大程度上增加我国的就业人数,对其他行业中也有重要的影响,所以预测我国游客人数在一定程度上具有重要意义。
本文以我国入境旅游人数为例,对其进行时间序列分析并预测,进而分析在我国旅游市场需求情况、市场竞争日趋激烈的环境下,我国入境旅游人数近三年的趋势,以及未来的发展情况,判断我国旅游产业的对外吸引力和影响力,给我国旅游业提供一定的参考。入境游客流量的准确预测有助于我国旅游部门制定相应的政策,资源合理配置,对客流进行合理分散导流,从而促进我国旅游业更好的发展 [1] 。因此,这在经济全球化进一步加快的大背景下,也有着极大的理论意义和较强的现实意义。
2. 研究方法
2.1. ARIMA模型
具有如下结构(公式1)的模型称为差分自回归移动平均模型 [2] ,简记ARIMA (p, d, q),ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程,差分次数为d。ARIMA模型的公式如下为:
(1)
上式中自回归系数用
表示,自回归阶数用p表示,
是移动平均系数,q是移动平均阶数,时间序列y当期值用yt−1表示,yt−1表示yt前一期的值,yt−2则为yt−1前一期的值,依次类推,误差项是当期随机干扰εt,为零均值白噪声序列。建立ARIMA模型过程如下:
1) 原始数据预处理
首先对原序列进行平稳性检验,如果远序列不平稳,通过差分或者取对数处理,或者取对数后再差分,而一般差分不超两次。
2) 模型阶数识别
通过自相关图和偏自相关图确定大致p、q值,同时比较AIC的大小,选择AIC最小时的阶数作为模型阶数。
3) 模型参数估计
对确定好阶数的模型进行参数估计。由于游客人次时间序列可能包含季节因素,所有带季节性的 ARIMA模型可能更能放映我国入境游客人数时间序列的特征。
4) 模型检验
残差序列白噪声检验,如果残差ADF检验没通过,或者残差图形不符合正太分布,那么模型是有效的,就进行预测,否则需要考虑对模型进行重新定阶和参数估计。
5) 使用模型预测
经过以上步骤,使用最终得到有效、合理的模型预测。
2.2. LSTM神经网络
LSTM网络是一种特殊RNN (Recurrent Neural Networks)网络(递归神经网络)类型 [3] ,长期记忆单元(LSTM)于1997年被Sepp Hochreiter和Jurgen Schmidhuber提出,然后被Alex Graves、Haim Sak和Wojciech Zaremba等人逐步改进。LSTM公式如下:
(2)
其中时间序列y的当期值为yt,时间序列y的影响因素x的当期值用xt表示,时间序列y前一期的值为yt−1,权重为w,转换参数为u。
一般的RNN只能与前面若干序列有关,若一过十步,就很容易产生梯度消失或者梯度梯梯问题。产生梯度消失是因为导数的链式法则导致了连乘,造成梯度指数级消失。长短时记忆神经网络正是为了解决局部最优解这个问题而发展出来的,其每一层都设计有多个“GATE”结构的神经元,该结构使得模型得到进一步改善,即误差在整个向后传递的过程中,有一部分可以直接通过“GATE”,而不需要受到当前神经元的影响,在这种情况下,下一层神经元就能完全接收到完整的误差,优化的结果就是,无论梯度的传播路径有多么长,它都不会完全消失或者下降为零,因此它具有良好的收敛性。
LSTM的基础结构和RNN基础结构一样,但是RNN与LSTM其中不同之处在于,在神经元结构中RNN只有一层tanh层,而LSTM的神经元结构要更复杂。LSTM在每个神经元结构内部设置了三个门,分别是输入门、输出门和遗忘门。LSTM结构中的三层门中遗忘门是解决RNN存在梯度消失问题的关键。
首先,当前输入向量x(t)和前一个短期状态h(t−1)被输入到四个不同的全连接层。它们都有不同的目的:
主层是输出为g(t)的层。它的基本作用是分析当前输入x(t)和前一个短期状态h(t − 1)。基本单元中就只有这一个层,它直接输出y(t)和h(t)。相比之下,LSTM单元没有直接输出,而是将部分输出存储在长期状态中。其他三个层是门限控制器。因为使用了逻辑激活函数,它们的输出范围在0到1之间。它们的输出被输入到元素智能乘法操作中。因此如果输出是0,那么门限关闭;如果输出是1,那么门限打开。特别是:
遗忘门限(由f(t)控制)控制着哪些长期状态应该被丢弃。
输入门限(由i(t)控制)控制着g(t)的哪些部分会被加入到长期状态(这就是我们说只是“部分存储”的原因)。
最后,输出门限由o(t)控制着哪些长期状态应该在这个时间迭代被读取和输出h(t)和y(t)。
简而言之,LSTM单元可以学习识别重要输入(这是输入门限的职责),将其存储到长期状态中,学习需要时保存它(这是忘记门限的职责),以及学习需要的时候提取它。这就解释了它为什么能够成功捕捉到时间序列中的长期模式、长文字、录音等。
3. 实证研究
本文所采用的数据来于《中国旅游统计年鉴》,2014年1月至2015年12月共24个月的数据作为训练集,2016年1月至2016年12月份的数据作为测试集,利用Python语言构建模型。并利用时间序列分析中的ARIMA模型、LSTM神经网络对我国入境游客人数进行预测。获取数据见图1:

Figure 1. 2014~2016 China inbound number curve
图1. 2014~2016我国入境人数曲线
由上图可以看出,进三年我国入境游客人数整体呈上升趋势,部分月份人数比较少,可能有一定的季节性,后续需要对数据进行一定的处理。
3.1. ARIMA模型的建立过程
首先对入境游客人次时间序列进行ADF检验,检验原序列的平稳性 [4] ,结果(如表1)所示P > 0.05,在0.05的显著性水平下,原序列不平稳;差分后的序列ADF检验结果见表1所示,差分次数d = 1时ADF检验P值小于0.05,模型平稳。

Table 1. ARIMA stationarity test results
表1. ARIMA平稳性检验结果
通过自相关图和偏自相关图初步确定p、q值的大小 [5] ,将初次确定的p、q值带入模型进行预测(见图2),根据AIC最小原则,不断调整p和q的大小,同时考虑旅游时间存在旺季和淡季,即是说将季节因素考虑到模型中,最终确定的游客人次ARIAM模型为ARIMA (1, 1, 0) (见表2)。

Figure 2. Autocorrelation and partial autocorrelation graphs
图2. 自相关和偏自相关图
ARIMA模型的残差序列的Ljung-Box检验结果的p值依次为0.459 > 0.05,在0.05的显著性水平下,残差序列为白噪声,表明所构建的模型是有效的(见图3)。
从QQ图看出残差服从正太分布,残差序列为白噪声,再次表明所构建的模型是有效的。
ARIMA模型预测(见表3)我国入境游客数RMSE (均方误差)为69.0974129198503,由图4也可以直观的看出,ARIMA模型对于数据的拟合效果并不是很好,只能提前部分信息,预测效果不是很好。

Figure 4. 2014~2016 ARIMA prediction curve
图4. ARIMA预测图
3.2. LSTM神经网络的建立过程
本文基于Python的深度学习框架Keras来实现LSTM算法 [6] ,选用滚动划窗式的神经网络,输入是序列前12个月,例如2014年1月至12月作为输入,2015年第1个月作为输出,2014年第2个月至2015年第2个月作为输入,2015年第2个月作为输出,后面依次类推。
本文构建的LSTM网络为三层的浅层网络 [7] ,将输入数据进行归一化处理,然后进行训练,最后再将输出结构反归一化,计算评价指标是均方误差(RMSE),RMSE越小,说明预测值与真实值越接近,预测的效果越好,训练集和测试集的评价指标分别反映模型的拟合能力和预测能力。
由图5可以看出,LSTM模型对数据的拟合非常好 [8] ,与真实结果非常接近(见图4),由于LSTM模型不需要考虑模型的内部结构,学习能力和自适应能力都很强,给定数量的训练样本,反复学习训练样本的规律,学习到输入和输出之间的关系,从而实现相对较高的预测精度(见表4),在没有人工干预情况下 [9] ,具有较强的客观性。

Figure 5. 2014~2016 LSTM prediction curve
图5. LSTM预测图
3.3. 模型对比分析
先利用ARIMA模型对序列进行预测,再利用LSTM网络对序列进行预测见表5可知入境游客人次序列的LSTM网络的训练集和测试集的RMSE和比ARIMA的低,表明了LSTM神经网络比神经网络和ARIMA预测更准确,LSTM模型预测精度比ARIMA高22.981%。

Table 5. ARIMA and LSTM comparison of prediction accuracy
表5. ARIMA与LSTM预测精度对比
4. 结论
本文分别利用Python建立ARIMA模型和基于Keras深度学习框架建立LSTM神经网络模型对我国入境游客规模进行预测 [10] ,并利用入境游客人数序列对模型进行了验证,通过实证研究,总结出以下结论:第一,LSTM神经网络考虑了时间因素,由于使用深度学习方法预测入境游客人数减少了人为因素的干预,且具有自动融合复杂因素的潜力,对我国入境游客人数预测与真实输出在总体趋势上均能达到一致,较ARIMA对数据的拟合更好 [11] ,所以动态神经网络LSTM比ARIM更适合我国入境游客人数预测。第二,基于LSTM的模型比ARIMA模型对入境游客人次的预测更准确,LSTM模型预测精度比ARIMA高22.981%,所以和前人用静态神经网络进行时间序列的预测相比,动态神经网络预测我国入境游客规模会相对更合理 [12] 。本文建立的LSTM模型能对未来一段时间我国入境游客人数进行预测,能为相关管理部门进行资源优化配置、提升管理效率提供一定的参考。但如果希望更准确地预测我国入境游人数,只使用历史数据是不够全面的,由于入境游客规模受多种因素的影响 [13] ,如国家政策、经济发展、突发事件、地理环境等,所以更精确预测我国入境游客人次还应考虑更多其他因素。此外本文只使用了近两年的数据,没有使用更多的数据预测,同时该模型也存在一定的缺点和不足,特别是模型相对较单一,缺乏我国入境游客人数与其他对象之间的内在关系研究 [14] ,例如入境游客规模与GDP、第三产业发展、人均收入等的相关性关系研究,这也是下一步研究的重点。
致谢
感谢本文撰写期间导师对我的辛苦指导,以及同学们的热心帮助。也要感谢参考文献中的作者们,通过他们的研究文章,使我对研究课题有了很好的出发点。再次感谢。
参考文献