1. 引言
客运量是指在一定时期内,各种运输工具实际运送的旅客数量,是反映航运企业一定时期内运送旅客人数的指标。近年来,随着经济水平的不断提高以及科学技术的不断发展,民航业取得长足进步,正逐步走近人们的生活中。截止到2019年底,民航业完成旅客运输量65993.42万人次,比2018年增长7.9%,继续保持近年来高速发展水平。但是,自疫情爆发以来,我国民航业受到巨大冲击,期间实施的减少民众外出等一系列政策措施在一定程度上影响民航业的发展。民航客运量作为衡量民航业发展的重要指标,不仅在一定程度上反映民航系统的运转情况,而且能够帮助民航部门合理配置资源、制定运输计划。因此,在当前这个关键时间点上,对我国民航客运量的预测与研究显得尤为重要,不仅能了解疫情对民航业的具体影响,而且可以为民航部门未来一段时间的运输计划及资源配置提供参考和建议。
自二十世纪以来,客运量预测问题成为诸多学者关注的热点,取得了较多的研究成果。目前,对客运量预测的研究方法主要有传统时间序列方法和机器学习方法两种方法。传统时间序列方法指通过对历史数据的分析揭示时间序列蕴含的发展规律,进而对未来短期的数据展开预测。该方法下构造出的ARIMA等一系列模型简单高效,在客运量的预测中得到广泛地应用。陈文华(2006) [1] 在运用一阶差分提取公路客运量年度数据所含有趋势效应的基础上运用ARIMA模型对未来几年浙江的公路客运量展开预测。虽然该模型在年度客运量预测表现较好,但是由于年与年之间涉及时间间隔太大,不能快速、充分地反映客运量中所蕴含的市场变化和有效信息,因此需对序列时间间隔进一步缩小。由于相比于年度客运量数据,月度客运量数据还会表现出季节效应或周期效应,郝军章(2015) [2] 在运用时序图对月度数据进行基本分析的基础上,经过对原序列逐期差分和季节差分的处理,建立ARIMA乘法模型对未来3个月的数据展开预测,虽然该模型能够充分提取月度客运量时间序列的趋势效应、季节效应以及随机效应,从而对未来客运量的数据展开科学预测,但是其残差序列可能会具有异方差性,从而导致其模型残差的方差估计不准确的现象。针对此问题,赵芳卉(2021) [3] 加入GARCH模型消除ARIMA乘法模型可能存在回归残差的异方差问题,进而使客运量的预测精度得到更进一步的提升。
随着人工智能技术的日益发展,机器学习方法逐渐出现在客运量预测的研究中,如李思如 [4] (2021)在对序列数据进行归一化处理以及对训练集和测试集进行划分的基础下,使用LSTM模型对未来几个月的民航客运量展开预测。相比于ARIMA模型,机器学习模型凭借其对已有样本特征的充分学习和训练,能够充分提取序列中ARIMA模型难以提取的非线性特征,进而得到更好的预测效果,但是其模型解释性较差,且容易出现过拟合的问题。针对传统时间序列模型和机器学习模型存在的优点和不足,不少学者从组合预测的角度切入展开深入研究,其组合思路 [5] 主要分为两种:一种为在运用传统时间序列模型和机器学习模型得出客运量预测值的基础上,通过等权重法、简单加权、方差倒数等方法对各个预测值加权组合的并联式组合模型方法 [6] [7] ,另一种为在运用ARIMA系列模型对客运量预测的基础上,运用机器学习方法对其残差序列展开拟合和预测,进而通过两者的线性求和得到预测精度更高的客运量预测结果的串联式组合模型方法。这两者组合方法相比于单一模型,能够充分利用传统时间序列模型和机器学习模型的优势,提高预测的准确性、鲁棒性和全面性。
综合上述分析,目前学者对客运量预测的研究逐步形成一套较为完备的研究方法体系,能够很好地对未来的客运量科学而精确地预测。但是,现有文献大多数都是使用疫情前的客运量数据,鲜有文献在对客运量预测中定量考虑到新冠疫情对客运量的影响。针对这一研究缺口,本文从干预分析的角度去切入,在运用SARIMA模型对2020年未发生疫情情况下民航客运量展开预测的基础上,运用干预模型对疫情发生后带来的民航客运量趋势变动进行拟合和分析,进而对疫情发生后未来的民航客运量展开预测。
2. 数据来源及描述性分析
2.1. 数据来源
考虑到足够的样本数量是保证模型预测精确的基础保障,本文选取了2007年1月到2021年12月月度民航客运量时间序列数据。由于在2020年1月30日,世界卫生组织宣布新型冠状病毒肺炎疫情 [8] 被列为“国际关注的公共卫生紧急事件”,本文选取2020年1月30日作为干预事件的发生时间点,因此可将数据分为两个时期:第一个时期为2007年1月到2020年1月(新冠疫情发生之前),第二个时期为2020年2月到2021年12月(新冠疫情发生之后)。以上数据均来自中国经济社会大数据平台的国家统计局进度数据库。
2.2. 描述性分析
运用excel中“图表”功能绘制民航客运量的时序图,其结果如图1所示:
通过图1可以看出,民航客运量在2007年1月~2021年12月整体上呈现出先上升后下降的趋势。得益于全球经济的发展和航空业的扩张,在疫情爆发前民航客运量一直呈现稳定增长的态势,但是,自2020年初以来,随着疫情的爆发和世界各地的旅行限制、封锁措施以及人们对旅行的担忧,航空公司遭遇了前所未有的挑战,航班的取消、航线的减少以及旅客需求的大幅下降导致了客运量的迅速萎缩。
尽管疫苗的研发和推广取得了一定的进展,使得民航客运量在疫情爆发后略有了一定回调趋势,但新冠病毒的变异和全球疫苗接种进度的不均衡仍然对航空业造成了持续的影响。旅行限制、健康检疫措施和乘客需求的不确定性仍然存在,这使得恢复到疫情前的客运量水平变得困难。因此,若想对疫情后客运量的数据展开科学准确地预测,定量描述疫情对客运量的影响关系是必不可少的一部分。

Figure 1. Time series of monthly data of civil aviation passenger traffic from January 2007 to December 2021
图1. 2007年1月~2021年12月民航客运量月度数据时序图
3. 基于SARIMA模型对民航客运量的预测
3.1. 模型选择
在民航客运量的预测中,常用的方法有传统时间序列分析方法和LSTM、RF等机器学习方法,考虑到民航客运量数据集样本量较少,且相比于机器学习算法,ARIMA系列模型简单高效,具有良好的可解释性,本文选择使用ARIMA系列模型对民航客运量序列进行拟合并对未来民航客运量进行预测。
考虑到该时间序列呈现明显的线性趋势效应,对原序列展开一阶差分处理并依次绘制其时序图及原序列及一阶差分序列自相关图,具体结果分别如图2,图3所示。

Figure 2. Autocorrelogram of the original civil aviation passenger volume series
图2. 原民航客运量序列的自相关图

Figure 3. Timing diagram and autocorrelation diagram of first-order difference sequence (left is the timing diagram, right is the autocorrelation diagram)
图3. 一阶差分序列的时序图和自相关图(左为时序图,右为自相关图)
通过图1~3可以看出,在疫情发生之前(2020之前),该时间序列呈现明显的趋势效应和季节效应,具体表现出的时间序列特征如下:
1) 该时间序列呈现增长的趋势效应。如图2可知,原始序列的自相关图在56阶之前持续为正,56阶之后持续为负,呈现明显倒三角特征,结合时序图说明该序列具有增长的趋势效应。
2) 该时间序列呈现夏季偏高,冬季偏低的季节效应特征。通过图3可知,在经过差分处理消除原序列趋势效应的基础上,原序列的时序图和自相关图均呈现一定的季节周期特征。通过观察对比每年各个月的数据,可以看出在1年中7,8月的数据相对是最高的,而1,2月的数据相对是最低的。由于7,8月正值学生暑假时期,且夏天少雨,人们倾向于选择在夏季进行长途旅行、探亲访友或度假,从而推动了客运量的增加,而1,2月份天气寒冷,节假日较少且春节机票价格相对较贵,因此这段时间的客运量会相对减少。
3) 该时间序列的趋势效应和季节效应具有一定的相关性。通过图1时序图可以看出,随着趋势的递增,每个周期波动范围也逐步扩大,呈现喇叭形的形状,说明其趋势效应和季节效应具有一定相关性。
基于疫情前客运量序列数据表现出的特征,本文选择运用SARIMA乘法模型构建未发生疫情下客运量的预测模型。
3.2. 模型的建立与检验
3.2.1. 差分平稳化
通过python对一阶差分序列再进行12步的周期差分,力求提取原序列季节效应。差分后序列的时序图和自相关图如图4所示。
通过图4左边时序图可以看出,经过一阶12步差分之后,客运量围绕在0值附近,在[−600, 600]的范围内波动,且没有明显的周期效应和趋势效应,结合图4右边自相关图显现出除0阶,1阶,11阶,12阶之外,其他各阶自相关系数均落在两倍标准差范围内,且没有倒三角和周期现象的特征规律,可初步判断一阶12步差分变换充分提取原序列中蕴含的趋势效应和季节效应,从而使序列平稳化。
考虑到运用时序图和自相关图检验来判断该序列的平稳性具有一定主观性。为了使检验结果更加客观准确,本文引入ADF单位根统计量进一步辅助判别。ADF单位根统计检验结果如表1所示。

Figure 4. Timing and autocorrelation diagrams of a first-order 12-step difference sequence (left is the timing diagram, right is the autocorrelation diagram)
图4. 一阶12步差分序列的时序图和自相关图(左为时序图,右为自相关图)

Table 1. ADF test results for the 1st order 12-step difference series
表1. 一阶12步差分序列的ADF检验结果
如表1可知,类型一和类型二中几乎所有的统计量P值均小于0.05,在显著水平为0.05的情况下,拒绝原假设,可以确定该序列经过一阶12步差分后使序列平稳化。
3.2.2. 纯随机性检验
运用LB统计量对原始序列展开纯随机性检验,得出的结果如表2所示;

Table 2. Results of the pure randomness test for the LB statistic of the first-order 12-step difference series
表2. 一阶12步差分序列的LB统计量纯随机性检验结果
如表2可知,各阶延迟下LB统计量的P值均小于0.05,拒绝序列为纯随机序列的原假设,说明该一阶12步差分后的序列为非白噪声序列,具有短期相关性的特点。
3.2.3. 模型定阶
绘制一阶12步差分序列的自相关图和偏自相关图对SARIMA模型进行定阶,具体结果如图5所示。

Figure 5. Autocorrelation and partial autocorrelation plots of first-order 12-step difference series (left autocorrelation plot, right partial autocorrelation plot)
图5. 一阶12步差分序列的自相关图和偏自相关图(左自相关图,右偏自相关图)
结合图5的自相关图和偏自相关图,最终可使用ARIMA(0,1,1) × (0,1,1)12作为本文的预测模型,考虑到图示定阶法具有一定的主观性,本文设计ARIMA(0,1,1) × (0,1,1)12,ARIMA(1,1,1) × (0,1,1)12,ARIMA(1,1,1) × (1,1,1)12,ARIMA(0,1,1) × (1,1,1)12四个模型,通过BIC准则选取四个模型相对最优的模型作为最终的疫情前民航客运量的拟合和预测模型,四个模型对应的BIC值如表3所示。

Table 3. BIC values of the four models
表3. 四个模型的BIC值
如表3可知,ARIMA(1,1,1) × (0,1,1)12乘法模型BIC信息量较小,是四个模型中相对最优的模型。因此,下文将运用ARIMA(1,1,1) × (0,1,1)12模型展开参数估计、模型检验与预测。
3.2.4. 参数估计
在对模型进行定阶的基础上,运用最小二乘估计方法对模型进行参数估计,得出的结果如表4。

Table 4. Parameter estimation and significance test results of ARIMA(1,1,1) × (0,1,1)12 model
表4. ARIMA(1,1,1) × (0,1,1)12模型的参数估计及显著性检验结果
通过表4可以看出,使用最小二乘估计得出模型的口径为:
(1)
此外,从表4可以看出,各参数统计量对应的P值均小于0.05,通过了参数的显著性检验。
3.2.5. 模型检验
为进一步保证上述构造的ARIMA(1,1,1) × (0,1,1)12模型显著有效,能充分提取民航客运量的信息,利用LB统计量对其残差项进行纯随机性检验。纯随机性检验结果如表5所示。

Table 5. Significance test results of ARIMA(1,1,1) × (0,1,1)12 model
表5. ARIMA(1,1,1) × (0,1,1)12模型的显著性检验结果
如表5可知,该模型各阶延迟下LB统计量的P值均显著大于0.05,可认为该拟合模型的残差序列属于白噪声序列,即拟合模型通过模型有效性检验。
3.3. 模型的预测与评价
基于上文构建得出的ARIMA(1,1,1) × (0,1,1)12预测模型,对未来24个月(2020年1月~2021年12月)未发生疫情情况下我国的民航客运量展开预测。2020年1月~2020年5月的预测值和预测区间如表6所示:

Table 6. Forecast values and forecast intervals for January~May 2020 in the absence of an outbreak
表6. 未发生疫情情况下2020年1月~5月的预测值和预测区间
通过python中plt库,将2007年1月~2019年12月的序列实际值,序列拟合值以及2020年之后的序列预测值及实际值联合作图,绘制得出的图像如图6所示:

Figure 6. Fitting and forecasting effect of the series of civil aviation passenger traffic in China
图6. 我国民航客运量序列的拟合和预测效果图
通过图6可以看出:
1) 在拟合区域中,每个序列时间点的拟合值与真实值的差异较小,且拟合曲线均落在95%置信区间的范围之内,说明该乘法模型对未发生疫情前民航客运量序列数据的拟合效果较好。
2) 在预测区域中,该拟合模型对未发生疫情时期客运量的预测精度较高,但从2020年2月疫情爆发之后,预测时间点真实值远远比实际值预测值小,其实际曲线均落在95%预测区间范围之外,间接说明新冠疫情的爆发导致民航客运量的大幅减少,使得民航业发展受到一定的困扰。
4. 基于干预模型衡量疫情对民航客运量的影响程度
4.1. 干预问题分析与有效性检验
近年来,新冠肺炎疫情事件对人们生活和社会经济造成不同程度的冲击,阶段性地影响着人们日常生活和社会发展。飞机作为我国重要交通工具,其疫情后客运量变化能够较为直观地体现新冠疫情事件对人民生活的影响,研究分析疫情对客运量的冲击程度和发展趋势有利于更好预防和应对将来疫情对客运量可能造成的影响。
突发事件对客运量的影响实际上是一个突发事件的干预问题 [9] ,这种干预可以运用干预分析模型 [10] ,从定量角度评估新冠疫情干预事件对民航客运量的影响。
干预分析模型在客运量上的预测过程 [8] 如下:
假设
为疫情后民航客运量的某个指标值,
表示无疫情干预影响时的民航客运量值,
为疫情干预影响值,则可以构造(2)式:
(2)
式中,
为疫情前后民航客运量的真实值,由于上文构建ARIMA(1,1,1) × (0,1,1)12对疫情前民航客运量数据的拟合效果和预测效果表现良好,因此将
近似为SARIMA模型得出的民航客运量预测值。
通过式(2),可以提取出2020年2月以后疫情干预的影响趋势,为进一步检验疫情对民航客运量的影响是确切存在的,本文首先使用LB统计量对干预影响趋势进行纯随机性检验。纯随机性检验的结果如表7所示。

Table 7. Results of the pure randomness test for the LB statistic of the intervention impact series
表7. 干预影响序列的LB统计量纯随机性检验结果
如表7可知,干预影响序列在延迟阶数为1时其LB统计量的P值小于0.05,拒绝序列为纯随机序列的原假设,可认为该序列为非白噪声序列,进而从统计检验的角度说明疫情对民航客运量造成的影响是真实存在的。
但值得注意的是,当延迟阶数大于2时,其LB统计量的P值均大于0.05,说明干预序列仅仅只有短期自相关性,因此下文在建立干预模型时延迟阶数不宜设得过大。
4.2. 干预影响分析方程的建立与求解
4.2.1. 基本原理
干预模型 [10] 是指在单变量序列的ARIMA系列模型中加进各种干预变量影响的模型。一般来说,干预变量主要分为两种:第一种为持续性的干预变量(用
表示),一种为短暂性的干预变量(用
表示),两种干预变量的表达形式如式(3)和式(4)所示。
(3)
(4)
其中,t是时间变量,T表示干预变量发生年份。
综合现有文献 [10] [11] [12] ,干预事件的影响形式虽然千资百态,但按其影响的形式,可以归结为以下4种基本类型或其组合形式。
1) 干预事件的影响突然开始,且其影响是长期的。这种干预事件的影响可以表示为:
,(5)
其中,w为干预影响的强度。
2) 干预事件的影响逐渐开始,且其影响是长期的。这种干预事件的影响可表示为:
, (6)
其中,w为干预影响的强度,B为后移算子,b为延迟期数。
3) 干预事件的影响突然开始,且其影响是短期的。这种干预事件的影响可表示为:
, (7)
其中,w为干预影响的强度。
4) 干预事件的影响逐渐开始,且其影响是短期的。这种干预事件的影响可表示为:
,(8)
其中,w为干预影响的强度,B为后移算子,b为延迟期数。
通过excel软件绘制干预序列
的时序图,其时序图如图7所示。

Figure 7. Trends in the impact of new crown epidemic interventions
图7. 新冠疫情干预的影响趋势
结合图7新冠疫情干预序列时序图和实际情况可得出,新冠疫情对我国民航客运量的减少造成一定的影响,具体影响可分为以下两个部分:
1) 新冠疫情对民航客运量造成的短期影响:在2020年2月,新冠疫情对民航客运量的干预影响突然大幅度上升。一方面,随着新冠疫情在中国迅速蔓延,政府采取了严格的紧急旅行限制措施,包括封锁城市和关闭国际航班等,导致航班数量急剧减少。另一方面,由于疫情病毒的突然爆发使人们陷入了一丝恐慌,减少人们的外出风险,这均大致民航客运量出现了突然的暴减趋势。
2) 新冠疫情对民航客运量造成的长期影响:自2020年3月后,随着国家一系列疫情防控措施的采取以及人们的积极配合,新冠疫情对民航客运量逐渐变平缓。但值得注意的是,由于新冠疫情的复杂性、全球性和长期性挑战,抗争疫情是一个长期的过程,需要持续的努力、合作和适应,直到全球范围内实现疫情的控制和结束。
综合来说,新冠疫情对铁路客运量的减少既体现在紧急政策的突变短期影响,也有疫情本身的缓慢长期影响上。因此,本文建立以下(9)式干预影响过程组合模型对干预序列进行拟合与预测。
,(9)
其中,
4.2.2. 干预方程的拟合
对于干预序列
,根据其在2020年2月序列值可计算得出w1 = 4304.01。
运用最小二乘方法对干预序列
展开参数估计与检验,其参数估计及检验结果如表8所示:

Table 8. Parameter estimation and significance test results of the intervention model
表8. 干预模型的参数估计及显著性检验结果
如表8可以看出,干预序列
各参数T统计量对应的P值均小于0.05,通过参数的显著性检验。
对拟合模型的残差进行纯随机性检验,得出显著性检验结果如表9所示:

Table 9. Significance test results of the intervention model
表9. 干预模型的显著性检验结果
如表9可知,该模型各阶延迟下LB统计量的P值均显著大于0.05,可认为该拟合模型的残差序列属于白噪声序列,即拟合模型通过模型有效性检验。
综上所述,该干预影响过程模型有效衡量新冠疫情对民航客运量的影响,其一般方程为:
, (10)
4.2.3. 干预影响趋势的预测
运用干预影响过程模型对2021年11月和2021年12月的数据展开预测,得出的预测结果和95%预测区间如表10所示:

Table 10. Predicted values and prediction intervals for the impact trend of the intervention impact process model for Nov~Dec 2021
表10. 干预影响过程模型对2021年11月~12月的影响趋势的预测值和预测区间
如表10可以得出,2021年11月与12月实际数据均在干预模型的预测区间之内,说明干预模型可以有效预测未来短期新冠疫情对民航客运量的影响。值得注意的是,由于2021年11月新冠病毒出现突变株,导致部分地区新冠疫情再度二次爆发,因此干预模型得出我国民航客运量的预测值与真实值仍存在一定的偏差。若想进一步提高预测精度,需进一步将疫情突变株出现对民航客运量的影响考虑在内。
4.2.4. 干预模型的预测效果评价
基于干预模型的一般方程形式:
,根据上文构建的ARIMA乘法模型得出的2021年11月和2021年12月未发生疫情情况下的预测值
,
以及干预影响过程模型得出相同时间段新冠过程影响程度预测值
,
,得出干预模型对新冠疫情情况下2021年11月和12月的预测值如表11所示。
为更好地对干预模型的预测效果进行比较,本文也尝试直接运用ARIMA乘法模型对2007年1月~2021年10月进行拟合,并对2021年11月和12月的数据进行预测,其预测值如表11所示。

Table 11. Comparison of predictive values of ARIMA multiplicative models before and after the intervention
表11. 干预前后ARIMA乘法模型的预测值比较
如表11可知,相比于直接采用ARIMA乘法模型,干预SARIMA模型预测值更接近于真实值,进一步说明了干预SARIMA模型对疫情后民航客运量的短期预测效果表现良好。
5. 总结
5.1. 结论
本文在运用SARIMA模型对疫情未发生情况下未来理论民航客运量展开预测的基础上,通过分析新冠疫情的影响形式,构造干预影响模型对干预趋势进行拟合,进而结合SARIMA模型和干预影响模型对疫情后未来民航客运量的值展开预测。通过本文研究,可以得出以下几个结论:
1) ARIMA(1,1,1) × (0,1,1)12乘法模型对未发生疫情情况下民航客运量的拟合和预测效果表现良好。通过该模型,可得出在未来不发生疫情的情况下,民航客运量仍会呈现逐年持续上涨的趋势,且具有夏季偏多,冬季偏少的季节效应;
2) 干预模型精确、科学地通过定量方式衡量新冠疫情对民航客运量的影响机制。通过干预模型,可以定量得出新冠疫情对民航客运量的影响程度,进而结合民航客运量在未发生疫情下的理论值对疫情后未来的民航客运量展开预测;
3) 相比于单独使用SARIMA模型,干预SARIMA模型对疫情后短期民航客运量的预测表现更加精确。除了新冠疫情这一干预因素,民航客运量可能还受到经济状况、政策变化、航空公司策略等其他外部因素的影响。后续可以将这些因素考虑进预测模型中,以更全面地分析和预测民航客运量的变化。
5.2. 不足及改进方向
尽管干预SARIMA模型在对疫情后民航客运量的预测表现良好,但仍有很多不足之处,具体有以下方面:
1) 干预SARIMA模型对非线性趋势的提取程度较差,导致其得出的预测值仍存在一定的偏差。由干预影响方程和SARIMA模型的方程形式可以看出,干预SARIMA模型主要提取序列的线性趋势。若序列存在非线性特征,则干预SARIMA模型的预测结果可能会一定的偏差。针对此问题,考虑到LSTM、RF等机器学习模型可以有效提取序列的非线性特征,可以运用串联组合预测方法,在运用干预SARIMA模型得出疫情发生后各时序点预测值的基础上,通过机器学习模型对其残差进行拟合和预测,进而在不失去模型可解释度的同时进一步提高干预模型的预测精度。
2) 该干预SARIMA模型忽视了干预因素与SARIMA模型的内部关系。该类模型将民航客运量分解为SARIMA模型拟合值与干预因素,一定程度上忽视了干预因素和SARIMA模型内部可能存在的关系,进而使模型预测值出现一定的偏差。针对此问题,可以从干预SARIMA模型方程引入交互项的角度对模型进行改进。通过引入交互项,分析干预因子与SARIMA模型结果的相互影响程度,以捕捉干预因素与SARIMA模型的动态联动效应,进而使模型预测变得更加精确。