1. 引言
国家财政收入是政府用于满足经济发展的必要条件 [1] ,它不仅反映了政府的经济实力,还体现了政府的社会责任感,它既可以用于维护社会稳定,又可以用于促进经济发展,从而确保社会的可持续发展。财政收入是政府践行其职能的资金保障,是保证国家有效运转的经济基础,因此随着我国经济实力的提升,国家财政收入也进入高速增长阶段。财政通过税收和各种收费等形式来筹集扩大资金,而筹集的资金又以各种形式的政府支出推动国民经济发展。在国家一系列财政活动中,财政收入和财政支出处于核心地位,而财政收入作为财政支出的先决条件更是重中之重。
因此,深入研究国家财政收入未来演变方向,为政府部门合理优化财政预算提供重要依据,这对促进国民经济稳定协调发展有着重要的现实意义。对于财政收入预测研究,国外起步早,美英等国早期采用的预测方法多样主要以时间序列预测模型为主,常用移动平均法以及自回归滑动平均混合模型等 [2] 。而国内的研究起步晚早期只是简单的模型,随着经济的高速发展,政府部门的大力推进,在学术界掀起热潮,其研究方法逐渐多样起来,集中在五大类:第一类多元回归模型,毛琴等 [3] 利用逐步回归得到影响财政收入的显著变量并通过建立多元线性回归模型进行预测与分析。姜昕 [4] 等通过多元线性回归方法发现税收收入对中国财政收入影响最大。第二类时间序列模型,郑鹏辉等人 [5] 使用自回归移动平均ARIMA模型对国家财政收入进行预测,总结得出此模型适合短期预测,长期预测误差会增大。第三类神经网络,随着人工智能兴起,神经网络运用于各个领域,包括金融领域,李伟 [6] 运用神经网络分别对财政收入和财政支出进行了预测,发现对财政支出的预测度较高。第四类灰色系统预测模型,连强 [7] 建立多因素灰色模型来预测河南省的财政收入,通过关键因素分析,建议加大公共服务投入促进财务收入。第五类多模型组合应用,赵海华 [8] 以及刘茂如等 [9] 都采用将灰色预测模型与神经网络相结合的方法对安徽省的财政收入进行预测分析,刘茂如等 [9] 还通过Lasso回归法筛选出财政收入的主要影响因素。
通过国内研究现状分析可以看出当前很多学者通过多种研究方法对财政收入进行预测分析,筛选各种影响财政收入的关键因素来建立模型,时间序列模型也被广泛应用于此,但大多都采用ARIMA模型,但当前研究很少从GDP这一关键影响入手分析预测,从两个经济指标的定义可以看出,一个国家的财政收入情况与国民生产总值有着极大的关联,只有整个社会创造了财富,政府才能获得更多的财政收入。因此通过加入国内生产总值(GDP)协变量建立更精确的时间序列模型ARIMAX模型来预测财政收入是十分有必要的。
2. 理论模型方法
2.1. ARIMA时间序列模型
如果时间序列{Xt}是一个非平稳序列,通过对其进行d阶的差分运算,可以使其成为一个平稳的时间序列,那么就称{Xt}是一个具有阶p,d,q的求和自回归移动平均模型,简称ARIMA(p, d, q)模型:
其中
,B为延迟算子;
为差分运算;d为差分阶数;
为残差序列的移动平均系数多项式,
这是移动平均系数多项式。
2.2. 多元时间序列ARIMAX模型
比起ARIMA模型只能针对一维时间序列进行预测分析,带有输入变量的ARIMA模型即ARIMAX 模型是现在较为常用的多元时间序列分析模型,其建模过程如下:1) 平稳性检验。检验响应序列yt和输入变量序列
是否都是平稳序列,不平稳则进行差分直至两个序列都是平稳序列,如果两序列都是平稳的,则进行下一步。2) 构建回归模型,考察两序列相关系数,构建响应序列和输入变量序列的之间回归模型,如式(1)所示。3)拟合残差序列
,使用ARIMA 模型继续提取残差序列
中的相关信息,最终得到动态回归模型ARIMAX模型,如式(2) (3)所示。4) 模型预测。用构建的模型预测未来趋势。
(1)
(2)
(3)
其中
为第i个输入序列的移动平均系数多项式;
为第i个输入序列的自回归系数多项式;
为回归残差序列;B为延迟算子;
为第i个输入变量
的延迟阶数,
残差序列自回归系数多项式;
为残差序列移动平均系数多项式;
为零均值白噪声序列。
3. 基于ARIMA 模型的全国财政收入的预测与分析
3.1. 选取数据

Table 1. National revenues (in 100 million yuan) from 1978 to 2021
表1. 1978~2021年的全国财政收入(单位:亿元)
如表1所示,本文使用1978年至2019年的全国财政收入数据进行模型的构建,数据来源于锐思数据库,然后用所建立的ARIMA模型预测未来五年的全国财政收入数据,2021年和2020年数据用来检验预测误差。
3.2. 平稳性和纯随机检验
建立模型的第一步就是对研究的时间序列进行平稳性检验,首先对整体数据画出时间序列,对于有明显趋势的数据,观察时序图就可以判断是不是平稳时间序列,如果数据是平稳时,直接用ARMA模型进行拟合;当数据不平稳时,先采用差分的方法将其进行处理为平稳时间之后再对非平稳时间序列进行数据进行处理,使之变成平稳的时间序列。1978年至2021年全部数据时序图如下:

Figure 1. Time series of national revenues from 1978 to 2021
图1. 1978~2021全国财政收入时序图
从图1时序图上看,显然这个数据是增长趋势型的数据,处于非平稳数据,需要进行差分运算,才能用ARMA模型进行拟合。
首先对我们对截取的1978~2019年的数据进行一阶差分运算,一阶差分后的时序图如下图2所示。从图中可以看出,一阶差分后的时序图仍然具有增长趋势,也就是说一阶差分后的数据仍然是不平稳的,并没有充分提取这个序列长期趋势的信息,还需要再进一步差分。
二阶差分后的时序图如图3,此时时序图中的曲线没有向上增长的趋势,说明二阶差分比较充分的提取了国家财政收入的长期趋势信息,从时序图来看,初步判定二阶差分后的数据是平稳,但由于图像观察太具有主管性,我们还是要进一步进行单位根检验——ADF检验,ADF检验通过后还需要进行纯随机检验,也就是白噪声检验。

Figure 2. State revenue data post first order differential time series plot from 1978 to 2019
图2. 1978~2019国家财政收入数据一阶差分后时序图

Figure 3. State revenue data post second order differential time series plot from 1978 to 2019
图3. 1978~2019国家财政收入数据二阶差分后时序图
由ADF检验可知,以上3种大类的前3个子类型的序列结构的p值均小于显著性水平(α = 0.05),所以可以认为该序列是显著平稳的。白噪声的检验可知延迟6阶的LB统计量的P值大于显著性水平α,所以看该序列拒绝纯随机性原假设,是平稳非白噪声序列。没有检验其他延迟阶数是因为如果平稳序列短期延迟阶数都不存在显著相关关系,通常长期延迟就更不会存在显著的相关关系。
3.3. ARIMA模型建立
首先做出国家财政收入二阶差分序列的自相关图和偏自相关图,如图4和图5所示。

Figure 4. Serial autocorrelation coefficients after second-order differencing of state revenues from 1978 to 2019
图4. 1978~2019年国家财政收入二阶差分后序列自相关系数

Figure 5. Partial autocorrelation coefficients of the second-order post-differential series of state revenues from 1978 to 2019
图5. 1978~2019年国家财政收入二阶差分后序列偏自相关系数
由样本自相关图4和样本偏自相关图5可知,二阶差分后的全国财政收入数据的偏自相关函数显示在延迟4阶以后,自相关系数都落在了2倍的标准差范围内,并在此范围内波动、自相关函数呈现较强的拖尾性显示在延迟2阶以后,自相关系数全部衰减在2倍的标准差范围内,并在此范围内波动,依据经验可以对全国财政收入序列构建ARIMA(2,2,4) 模型。但由于自己判断主观性比较强,所以用auto.arima函数进行重新定阶,之后采取AIC准则定阶的方法,比较选出AIC最小的模型。图定阶法构建的ARIMA(2,2,4)模型的AIC值为737.48,而ARIMA(0,2,4) auto.arima定阶的模型AIC数值为733.98,更小一点,因此应该对原序列—全国财政收入序列构建ARIMA(0,2,4)模型。最终原始序列输出形式为:
3.4. ARIMA模型检验
对选取的全国财政数据建立ARIMA(2,2,4)模型后,需要对其显著性进行检验,本文采取的是ts.diag进行检验,如图6所示。

Figure 6. Significance test of ARIMA(0,2,4) model for state revenue from 1978 to 2019
图6. 1978~2019年国家财政收入ARIMA(0,2,4)模型显著性检验
从上图可知考察残差序列白噪声检验结果(图6),可以看出各阶延迟下的白噪声检验统计量的P值都显著大于0.05,可以认为拟合模型的残差序列属于白噪声序列,拟合模型显著成立。
3.5. ARIMA模型预测及分析
用构建的ARIMA(0,2,4)模型预测2020至2024年的全国财政收入数据,其时序图如下图7:

Figure 7. ARIMA model projections of state revenues from 2020 to 2024
图7. ARIMA模型对国家财政收入2020~2024年的预测图
用2020至2021年真实的国家财政收入数据对比,其结果见下表2:

Table 2. 2020~2021 national fiscal revenue ARIMA forecasts vs. real values
表2. 2020~2021年全国财政收入ARIMA预测值与真实值对比表
预测图来看,其模型拟合度还是不错的,图中实线为观察值,虚线为模拟拟合值,阴影部分实线为预测值,深色阴影为序列80%置信区间,浅色阴影为序列95%置信区间。
从数据对比看2020年预测效果较差,但2021年预测效果较好,可能原因是因为2020年疫情大面积爆发,对财政收入影响较大。
4. 基于ARIMAX模型的全国财政收入的预测与分析
4.1. 选择数据
本文选取的是1978~2021年的国家财政收入和国民生产总值的数据,数据见下表3:

Table 3. State revenues and gross domestic product from 1978 to 2021 (100 million yuan)
表3. 1978~2021年的国家财政收入与国内生产总值(单位:亿元)
数据同样来源于锐思数据库,本节应用多元动态回归模型——协整模型,对全部数据选取1978~2019 年的国家财政收入数据和国内生产总值进行建模,其中国内生产总值(GDP)作为输入序列,全国财政收入作为响应序列。做出二者的时序图如图8:

Figure 8. Time series of state revenues and GDP from 1978 to 2019
图8. 1978~2019年国家财政收入和国内生产总值的时序图
从两个时间序列的时序图可以看出1978~2019年的国家财政收入和国内生产总值数据呈现出较稳定的长期均衡关系,当国内生产总值增长时,全国财政收入也会相应增长,因而可以考虑对其建立多元动态回归模型,即ARIMAX模型。
4.2. 数据的检验
I. 首先对数据进行同阶单整检验,同阶单整是协整检验的前提,由于GDP数据与之前国家财政收入的数据一样具有长期趋势,因此我们同样对GDP数据做一阶差分和二阶差分,时序图如图9和图10。之后进行平稳性检验和白噪音检验,结果显示二阶差分后的国民生产总值序列是平稳非白噪声时间序列。因此国家财政收入序列和国民生产总值序列均在二阶差分后平稳,两个序列满足同阶单整的条件,即都是二阶单整的。

Figure 9. GDP data first-order post-differential time-series plot from 1978 to 2019
图9. 1978~2019 GDP数据一阶差分后时序图

Figure 10. GDP data second-order post-differential time series plot from 1978 to 2019
图10. 1978~2019 GDP数据二阶差分后时序图
II. 再进行协整检验,首先绘制互相关图,结果如图11所示,拟合回归模型如图12所示,可以发现国家财政收入序列与国家生产总值序列存在着很强的相关性,在延迟阶数为零时,两者的协相关系数最大,即当期GDP对国家财政收入影响达到最大,因此,在构建归国家财政收入与国民生产总值回归模型时,自变量使用的是GDP当期序列同期。

Figure 11. Correlation of state revenues and gross national product from 1978 to 2019
图11. 1978~2019年国家财政收入和国民生产总值的互相关图

Figure 12. Fitted regression model for state revenues and GDP from 1978 to 2019
图12. 1978~2019年国家财政收入和国民生产总值的拟合回归模型
之后对回归残差序列进行平稳性检验,回归残差序列ADF检验可以观察到,类型1中延迟1,2,3阶的检验结果的p值都是显著小于0.05,所以可以认为回归残差序列是平稳的,也就是说国家财政收入序列和国民生产总值序列之间存在协整关系。因此可以对国家财政收入序列和国民生产总值序列建立多元动态回归模型而不用担心虚假回归的问题。
III. 之后对残差序列进行白噪声检验,LB检验显示p值显著小于0.05,回归残差序列不是白噪声序列还需进一步提取残差序列中蕴含的信息。
III. 拟合协整动态回归模型即ARIMAX模型,首先绘制残差序列自相关图和偏自相关图,如图13和图14所示,残差自回归系数拖尾,偏自回归系数2阶结尾,对残差序列拟合AR(2)模型,拟合协整动态回归模型如下:

Figure 13. Autocorrelation plot of regression residual series for state revenue and GNP from 1978 to 2019
图13. 1978~2019年国家财政收入和国民生产总值的回归残差序列自相关图

Figure 14. Partial autocorrelation of the regression residual series for state revenue and GDP from 1978 to 2019
图14. 1978~2019年国家财政收入和国民生产总值的回归残差序列偏自相关图
IV. 模型显著性检验,如图15可以看出残差序列为白噪声序列,说明拟合协整动态回归模型显著成立,我们可以利用这个模型进行预测分析。

Figure 15. Significance test of the fitted cointegration dynamic regression model for state revenue and GDP from 1978 to 2019
图15. 1978~2019年国家财政收入和国民生产总值的拟合协整动态回归模型显著性检验
V. 序列预测,使用回归模型预测国家财政收入时,需要先获得GDP输入序列的未来预测值,可以基于单变量预测,在带入回归模型里,就可以获得响应序列的预测值,预测数值如表4,预测效果图如图16。

Figure 16. Effect of state revenue projections from 1978 to 2019
图16. 1978~2019年国家财政收入预测效果图

Table 4. Projections of state revenues from 2020 to 2024
表4. 2020~2024年国家财政收入预测值
5. 总结
本文构建ARIMA和ARIMAX模型,探究国家财政收入与GDP之间的规律,进一步对比近两年预测值和真实值的误差,精准预测预测未来几年的国家财政收入。从ARIMA模型预测值与ARIMAX模型预测值对比看,两者预测值相差不多,从2020和2021真实值对比看,发现ARIMA模型预测误差更小。这有可能是由于没有进行误差修正模型的原因,误差修正模型是一个负反馈机制。以及预测这两年由于疫情影响较大,对比不出真实的预测拟合效果,这些都是本文后续需要进一步改进的地方。但ARIMA模型适用于短期预测,长期误差会越来越大,从预测效果图对比看,ARIMAX模型上下浮动差是比ARIMA模型要小的。
参考文献