1. 引言
国内生产总值(Gross Domestic Product, GDP)是一个国家或地区的所有常住单位在一定时期内(通常是一月或一个季度或一年)所生产的全部最终产品和服务的市场价值总和,它是体现一个国家或地区经济及其健康状况的最核心、最通用的数量指标。对我国GDP进行精确建模及其预测,是宏观经济学和计量经济学的研究热点课题之一,也是核心课题之一。目前,我国经济的规模使其成为世界第二大经济体、第一大工业生产国和第一大货物贸易国。如今我国GDP对世界经济增长、国际大宗商品价格、世界贸易格局乃至许多地缘政治都具有举足轻重的深远影响。因此,准确理解和预测中国GDP的动态变化,不仅是中国自身发展和治理的需要,也是世界各国政府、国际组织、跨国企业和国内外投资者的迫切需求。对我国GDP进行精确建模及其预测,为我国的货币政策、财政政策、产业政策等宏观调控政策的制定提供了决策支撑。对我国GDP进行建模过程本身就是一个对我国经济系统进行“解剖”和“理解”的复杂过程,同时,我国经济的独特性和复杂性为建模方法也提出了一种新的挑战。因此,对我国GDP进行科学建模及其精准预测,具有非常重要的理论意义和具体的现实意义,有可能为催生具有中国特色的经济学理论提供宝贵的数据支持。
GDP预测是宏观经济学和金融学的核心课题之一,其准确与否直接关系到国家或地区各种政策的制定。GDP预测研究的方法多种多样,有基于线性回归模型的[1] [2],有基于计量经济模型的[3],有基于机器学习的[4] [5],还有其他预测GDP方法的[6]-[8]。各种GDP预测方法各有其优缺点,基于线性回归模型的GDP预测方法,它不仅能给出相对误差,还能给出预测区间。基于机器学习或混合模型的GDP预测方法,它只能给出比较高精度,但它无法提供预测区间,本质上说,它只是点预测,而且它的计算复杂度很大。Annie Uwimana [1]利用自回归移动平均建立了非洲GDP的模型,其优点给出预测区间,但预测精度不是很高。肖丹[2]用求和自回归移动平均(Autoregressive Integrated Moving Average, ARIMA)模型四川省GDP建模,并利用Python软件实现,预测2023至2027年五年的GDP,但它没有给出预测区间。Stock [3]利用主成分方法进行了预测方法的研究,它属于计量经济和多元统计方法的范畴,需要大量的背景知识。马静雯等人[4]阐述了各种研究通过对原有参数进行优化、将模型进行对比、利用不同模型进行组合预测等方式来提高预测精度,把时间序列预测建模思想从线性转向非线性,虽然这种方法的精度比较高,但是,它局限于点预测,无法给出预测区间。肖争艳等人[5]分析了目前国内外复杂的经济形势加大了预测GDP的难度,构建了既具有宏观经济理论基础又符合中国宏观经济特征的指标体系,并构造了一个用于GDP预测分析的LSTM模型,将之与BVAR模型进行对比研究,以科学地判断LSTM模型是能够提升GDP预测的精确度,但是,它也是点预测。总之,结合深度学习和神经网络的时间序列预测方法只能提高预测精度,但无法像传统的线性模型给出预测区间。
本文将利用求和自回归移动平均(Autoregressive Integrated Moving Average, ARIMA)模型对我国GDP年度数据进行预测建模,并且得到了很好的预测效果。
2. 预备知识
2.1. 时间序列预测的评价指标
本质上说,时间序列预测就是寻找预测函数,预测函数表达是多种多样的,如线性模型,它对应的预测函数就是一个函数表达式;用神经网络对时间序列预测,它无法用函数表达式来表示预测函数,它用神经网络节点间的权值和阈值体现预测函数的。一般来说,预测值与真实值之间存在误差,误差表达有很多种。设
是真值
的预测值,下面介绍几种评价预测的数量指标。
1) 绝对误差被定义为
	,	(1)
2) 相对误差被定义为
	,	(2)
3) 相对误差绝对值的平均值被定义为
	
,	(3)
4) 均方误差被定义为
	
,	(4)
5) 标准误差被定义为
	
.	(5)
对于同一个问题的预测结果,上述各指标不一定具有一致性。前两个指标是误差的基本定义形式,是对单个数据点的预测结果进行评价,没有集中n个数据点的真值与预测值之间的综合信息。后三个评价预测的数量指标集中了n个数据点的真值与预测值之间的综合信息,能作为预测方法的较好评价指标,但各自又有自身的不足。由于绝对误差和相对误差有正有负,当求平均误差时,可能出现抵消情况。为了克服上述缺点,定义了后三个评价预测的数量指标。本文将用相对误差绝对值的平均值来评价预测效果。
2.2. ARIMA模型
大多数时间序列都不是平稳时间序列,但有些具有趋势项的非平稳时间序列通过差分运算后变成平稳时间序列,这是因为差分运算具有强大的确定性信息提取能力,可以把通过差分运算后变成平稳时间序列的非平稳时间序列称为差分平稳时间序列。对差分平稳时间序列,可以用ARIMA模型对它建模。
设时间序列
,
是移位算子。若它满足如下结构的模型,则称为这个时间序列
模型,
其中,
;
是
模型的自回归系数多项式;
是
模型的移动平均系数多项式;
是白噪声,它的均值通常为0,方差
。
ARIMA模型由自回归(AR)、差分(I)和移动平均(MA)三个部分组成,它能对能够具有趋势性和随机波动的时间序列数据进行建模。
3. 基于R语言的我国GDP的建模及其预测
在本节中,
既可以表示时间序列,也可以表示为时间序列观察值,需要根据上下文进行判断。下面一步一步地建立我国GDP的ARIMA模型。
3.1. 我国GDP数据的描述性分析
为了更好地观察我国GDP数据变化规律,首先用R语言中plot函数绘制了1952年至2024年我国GDP年度数据[9]的时序图,如图1所示。
Figure 1. Time series chart of China’s GDP annual data from 1952 to 2024
图1. 1952年至2024年我国GDP年度数据的时序图
由图1可知,1952年至2024年我国GDP年度数据随着时间的增加而呈上升趋势,因此,它不是一个平稳时间序列。下面先进行自然对数变换,使它方差变小,再通过差分运算,得到平稳时间序列。
3.2. 我国GDP数据的对数变换及其差分变换
对我国GDP数据进行自然对数变换,其随时间增加而呈上升趋势不会改变,也不会改变它的季节性。于是对自然变换后的数据进行一阶或二阶差分变换,用R语言中log、diff和plot函数得到二阶变换后的数据的时序图,如图2所示。
Figure 2. Time series chart of data after natural logarithmic transformation and second-order differential transformation
图2. 自然变换和二阶差分变换后数据的时序图
由图2可知,对1952年至2024年我国GDP进行自然对数变换,进行二阶差分变换,所得到的数据的时序图围绕某个定值上下波动,可以粗略地认为它为平稳序列。
3.3. 我国GDP差分变换后数据的平稳性检验和白噪声检验
在上文中,我国GDP二阶差分变换后的数据可以粗略地被认为是平稳序列。为了更准确判断我国GDP二阶差分变换后的数据是平稳序列,需要对它进行ADF(Augmented Dickey Fuller, ADF)检验。用R语言中adf.test函数进行编程,其运行结果P值为0.01,小于显著性水平(
),所以可以认为我国GDP二阶差分变换后的数据是平稳序列。
虽然我国GDP二阶差分变换后的数据是平稳序列,但是它是否值得继续分析下去,需要对它进行白噪声检验,因为白噪声是没有任何分析价值的序列。用R语言中Box.test函数进行编程,其运行结果P值为0.02288,小于显著性水平(0.05),所以可以认为我国GDP二阶差分变换后的数据不是白噪声序列,值得继续分析下去。
3.4. 我国GDP差分变换后数据的自相关函数和偏相关函数
确定我国GDP差分变换后的数据是平稳序列且非白噪声序列后,分别用R语言中自相关系数(Autocorrelation Coefficient Function, ACF)和偏相关系数(Partial Autocorrelation Coefficient Function, PACF) [10]为主进行编程,其运行结果分别如图3和图4所示。
Figure 3. Autocorrelation function diagram of China’s GDP data after second-order differential transformation
图3. 我国GDP二阶差分变换后的数据的自相关函数图
Figure 4. Partial correlation function diagram of China’s GDP data after second-order differential transformation
图4. 我国GDP二阶差分变换后的数据的偏相关函数图
图3和图4中lag表示延迟。由图3可知,我国GDP二阶差分变换后的数据的自相关和偏相关函数图没有明显截尾,可以认为它们都是拖尾的。因此,可以用ARMA模型对我国GDP二阶差分变换后的数据建模。
3.5. 我国GDP自然对数变换后数据的ARIMA模型参数估计和模型评价
我国GDP二阶差分变换后的数据进行模型识别的结果表明,可以用ARMA模型对它建模,这等价于用ARIMA模型对我国GDP自然对数变换后的数据建模。使用R语言中auto.arima函数对1952至2024年我国GDP的自然对数变换后的数据进行自动ARIMA建模,得到最佳模型结构ARIMA(2,2,1),于是用arima函数拟合出我国GDP自然对数变换后的数据的ARIMA(2,2,1)模型,这个ARIMA(2,2,1)模型等价对我国GDP自然对数变换后的数据
进行2阶差分后,拟合一个ARMA(2,1)模型。令2阶差分后的序列为
,其中
为后移算子,即
,于是ARIMA(2,2,1)模型的方程为
其中,自回归系数
,
;移动平均系数
,白噪声
的均值为0,方差
。带入系数展开后,得
,
把
带入上式,得
	
,	(6)
展开后,进行整理,得
	
,	(7)
这就是我国GDP的数学模型。进行残差检验时,得到P值是0.5449,远远大于检验水平0.05,表明残差是白噪声,因此该模型残差检验通过。它的残差时序图、ACF/PACF图和正态性检验图分别见图5、图6、图7和图8。
图5、图6、图7和图8直观地体现了该模型残差检验通过。上面模型的系数表明它远远大于0,不需要进行参数显著性检验。
为了评价这个模型,把1952至2022年我国GDP的自然对数变换后的数据作为训练集,把2023年至2024年我国GDP的自然对数变换后的数据作为测试集。使用R语言中arima函数拟合训练集中数据,得到ARIMA(2,2,1)模型为
Figure 5. Time series diagram of residuals of ARIMA(2,2,1) model for China’s GDP data after natural logarithmic transformation
图5. 我国GDP自然对数变换后数据的ARIMA(2,2,1)模型残差的时序图
Figure 6. ACF of the residuals of the ARIMA(2,2,1) model for the natural logarithmic transformation of China’s GDP data
图6. 我国GDP自然对数变换后数据的ARIMA(2,2,1)模型残差的ACF
Figure 7. The PACF of the residuals from the ARIMA(2,2,1) model of China’s GDP data after natural logarithmic transformation
图7. 我国GDP自然对数变换后数据的ARIMA(2,2,1)模型残差的PACF
Figure 8. Normality test chart of residuals of ARIMA(2,2,1) model for data after natural logarithmic transformation of China’s GDP
图8. 我国GDP自然对数变换后数据的ARIMA(2,2,1)模型残差的正态性检验图
Table 1. The test set of the natural logarithm transformed data of China’s GDP and its predicted values
表1. 我国GDP的自然对数变换后的数据的测试集其预测值
 
  
    | 年份 | 真值 | 预测值 | 相对误差绝对值 | 
  
    | 2023 | 1294271.7 | 1296844 | 0.2% | 
  
    | 2024 | 1349083.5 | 1377343 | 2.1% | 
 	
,	(8)
其中,
是均值为0且方差
的白噪声。测试集中数据及其预测值见表1。
根据表1,计算得到2023年至2024年我国GDP的自然对数变换后的数据与其预测值之间相对误差绝对值的平均值为1.15%,这表明所建立的我国GDP数学模型的预测精度高。
朴素模型(Naïve Model, NM)中的均值模型的预测值是真值的平均值,NM中的均值模型的2023年至2024年我国GDP的自然对数变换后的数据与其预测值之间相对误差绝对值的平均值为2.09%,它低于本文所拟合我国GDP的ARIMA(2,2,1)模型的预测精度,因此,本文所建立的我国GDP数学模型的预测精度更高。
3.6. 我国GDP预测
在时间序列预测中,越靠近预测时间点的数据建立的模型凝聚着更多精确的信息,因此,选择公式(7)为基础,产生预测函数为
,它是一步预测,根据这个预测函数,可以逐步预测出未来10年我国GDP分别为对数预测值
。再根据,得到未来10年我国GDP分别为1,437,479,1,555,209,1,687,184,1,825,074,1,969,150,2,123,095,2,289,849,2,470,733,2,666,316,2,877,291 (单位:亿元)。若用我国GDP自然对数变换后的数据表示,未来10年我国GDP的变化趋势见图9。
Figure 9. The changing trend of China’s GDP in the next 10 years
图9. 未来10年我国GDP的变化趋势
由图9可知,未来10年我国GDP仍然呈增长趋势。图9中阴影部分对应未来10年我国GDP的自然对数变换后的数据的预测区间。
4. 结语
主要研究了我国GDP年度数据的数学模型。详细阐述了我国GDP年度数据的建模过程,并且用R语言进行编程,得到我国GDP数学模型的预测模型,其模型的测试集的预测精度高。最后用该模型预测出未来10我国GDP的值,并且给出了未来10年我国GDP的变化趋势。其研究成果为国家各项经济政策的制定提供参加依据。