1. 引言
通胀率作为宏观经济监测的重要指标,其前瞻性预测具有重要意义。通胀率的变化直接影响到一个国家的经济稳定和发展,因而各国政府和金融机构都高度重视对通胀率的监测和预测。货币政策的制定和实施需要依赖精确的通胀预测,以便在适当的时候采取措施稳定物价。无论是通过调整利率、管理货币供应量,还是通过其他手段,中央银行都需要准确的通胀预测来避免经济过热或通货紧缩。其次,通胀率不仅对宏观经济政策制定者至关重要,对金融机构和投资者也具有指导意义。投资者在进行投资决策时,通常会考虑通胀率的变化,因为通胀率会直接影响到资产的实际收益率。此外,通胀率还会对金融市场的波动性产生影响,进而影响投资者的风险管理策略。
在国内外经济学和统计学的交叉领域,共轭先验分布、降低先验概率主观性以及正–反Wishart分布的蒙特卡洛方法等理论和技术都得到了广泛的应用和研究。首先,Miranda等[1]人指出共轭先验分布在建模中的高预测准确性和宏观经济学应用前景。共轭先验分布是一种在贝叶斯推断中,先验和后验分布属于同一族分布的情况,这种特性使得模型的计算和推断变得更为方便。其次,降低先验概率主观性是另一个重要的研究方向。Giannone等人[2]提出了层次化建模思路,通过马尔可夫蒙特卡洛(MH)方法在已有数据基础上抽取先验知识,这种方法可以在一定程度上降低先验概率的主观性,使模型的预测结果更加可靠。此外,Carriero等人[3]提出了基于正–反Wishart分布的蒙特卡洛方法,通过克罗内克结构对多阶段概率密度函数进行高效仿真。这种方法的提出,进一步提高了模型的预测准确性和效率。在实证研究方面,Banbura等人[4]将与能耗变动紧密关联的变量纳入模型,主要研究正态–逆Wishart分布,以评价其推广性能。同时,邵明振等人[5]使用BP神经网络和ARMA模型对中国CPI数据进行实证研究,结果显示BP神经网络具有更好的预测能力。薛晔等人[6]采用决策树方法筛选和优选CPI的影响因子,并使用BP神经网络预测中国通货膨胀水平,结果表明该方法具有较好的预测效果,为大数据环境下的宏观经济预报体系提供了一种新方法。这些研究为我们提供了宝贵的经验和启示,有助于我们更好地理解和应用这些理论和技术。
通过对湖南省物价水平及其联动关系进行实证分析,并对各指数之间的相关性进行预测,针对上述问题,本项目拟采用层次化建模思路,利用马尔可夫蒙特卡洛(MH)等方法,从正态–逆Wishart分布出发,采用后验Kronecker结构,结合蒙特卡洛算法,实现多阶段预测密度函数的高效模拟与优化,最终得到具有高精度的BVAR模型。
2. 湖南省通货膨胀率的实证分析
2.1. 先验分布的设定
针对VAR模型中常见的“维数灾难”问题,使用了一种新的方法,即将先验知识引入到降维中。本项目拟利用Kadiyala与Robertson等人提出的关于经典BVAR模型的正态–逆Wishart共轭先验分布,即:
该分布保留了Minnesota先验分布的基本准则,同时,由于正态–逆Wishart先验分布为共轭先验分布,该模型的条件后验分布也为N-IW分布,即
其中,
以及
,
和
的值由最小二乘估计得到。
2.2. 样本数据的预处理
2.2.1. 数据变换处理
数据变换是数据预处理的第一步也是特别重要的步骤。本文首先对每个指标变量进行单位根检验,然后根据其平稳性表现进行不同类型的数据变换。设定x为原始数据,y为变换后的数据,则所有自变量的数据变换都根据以下两个原则分别处理:
1) 对于数据集中的平稳数据,直接返回原始数据,不作任何处理,即z  x。
2) 对于数据集中的非平稳数据,需要将数据变换为平稳数据。有五种方法来处理非平稳数据,包括对原始数据的进行一阶差分,即
;对原始数据进行二阶差分,即
;对原始数据取自然对数,即
;对原始数据取自然对数,接着再取一阶差分,即
。
2.2.2. 数据标准化
由于本文选择的是多维度样本数据,包含多个特征,同时每个数据的量纲量级并不统一,若直接将数据用于分析建模,则每个特征对预测变量的影响程度会有所不同,从而最终影响模型的预测精度。为了避免模型受到特征值量纲量级的影响,本文将对样本数据中的所有预测变量进行Min-Max归一化(Min-Max Normalization),转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。
2.3. 预测误差指标
为了判断在预测通胀率时这三个模型的表现究竟孰优孰劣,本文参照肖争艳等[7]、唐晓彬等[8]以及杨青和王晨蔚[9]等已有文献的常用做法,使用均方误差(MSE)、平均绝对百分比误差(MAPE)、对称平均绝对百分比误差(SMAPE)作为LSTM模型、BVAR模型和VAR模型样本外预测性能优劣的评判标准。这三项误差指数的数值愈低,则说明该模式具有较好预测效果。
2.4. 宏观经济变量描述
由表1可以看出,大部分宏观经济变量的最大值和最小值差距非常大,有的甚至相差两或三个数量级,如商品房销售额、货币和准货币供应量以及债券市场月成交金额等等。除个别指数和比率数据,如财政收入,消费者物价指数、商品房销售面积和工业增加值等,其他大部分变量的标准差都非常大,说明大部分数据变化非常剧烈。这初步说明了从2004年至今,湖南的宏观经济发展之迅速,经济数据随时间变化之大。
Table 1. Prediction index system and statistical description
表1. 预测指标体系及统计性描述
 
  
    | 变量 | 符号 | 均值 | 标准差 | 最小值 | 最大值 | 
  
    | 工业生产者指数 | PPI | 2.63 | 4.39 | −5.7 | 9.3 | 
  
    | 消费者物价指数 | CPI | 102.59 | 1.71 | 99.6 | 106 | 
  
    | 财政收入(亿元) | SR | 1855.03 | 1033.28 | 320.63 | 3250.69 | 
  
    | 社会消费品零售总额(亿元) | TR | 9733.75 | 5560.88 | 2069.8 | 19050.7 | 
  
    | 商品房销售面积(万平方米) | SA | 5603.74 | 2707.94 | 1188.79 | 9437.44 | 
  
    | 商品房销售额(亿元) | CH | 2700.83 | 1997.75 | 179.57 | 6040.51 | 
  
    | 经营单位所在地进出口总额(千美元) | TI | 3.33E + 07 | 2.87E+07 | 5.44E+06 | 1.05E+08 | 
  
    | 汇率(人民币/100美元) | ER | 689.00 | 63.63 | 614.28 | 827.68 | 
  
    | 工业生产者出厂价格指数 | EP | 102.63 | 4.39 | 94.3 | 109.3 | 
  
    | 工业增加值(亿元) | IA | 8101.46 | 3940.11 | 1768.8 | 13959 | 
 2.5. MCMC-BVAR模型的构建
2.5.1. 平稳性检验
我们进行实证研究时使用的宏观经济时间序列数据,基本上是非平稳,如果将非平稳时间序列建模,则很有可能造成伪回归,因此,需要我们先检验时间序列数据的平稳性,然后再建模。常见的一些平稳性检验方法包括:DF检验,ADF检验和KPSS检验[10],基于BVAR模型的特点,本文选择利用ADF检验来检验时间序列数据的平稳性。
由于建立BVAR模型的前提是原始指标数据平稳,对其进行平稳性检验是必要的。本节将2.4节所述的各项指标原始数据进行了处理,由于衡量通货膨胀率的两个核心指标:CPI同比增速与PPI同比增速,其原始数据中含有大量负数,因此本文不对数据进行对数处理,本节将选取ADF检验法对数据集进行平稳性检验,对非平稳数据进行差分处理,具体结果如表2所示。
Table 2. ADF test results
表2. ADF检验结果
 
  
    | 变量名称 | ADF值 | 临界水平 | 检验结果 | 
  
    | 1%临界值 | 5%临界值 | 10%临界值 | 
  
    | CPI | −4.258 | −3.750 | −3.000 | −2.630 | 平稳 | 
  
    | PPI | −3.814 | −3.750 | −3.000 | −2.630 | 平稳 | 
  
    | SR | −1.023 | −3.750 | −3.000 | −2.630 | 非平稳 | 
  
    | D2_SR | −5.806 | −3.750 | −3.000 | −2.630 | 平稳 | 
  
    | TR | 0.877 | −3.750 | −3.000 | −2.630 | 非平稳 | 
  
    | D2_TR | −10.493 | −3.750 | −3.000 | −2.630 | 平稳 | 
  
    | SA | −1.652 | −3.750 | −3.000 | −2.630 | 非平稳 | 
  
    | D2_SA | −4.553 | −3.750 | −3.000 | −2.630 | 平稳 | 
  
    | CH | −1.003 | −3.750 | −3.000 | −2.630 | 非平稳 | 
  
    | D2_CH | −2.658 | −3.750 | −3.000 | −2.630 | 平稳 | 
  
    | TI | 4.019 | −3.750 | −3.000 | −2.630 | 非平稳 | 
  
    | D2_TI | −6.850 | −3.750 | −3.000 | −2.630 | 平稳 | 
  
    | ER | −2.484 | −3.750 | −3.000 | −2.630 | 非平稳 | 
  
    | D2_ER | −4.680 | −3.750 | −3.000 | −2.630 | 平稳 | 
  
    | EP | −3.814 | −3.750 | −3.000 | −2.630 | 平稳 | 
  
    | IA | −2.049 | −3.750 | −3.000 | −2.630 | 非平稳 | 
  
    | D2_IA | −7.101 | −3.750 | −3.000 | −2.630 | 平稳 | 
 表2中分别给出指标体系中的所有变量序列以及差分序列的ADF检验结果,由检验结果可知,所有变量序列的ADF检验值都大于1%、5%和10%临界值,呈非平稳状态,但在经过二阶差分后都呈现平稳状态,说明所有变量序列皆为二阶单整过程。
2.5.2. 滞后阶数的确定
本节针对上述12个变量构建p阶BVAR模型,在构建模型前,需要首先确定滞后阶数p值,其中,滞后阶数p既不可太大,也不可太小。若p太大,则模型自由度会大幅降低,模型参数估计量也将收到直接的影响;若p太小,误差项自相关性问题便会十分严重,导致模型参数估计误差过大。因此,本节为确保滞后阶数的合理性,将根据FPE、AIC、HQIC与SBIC四种方法准则决定滞后阶数p的值。
Table 3. Industrial structure and VAR lag choice of digital economy
表3. 产业结构与数字经济VAR滞后期选择
 
  
    | Lag | LogL | LR | FPE | AIC | SC | HQ | 
  
    | 0 | 22.3624 | NA | 1.0E−12 | −2.05575 | −1.66463 | −2.13614 | 
  
    | 1 | 1469.07 | 0 | 5.E−102* | −212.165 | −208.254 | −212.969 | 
  
    | 2 | 4013.51 | 0 | NA | −599.464* | −594.379* | −600.509* | 
  
    | 3 | 3976.42 | 0 | NA | −593.757 | −588.673 | −594.802 | 
  
    | 4 | 3921.42 | NA | NA | −585.32 | −580.235 | −586.365 | 
 如表3结果所示,列出了FPE、AIC、SC和HQ滞后5阶的统计量,SC、AIC和HQ原则均认为最优阶数为2,FRE原则认为最优滞后阶数为1,本文在此选择SC、AIC和HQ检验的方法,确定滞后阶数为2,即P  2,据此建立滞后2阶的BVAR模型。
2.5.3. 基于 MCMC算法的BVAR模型参数估计
首先构造适当的虚拟观测先验分布,接着估计虚拟先验分布的参数并对其进行分层处理。需提出的是,这里不对先验参数α分层处理,因为该参数可以通过模式论证固定,一般情况下α = 1,先验参数λ服从伽马超先验分布,之后运用MH算法时会为其算法所需的建议分布(此处为高斯分布)提供上界和下界[11]。
在对各变量进行p次自回归模型拟合之后,可以自动设置先验参数ψ。然后,利用MH算法对所得到的超参数进行分层处理,得到虚拟观测值的先验分布,从而为BVAR模型的构建奠定基础。同时,为了判定该超参数是否满足平稳分布,还需已知其样本路径图,选取了lambda、soc、sur等超参数。通过优化,得到三个超参数值分别为0.55599、0.42784和1.62139。其中lambda系数越大,表明该模型存在过拟合的可能。因此,应该减少参数的数目。图1左边是轨迹,右边是概率密度函数,可以看出三个超参数都是稳定的且无漂移现象,说明这三个超参数的马尔可夫链已经被证明是正确的,可以建立BVAR模型。
Figure 1. Marginal likelihood and hierarchical processing of hyperparameter tracking and trajectory plots
图1. 边际似然和分层处理的超参数跟踪和轨迹图
得到模型先验超参数的值后,便可利用MCMC方法对后验概率分布近似积分得到模型的参数估计值,从而建立MCMC-BVAR模型,得到的参数估计结果如表4所示。
Table 4. Estimation results of BVAR model
表4. BVAR模型估计结果
 
  
    | 
 | D2_PPI | D2_CPI | D2_SR_ | D2_TR_ | D2_SA | D2_CH | 
  
    | D2_PPI (−2) | 0.434 | 0.393 | 0.031 | 0.194 | −0.032 | −0.001 | 
  
    | D2_CPI (−2) | −0.785 | −0.654 | −0.779 | −0.214 | 0.676 | 0.007 | 
  
    | D2_SR (−2) | 5.570 | −7.476 | 0.918 | 0.564 | −0.343 | 0.672 | 
  
    | D2_TR (−2) | 9.735 | 6.743 | 0.831 | 0.108 | 3.543 | 3.016 | 
  
    | D2_SA (−2) | −4.592 | −13.190 | 0.847 | −0.218 | 0.608 | 0.699 | 
  
    | D2_CH (−2) | 0.240 | 13.557 | −0.947 | −0.230 | −1.265 | −1.170 | 
  
    | D2_TI (−2) | −8.272 | 3.765 | 0.672 | 0.537 | −1.109 | −0.623 | 
  
    | D2_ER (−2) | −2.145 | 0.957 | −0.005 | 0.291 | −0.395 | −0.190 | 
  
    | D2_IA (−2) | 4.048 | 3.049 | −0.335 | 0.060 | 0.346 | −0.166 | 
  
    | 
 | D2_TI | D2_ER | D2_IA_ | 
 | 
 | 
 | 
  
    | D2_PPI (−2) | 0.217 | 0.123 | 0.444 | 
 | 
 | 
 | 
  
    | D2_CPI (−2) | −0.532 | −0.760 | −0.104 | 
 | 
 | 
 | 
  
    | D2_SR (−2) | 0.288 | −0.925 | 0.946 | 
 | 
 | 
 | 
  
    | D2_TR (−2) | −0.420 | 0.551 | 0.412 | 
 | 
 | 
 | 
  
    | D2_SA (−2) | −0.706 | 1.612 | 0.596 | 
 | 
 | 
 | 
  
    | D2_CH (−2) | 0.975 | −2.321 | −0.442 | 
 | 
 | 
 | 
  
    | D2_TI (−2) | 0.189 | 0.213 | 1.041 | 
 | 
 | 
 | 
  
    | D2_ER (−2) | 0.291 | −0.868 | −0.114 | 
 | 
 | 
 | 
  
    | D2_IA (−2) | 0.558 | 0.145 | −0.234 | 
 | 
 | 
 | 
 2.6. 多个模型对通货膨胀率的预测分析
从图2可以看出,该模型的残差均趋近于0,表明该模型具有良好的拟合效果,可以作为一个可靠的模型。从图3看出,对湖南省居民消费价格指数的对数序列进行了预测,其灰色部分表68%的可信区间。
Figure 2. CPI logarithmic residuals
图2. CPI对数残差图
Figure 3. CPI time series forecast chart
图3. CPI时间序列预测图
2.7. 预测的图形
估计出MCMC-BVAR模型的参数之后,为了能更好地评估该模型对于中国通货膨胀率的预测性能,本节将利用2004年至2017年的指标数据预测2018年至2022年的CPI,并将该时间段的预测数据与实际数据相比较,预测结果如图4,图5,图6所示,其中红表示CPI实际值,蓝线则表示其预测值。
Figure 4. MCMC-BVAR prediction
图4. MCMC-BVAR预测
Figure 5. Var prediction
图5. Var预测
Figure 6. LSTM prediction
图6. LSTM预测
Table 5. Comparison of prediction effects of LSTM, VAR and BVAR models
表5. LSTM,VAR以及BVAR三种模型的预测效果对比
 
  
    | 
 | CPI | PI | 
  
    | 
 | BVAR | VAR | LSTM | BVAR | VAR | LSTM | 
  
    | MSE | 0.459 | 0.564 | 0.623 | 0.587 | 0.658 | 0.83 | 
  
    | MAPE | 0.49% | 0.551% | 0.687% | 0.68% | 0.77% | 0.862% | 
  
    | SMAPE | 0.65% | 0.605$ | 0.69% | 0.691% | 0.786% | 0.87% | 
 3. 结论与建议
首先,本文选取了12个主要宏观经济变量构建指标体系,以及2008年1月至2023年2月共182个月度指标数据,一方面,基于相关理论层面分析通货膨胀率的决定性因素的研究,以及相关经济学理论和文献,这些变量已经涵盖了许多中国经济的重要方面;另一方面,能发挥BVAR模型在变量或者样本数据较少的情况下,也能充分挖掘变量之间信息的优势。在提取数据后,本章对数据集进行了来源说明和预处理,根据平稳性检验和数据变换,将每个变量转化为平稳时间序列,并对其进行了描述性分析以构建指标体系,这是构建预测模型最重要的前提。
其次,我们把CPI与PPI都作为衡量通货膨胀水平的指标,单独对二者进行了预测。以往的研究一般都是将CPI作为衡量通货膨胀的指标,而新常态下中国CPI与PPI的变化趋势出现了几次偏离,单纯从CPI角度出发难以精确地把握价格的总体趋势。鉴于此,我们将CPI和PPI都纳入到对通货膨胀的测量之中,这样就能更好地从消费和生产两个方面对价格的变化进行更充分的了解。
然后,基于平稳的数据集确定模型的滞后阶数,为确保滞后阶数的合理性,本文根据FPE、AIC、HQIC与SBIC四种方法准则决定滞后阶数的值。然后结合样本数据集和MCMC算法抽样计算出先验超参数,同时对BVAR模型的参数进行估计以建立MCMC-BVAR模型。
最后,将构建的MCMC-BVAR模型应用于预测通货膨胀率的实证分析中,并与VAR以及LSTM模型对比预测效果,如表5所示,MCMC-BVAR效果最好。
基金项目
吉首大学2023年度研究生校级科研项目(JDY23032)。
NOTES
*通讯作者。