1. 引言
卫生总费用是指一个国家或地区在一定时间段(通常为一年)内用于卫生服务的总成本。这是衡量一个国家或地区卫生投资和卫生资金使用水平的重要指标。了解卫生未来的发展趋势,不仅可以为政府控制卫生费用提供合理的支出,也可以为卫生部门制定卫生政策提供参考 [1] 。
近年来,国内大量学者对卫生总费用的预测进行了探讨。主要预测的模型有ARIMA模型 [2] [3] [4] 、GM模型 [5] [6] 、BP神经网络 [7] [8] 和Elman神经网络 [9] 等。丁海峰等利用ARIMA模型对我国长三角地区卫生总费用进行了预测分析;戴泽阳等通过比较不同GM模型对江苏省卫生总费用进行了预测分析;有学者用Elman神经网络和BP神经网络对我国卫生总费用进行预测研究。
组合预测模型比单一预测模型更系统、更全面,可以避免有效信息浪费,减少偶然因素对预测结果的影响,提高预测结果的准确性和稳定性。在组合预测方面,鲍晓露 [10] 结合灰色GM模型和SVM模型对广东省的卫生总费用预测,为组合预测模型研究提供较可靠的方案。ARIMA模型 [11] 仅依赖于数据自身,不需要借助其他外生变量,所以广泛应用于预测时序数据。BP神经网络是一种应用较为广泛的神经网络模型,多用于电力负荷预测 [12] 和时间序列预测 [13] 等领域重要应用模型。
ARIMA模型是一种经典的时间序列模型,拥有广泛的应用领域和深厚的理论基础。ARIMA能够处理非线性、非平稳的时间序列数据,可以较好地捕捉时间序列数据中的趋势、季节性和周期性变化,能够通过模型参数解释时间序列数据的特征。相较于其他模型,ARIMA模型具有较好的灵活性,参数可以通过模型拟合来自动确定,不需要手动调整,可以在模型中引入外部因素,提高预测精度。本文结合ARIMA模型和BP神经网络模型 [14] ,对我国1991~2020年卫生总费用发展趋势进行预测对比分析,通过方差倒数法的组合,构建一种新预测模型,用于实证研究,为我国相关部门制定医疗卫生政策提供借鉴及参考。
2. 资料和方法
2.1. 资料来源
本研究数据来源于1991~2020年《中国统计年鉴》和《中国卫生统计年鉴》,数据的来源真实、可靠。
2.2. 研究方法
1) ARIMA模型(AutoRegressive Integrated Moving Average Model),即差分自回归滑动平均模型,是由Box和Jenkins等人于上世纪七十年代初发明的一种针对平稳时间序列数据的预测方法之一,它包含自回归过程和滑动平均过程两个部分 [15] 。ARIMA模型的优点是不用考虑对序列产生影响的其他因素,只需考虑序列自身的历史数据,适用于时序性较强的序列。模型中最重要的部分——ARMA(p,q)的一般结构如下:
(1)
其中,
表示当期变量,
表示滞后1到p期变量;
则表示滞后期变量的系数;
表示t时期的误差值,
表示滞后1到q期的误差值,
为误差项的系数。模型的参数p、q可由时间序列的自相关系数和偏自相关系数来确定。ARIMA(p,d,q)中的d则表示对非平稳序列差分d次后得到平稳序列。
ARIMA(p,d,q)建模过程可分为以下几个步骤:
步骤一、序列平稳化处理;对非平稳的时间序列进行差分,使之成为平稳序列,记差分次数为d。
步骤二、确定模型的阶数p、q;基于AIC准则和BIC准则确定模型的阶数。
步骤三、白噪声检验;使用确定的参数对模型进行估计,得到残差序列,若残差序列依然存在相关性,说明模型参数选取不准确,则回到步骤二重新进行参数的选取。
步骤四、序列预测;对模型参数的检验通过后,对时间序列进行预测。
2) BP神经网络(Back Propagation Network)是一种按误差逆传播算法训练的多层前馈网络。BP神经网络的特点在于不需要揭示映射变量之间的方程式,对于大样本数据可以很好的学习和拟合样本的特征。其结构为输入层、隐含层和输出层,每层都由一定数量的神经元构成,如图1。输入层用于输入自变量,神经元的数量取决于输入变量的数量;输出层输出响应变量,有几个响应变量则设置几个输出神经元;而隐层层数和神经元的数量均由模型本身的训练过程决定,选择训练损失最小的隐含层数和神经元数。
Figure 1. Diagram of the internal structure of a neural network
图1. 神经网络内部结构图
BP神经网络的建模过程如下:
1) 归一化处理。使数据大小落在[0, 1]范围内,归一化公式为:
(2)
其中,
、
分别表示卫生总费用的原始值和归一化后的值,
和
分别表示变量序列的最大值和最小值。
2) 网络结构的确定。确定各层的神经元个数,以及激活函数。
3) 初始化各连接的权重和阈值。
4) 输入数据,训练模型。直到模型的最小均方误差小于设置的误差要求。
5) 利用训练后的模型进行时间序列预测
3) 组合预测模型:组合预测模型的重点是确定每个预测模型的权重系数,由于ARIMA和BP神经网络模型预测两种不同的结果,本文采用倒数方差法计算加权系数,其基本原理是先计算每个预测模型的误差平方和
,然后根据总体误差平方和最小的原则确定每个预测模型的权重。其计算公式如下:
(3)
(4)
(3)式中,
是第i个模型的权重,
是第i个模型的预测误差平方和。(4)式中
表示第i个模型的预测值,
表示真实值。最终组合预测模型可表示为:
(5)
首先将数据分为训练集和测试集,然后分别使用ARIMA模型和BP神经网络模型获得预测结果。两种不同方法的权重根据方差倒数法计算,最后根据式(3)计算最终组合预测值。流程如图2所示。
Figure 2. ARIMA-BP combined model prediction flow chart
图2. ARIMA-BP组合模型预测流程图
3. 结果
3.1. 我国卫生总费用发展现状
1991~2020年我国卫生总费用总体上呈现增长趋势,卫生总费用从893.49亿元增长至72,175亿元。见表1。
Table 1. Total health expenditure in China, 1991~2020
表1. 1991~2020年我国卫生总费用
3.2. ARIMA模型的预测过程及结果
3.2.1. 平稳性处理
1991~2020年我国卫生总费用数据为非平稳序列,为了不影响研究结果,需要对原序列进行平稳性检验。对我国1991~2017年卫生费用序列进行差分,并进行ADF单位根检验,二阶差分之后的序列为平稳序列,故d = 2。因此选择我国卫生总费用的二阶差分序列进行分析。差分序列见图3。
3.2.2. 参数的估计及检验
差分处理之后,利用python3.8软件对我国卫生总费用进行拟合,估计ARIMA模型的各项参数,通过自相关及偏自相关图判断拖尾和截尾情况定参数过于主观,本文采用AIC准则和BIC准则 [11] 得到最优参数为p = 0,d = 2,q = 0。建立ARIMA(0,2,0)预测模型。ARIMA预测模型要求残差为白噪声序列,利用python对残差序列进行白噪声检验,具体结果如表2,结果显示P值为0.077 > 0.05,残差是白噪声序列,且模型拟合优度R2为0.998,可以利用其对我国卫生总费用进行预测。
3.2.3. 模型预测
利用所建立的ARIMA(0,2,0)模型对验证集即2018~2020年卫生总费用进行预测,并求出其相对误差。拟合结果如表3,预测结果如表4所示。
Table 3. ARIMA(0,2,0) fitted values from 1991 to 2017
表3. 1991~2017年ARIMA(0,2,0)拟合结果
Table 4. ARIMA(0,2,0) model prediction results
表4. ARIMA(0,2,0)模型预测结果
3.3. BP神经网络预测过程及结果
3.3.1. 数据归一化处理
在数据集中取前n年的卫生总费用对应
年的卫生总费用,即
对应
,同理,步长不变,数据集往后移动,变成
对应
,以此类推,对训练集进行划分,测试集也做相同的处理。将数据归一化,本文以前三年数据来预测第四年数据,即将1991年、1992年和1993年的数据作为输入变量,1994年卫生总费用作为输出变量。1994~2017年的数据作为训练集,将2018~2020年数据作为验证集,数据如表5所示。
3.3.2. 参数调整
本文预测卫生总费用建立了含有1个隐藏层的BP神经网络模型。模型采用了python3.8中的MLPRegressor包构建BP神经网络模型,并实现我国卫生总费用预测,经过不断调参,最优参数为:隐藏神经元为9个,激活函数为relu,正则化系数为0.001,训练网络设定的网络训练次数为50,000次,误差目标为0.001,当网络训练到3400次时,误差达到了预期要求,此时使用确定的测试样本进行测试。训练集拟合效果如图4所示,具体结果如表6所示。
Table 6. Fitting value of BP neural network from 1991 to 2017
表6. 1991~2017年BP神经网络拟合值
3.3.3. 模型预测
利用所建立的BP神经网络模型对验证集进行预测,并求出其相对误差如表7所示:
Table 7. 2018~2020 BP neural network predictions
表7. 2018~2020年BP神经网络预测值
3.4. 组合预测模型
根据公式(3)求出ARIMA的权重为0.459,BP神经网络的权重为0.541。具体模型公式为:
(6)
组合预测的结果如表8所示:
Table 8. Total health cost projections for 2018~2020
表8. 2018~2020年卫生总费用预测
在验证集上ARIMA模型的预测平均相对误差为1.127%,BP神经网络的平均相对误差为1.052%,组合模型的平均相对误差为0.05%,均小于ARIMA模型和BP神经网络模型。此组合模型的整体预测效果良好,预测精度比单一模型的精度高。
根据预测结果和权重,同理可预测我国未来三年即2021、2022和2023年的卫生总费用,具体预测结果见表9。
Table 9. Total health cost projections for 2021~2023
表9. 2021~2023年卫生总费用预测
4. 讨论
十四五时期,国家卫生健康委指出在推进疫情常态化的同时,要积极推动我国卫生事业的发展,应对人口老龄化问题。在构建卫生公共体系上,加强制度建设、人才建设和经费的投入 [15] 。合理的规划卫生费用可以提高经费使用效益,卫生标准化健康体系更加健全,国际影响力显著增强。
本文基于1991~2020年卫生总费用数据预测未来三年我国卫生总费用,从本文结果发现BP神经网络模型要优于ARIMA(0,2,0)模型的预测精度,神经网络模型划分了训练集和验证集 [11] ,验证集没有参与神经网络的学习过程,可以很好的体现出神经网络模型在未观测的数据上预测的准确性。但由于本文样本量较少,训练误差不能设置太低,否则会导致训练集过拟合。对于ARIMA模型来说,每次差分运算都会造成数据信息的损失。组合模型可以系统全面的结合BP神经网络和ARIMA模型来预测我国卫生总费用,基于该模型预测结果,2021~2023年我国卫生总费用分别为75506.91亿元、85958.14亿元、90177.27亿元,该组合模型为预测我国卫生总费用提供一种预测方法。在疫情形势下,未来三年我国卫生总费用呈增长趋势,我国可以对未来卫生服务相关问题积极采取应对措施和政策。
基金项目
贵州省科技计划项目(黔科合平台人才[2020] 5016);贵州大学教改项目(XJG2021027);贵州大学一流课程培育项目(XJG2021040);贵州大学研究生创新人才计划项目。
NOTES
*第一作者。
#通讯作者。