1. 引言
卫生经济负担与传染病防控是全球公共卫生领域长期关注的两大核心议题。近年来,中国卫生总费用从2015年的约4 × 104亿元增长至2023年的9 × 104亿元,这一趋势不仅反映出随着社会经济水平的提高,也揭示了政府在医疗卫生领域资源投入的持续增加。
与此同时,传染病发病率在中国乃至全球范围内均呈现复杂多变的趋势。一方面,病毒性肝炎、结核病等传统传染病由于其顽固性和传播性,仍然对公共卫生构成持续威胁[1],这些传染病的防控不仅需要高效的医疗救治手段,更需要科学的资源配置和精准的防控策略。然而,现有研究多聚焦于卫生经济或传染病学单一领域,缺乏对二者之间动态关联的系统性分析[2]。
近年来梅毒在我国增长迅速,2014~2019年中国梅毒总报告发病率逐年增长[3],已成为报告病例数最多的性病。所报告的梅毒中,潜伏梅毒占多数,一、二期梅毒也较为常见,先天梅毒报告病例数也在增加。梅毒患者多为无症状、隐性感染,因其高危人群的隐蔽性,通过现有传染病报告系统收集的报告病例数并不能反映出全部状况[4]。
2. 研究对象与模型选取
传染病发病率和死亡率趋势的分析与预测是公共卫生领域的核心议题。病毒性肝炎、结核病、梅毒作为我国重点防控传染病,其发病规律的精准剖析对资源配置与防控策略制定至关重要。我们以这三种传染病的发病率和死亡率为研究对象,选取我国2014~2023年传染病发病率数据进行挖掘与分析。传染病的发病率和死亡率模型主要将时间因素考虑进来,符合实际情况。但是我国人口基数大,即数据处理均是一年一次,所以难做实时记录发病率和死亡率,因此本文先选择了ARIMA后选择了由Lee和Carter提出的离散时间随机模型,其在寿险精算中起着很重要的作用。Lee-Carter动态死亡率评估模型被认为随机预测方法中最具代表性的同时也是死亡率预测应用最多的动态模型之一。
卫生总费用是衡量一个国家或地区卫生资源投入和卫生健康事业发展水平的主要指标,为此本研究核算并分析2015~2023年我国卫生总费用基本情况,通过数据反映出我国在解决卫生经济负担方面所取得的成效,并分析当下的问题以及预测未来将面临的挑战,完善我国关于卫生筹资方面的政策[5]。即选用适用于研究中的短期和中长期预测场景,尤其当面临数据样本具有时间的变化以及量有限、数据分布规律性不明显的情况时具有计算效率高、工作量小的特点,能够确保定量分析结果与定性分析结论保持高度一致,同时保持较高的预测准确度的灰色模型进而建立微分方程模型,得到在离散点处的解经过累减生成的原始数据的近似估计值,从而预测原始数据的后续发展[6]。
3. ARIMA与Lee-Carter模型的建立与拟合
3.1. 数据来源
表1、表2中病毒性肝炎、结核病、梅毒2014~2023年发病率和死亡率数据均取自数据来源:国家数据https://data.stats.gov.cn/经标准化审核,确保数据准确完整。
Table 1. Overview of the incidence rates of infectious diseases in the past decade
表1. 近十年传染病发病率的数据总览
发病率 |
病毒性肝炎 |
肺结核 |
梅毒 |
2014 |
90.25 |
65.63 |
30.93 |
2015 |
89.47 |
63.42 |
31.83 |
2016 |
89.11 |
61.00 |
31.97 |
2017 |
93.02 |
60.53 |
34.49 |
2018 |
92.15 |
59.27 |
35.63 |
2019 |
92.13 |
55.55 |
38.37 |
2020 |
81.12 |
47.76 |
33.08 |
2021 |
86.98 |
45.37 |
34.05 |
2022 |
78.40 |
39.76 |
31.27 |
2023 |
90.69 |
31.27 |
37.60 |
Table 2. Overview of the mortality rates of infectious diseases in the past decade
表2. 近十年传染病死亡率的数据总览
死亡率 |
病毒性肝炎 |
肺结核 |
梅毒 |
2014 |
0.0380 |
0.1653 |
0.0051 |
2015 |
0.0348 |
0.1673 |
0.0043 |
2016 |
0.0388 |
0.1783 |
0.0038 |
2017 |
0.0415 |
0.2046 |
0.0033 |
2018 |
0.0381 |
0.2257 |
0.0028 |
2019 |
0.0412 |
0.2141 |
0.0030 |
2020 |
0.0419 |
0.1367 |
0.0038 |
2021 |
0.0369 |
0.1251 |
0.0021 |
2022 |
0.0385 |
0.1563 |
0.0016 |
2023 |
0.1700 |
0.1537 |
0.0011 |
3.2. ARIMA和Lee-Carter模型构建
3.2.1. ARIMA (p, d, q)模型
ARIMA (p, d, q)模型结合了AR模型的历史性与MA模型创新性的优点,可以处理更复杂的时间序列问题[7]。
(1)
上面式(1)中
和
均为该模型的参数,c是常数,
是当前时期的白噪声,
是过去时期的白噪声。
假设有一时间序列
,定义滞后运算B,它将一个时刻的观测值转化为前一时刻的观测值,扩展这个运算符的概念,使之滞后n个时间步长:
(2)
另外,通过滞后运算来实现对一阶差分和n阶差分的表征。因此,n阶差分可定义为相邻标签值的差值:
(3)
基于上述各种理论模型,假设对一组数据进行二阶差分,则可以直接对原始数据应用滞后运算符,以此类推,d阶差分可以被表示为:
(4)
自相关函数(Auto-Correlation Function,即ACF)和偏自相关函数(Partial Auto-Correlation Function,即PACF)是时间序列分析中常用的两个关键统计量,其作用在于判断时间序列的平稳性,并通过计算确定ARIMA模型的参数[8]。
定义一个时间序列
,那么对于任意的滞后(lag) k,自相关函数
可以表示为:
(5)
在给定中间滞后项
的条件下,
与
的线性相关程度可定义为偏自相关函数(PACF),一般记作
。偏自相关函数的计算过程是先排除其它更早期滞后观测值的影响,然后再计算二者的相关性[9]。
3.2.2. Lee-Carter模型
Lee-Carter模型是动态死亡率评估模型,该模型建立在ARIMA模型的基础上进行求解。若用
表示时间且年龄为x岁的人群的死亡率,则
满足以下函数关系:
(6)
其中
表示与年龄因素相关的系数,是死亡率取自然对数后再取平均值;
通常称为死亡指数,表示与时间因素相关的系数即疾病死亡率随时间变化的速率;
表示年龄因子对其敏感程度;
为随机扰动项并且满足
。
为确保模型系数求解时获得唯一确定的数值解,对参数进行了Lee和Carter标准化处理:
(7)
其中T为待估计死亡率数据中包含的日历年总数。
我们的目标是总误差尽可能小,为了避免误差正负抵消,我们用总误差平方和构造损失函数:
(8)
右边关于
求导并令其为零,整理得
的估计量:
(9)
死亡率取对数后的方差近似等于死亡人数
的倒数,即
(10)
加权最小二乘法不需要对参数
的估计结果进行调整。
3.3. 数据处理与预测
3.3.1. 发病率的ARIMA模型
首先对三种疾病进行曲线拟合,如图1所示。然后用KPSS进行平稳性的检验,以病毒性肝炎为例用ARIMA模型进行模型拟合和结果的预测,并且绘制出置信区间,如图2所示。
Figure 1. Comparison chart of incidence trends of three infectious diseases from 2014 to 2023
图1. 2014-2023年三种传染病发病率趋势对比图
Figure 2. ARIMA prediction of viral hepatitis incidence rate
图2. 病毒性肝炎发病率ARIMA预测
由图2可知置信区间为95%,对应的年份在2024~2026年病毒性肝炎发病率落在粉色区间。同时也给出预测值,但是由于抽样误差等不确定性因素,真实的发病率不一定恰好等于预测值,因此置信区间波动比较范围比较大。
模型的预测结果以及参数的计算结果。
Table 3. Prediction results of the ARIMA model for incidence rate
表3. 发病率ARIMA模型预测结果
指标 |
Value |
Standard Error |
T-Statistic |
P-Value |
Constant |
0038649 |
0.046159 |
0.83731 |
0.40242 |
AR{1} |
−0.91062 |
0.96012 |
−0.94844 |
0.3429 |
MA{1} |
0.62828 |
1.1505 |
0.54607 |
0.58502 |
Variance |
0.0058746 |
0.0031419 |
1.8698 |
0.061517 |
由表3中各参数的P值大于常见显著性水平0.05,说明AR{1}、MA{1}项在模型中对病毒性肝炎发病率预测的影响不是特别显著。
由模型的计算得出:观测值数目:10,误差自由度:8;均方根误差:4.62,R2 = 0.203,调整R2 = 0.103,F统计量(常量模型):2.04,p值 = 0.191。结合R2 = 0.203,该值比较低,说明ARIMA模型对预测数据的拟合度程度不是很好,仅能解释20.3%的发病率数据。下面用Lee-Carter模型进行拟合预测。
3.3.2. 发病率的Lee-Carter模型
下面用Lee-Carter模型进行拟合预测。
Figure 3. Prediction trend chart of the incidence rates of three diseases
图3. 三种疾病发病率预测趋势图
Figure 4. Prediction chart of total disease incidence based on the Lee-Cater model
图4. Lee-Cater模型疾病的总发病率预测图
根据图4的模型预测Kt (时间趋势Kt与防控干预对死亡风险的调控逻辑——正值代表“时间–死亡”协同升高,负值体现反向抑制,近零暗示干预已锚定死亡风险。)将会波动下降,但总的发病率仍受基准ai起主导因素。在图3中,病毒性肝炎:尽管Kt下降可能减缓发病率的上升,但是其较高的基准发病率仍会导致总体居高不下;肺结核:Kt下降可能加速发病率的降低,但是需要警惕下降趋缓后的潜在反弹风险;梅毒:因为敏感度系数非常小,可能保持目前的趋势,维持稳定。
Table 4. Evaluation results of Lee-Carter model parameters for incidence rates
表4. 发病率率Lee-Carter模型参数评价结果
指标 |
基准死亡率ai |
敏感性系数bi |
病毒性肝炎 |
4.4797 |
−0.2180 |
肺结核 |
3.9784 |
−0.9739 |
梅毒 |
3.5215 |
0.0636 |
基准参数ai反映疾病固有流行基线(由病原体传播能力、人群易感基础决定),时间敏感系数bi反映了各疾病发病率对时间趋势(Kt)的敏感程度。
根据表4可知:病毒性肝炎(bi = −0.2180),负向关联,则因疫苗免疫屏障(如新生儿乙肝接种)与母婴阻断等长期干预,使“Kt上升(防控强化)”反而压缩传播空间,虽基线ai仍较高,但已形成对短期趋势的“缓冲效应”。肺结核(bi = −0.9739):敏感性极强,源于其空气传播的高流动性——国家《结核病防治规划》构建的分级诊疗与主动筛查体系,使“时间趋势Kt波动”直接作用于传播链切断效率Kt下降时筛查加强,发病率加速降低;反之潜伏感染复燃风险凸显,呼应图4中Kt反弹预警;梅毒(bi = 0.0636):敏感性较弱,其性传播的隐蔽性(隐性感染占比高)及防控逻辑有关:哨点监测与性健康宣传的效果依赖长期行为养成,短期Kt波动难以快速改变流行轨迹。
3.3.3. 死亡率的ARIMA模型
首先对三种疾病进行曲线拟合,如图5所示。然后用KPSS进行平稳性的检验,以病毒性肝炎为例用ARIMA模型进行模型拟合和结果的预测,并且绘制出置信区间,如图6所示。
Figure 5. Comparative chart of mortality rate trends for three infectious diseases from 2014 to 2023
图5. 2014~2023年三种传染病死亡率趋势对比图
Figure 6. ARIMA prediction chart of viral hepatitis mortality rate
图6. 病毒性肝炎死亡率ARIMA预测图
由图6可知置信区间为95%,基于ARIMA模型在2024~2026年病毒性肝炎发病率落在粉色区间,预测值紧凑置信区间,显示波动范围不大。由于抽样误差等不确定性因素,真实的死亡率不一定恰好等于预测值。
Table 5. Prediction results of the ARIMA model form mortality rate
表5. 死亡率ARIMA模型预测结果
指标 |
Value |
Standard Error |
T-Statistic |
P-Value |
Constant |
0.11472 |
0.65586 |
0.17491 |
0.86115 |
AR{1} |
1 |
2.7595 |
0.36238 |
0.71707 |
MA{1} |
−0.39227 |
2.5229 |
−0.15548 |
0.87644 |
Variance |
0.1193 |
0.12744 |
0.93619 |
0.34917 |
由表5中各参数的P值大于常见显著性水平0.05,说明AR{1}、MA{1}项在模型中对病毒性肝炎发病率预测的影响不是特别显著。
由模型的计算得出:观测值数目:10,误差自由度:8;均方根误差:0.0372,R2 = 0.285,调整R2 = 0.196,F统计量(常量模型):3.19,p值 = 0.191。结合R2 = 0.285,该值比较低,说明ARIMA模型对预测数据的拟合度程度不是很好,仅能解释28.5%的发病率数据。以此用Lee-Carter模型进行拟合预测。
3.3.4. 死亡率的Lee-Carter模型
根据图8的模型预测,若2023年后的Kt会持续上升,结合图7数据预测病毒性肝炎死亡率将进一步上升,梅毒死亡率继续下降,肺结核死亡率保持稳定,但总的发病率仍受基准ai起主导因素。
由表6可知:病毒性肝炎(ai = −3.1018, bi = 0.6996)的ai的负值小(慢性化低基线致死,急性感染多自愈),但bi正值显著,呼应图中Kt上升时死亡率陡升——若慢乙肝“分级诊疗–抗病毒治疗–肝硬化监测”体系未有效落地,长期感染向肝衰竭/肝癌的进展将随时间加速,放大死亡风险;肺结核(ai = −1.7726, bi = −0.0743)的ai负值大但bi趋近于0,因国家结核病定点诊疗体系(免费抗结核药、全程督导)已稳定死亡风险,故图中死亡率保持平稳;梅毒(ai = −5.8690, bi = −0.7106)的ai负值最大(早期可经青霉素根治,基线致死极低),bi负向显著,对应Kt上升时死亡率快速下降——哨点筛查扩围、性健康服务强化推动早期病例及时治愈,晚期心血管/神经梅毒等致死性并发症被遏制,与模型预测一致。
Figure 7. Prediction trend chart of mortality rates of three diseases
图7. 三种疾病死亡率预测趋势图
Figure 8. Prediction chart of total disease mortality rate based on the Lee-Cater model
图8. Lee-Cater模型疾病的总死亡率预测图
Table 6. Evaluation results of Lee-Carter model parameters for mortality rates
表6. 死亡率Lee-Carter模型参数评价结果
指标 |
基准死亡率ai |
敏感性系数bi |
病毒性肝炎 |
−3.1018 |
0.6996 |
肺结核 |
−1.7726 |
−0.0743 |
梅毒 |
−5.8690 |
−0.7106 |
4. GM (1, 1)模型的建立与拟合
4.1. GM (1, 1)模型的构建
灰色系统理论是基于未经处理的非负离散数据列,经过一次累加处理,生成一个有序且降低随机性的新离散序列。然后通过构建相应的差分方程,来建立微分方程模型,求得到离散点处的解后,再通过累减生成对初始数据的逼近估算,最终基于该估计结果对原始数据的后续发展趋势进行预测[10]。
设
是初始非负数据,对其进行一次累加生成新的数据
:
(11)
令
为数列
的紧邻生成序列,即:
(12)
且
下面引入矩阵:
(13)
引入最小二乘法(OLS),定义:
(14)
(15)
令:
(16)
则:
(17)
式(17)称为GM (1, 1)的灰色微分方程,其中b为灰作用量,
为发展系数。
对于原始序列
累加r次的序列为
,定义级比
为累加序列中相邻两项的比值:
(18)
如果
且区间长度
,称累加r次的序列
具有准指数规律
定义原始序列
的光滑比即:
(19)
假设
为非负序列,那么随着k的增加,
最终会逐渐接近于0,因此要使
具有准指数规律,即
,
,只需确保
即可,此时有序列
的级比
。
4.2. 数据来源及一次拟合
卫生总费用、政府卫生支出、社会卫生支出、个人现金卫生支出及人均卫生费用数据均来自国家卫生健康统计年鉴,时间跨度为2015~2023年,数据经标准化校验确保准确性数据来源:
https://data.stats.gov.cn/。
Table 7. Graph of total health expenditure from 2015 to 2023
表7. 2015~2023年卫生总费用图
指标 |
2015年 |
2016年 |
2017年 |
2018年 |
2019年 |
卫生总费用(亿元) |
40974.64 |
46344.88 |
52598.28 |
59121.91 |
65841.39 |
指标 |
2020年 |
2021年 |
2022年 |
2023年 |
|
卫生总费用(亿元) |
72175 |
76844.99 |
85327.49 |
90575.81 |
|
表7的卫生总费用在2015~2023年间线性增长,呈持续上升趋势,从2015年约4 × 104增长至2023年的9 × 104,复合年均增长率达9.8%。反映医疗需求扩大,体现了社会对医疗卫生资源投入的持续增加。
Table 8. Graph of various health expenditures from 2015 to 2023
表8. 2015-2023年各卫生支出图
指标 |
2015年 |
2016年 |
2017年 |
2018年 |
2019年 |
政府(亿元) |
12475.28 |
13910.31 |
15205.87 |
16399.13 |
18016.95 |
社会(亿元) |
16506.71 |
19096.68 |
22258.81 |
25810.78 |
29150.57 |
个人(亿元) |
11992.65 |
13337.9 |
15133.6 |
16911.99 |
18673.87 |
人均(元) |
2962.18 |
3328.61 |
3756.72 |
4206.74 |
4669.34 |
指标 |
2020年 |
2021年 |
2022年 |
2023年 |
|
政府(亿元) |
21941.9 |
20676.06 |
24040.89 |
24147.89 |
|
社会(亿元) |
30273.67 |
34963.26 |
38345.67 |
41676.8 |
|
个人(亿元) |
19959.43 |
21205.67 |
22940.94 |
24751.13 |
|
人均(元) |
5112.34 |
5439.97 |
6044.09 |
6425.32 |
|
表8在医疗卫生总费用构成中,政府、社会、个人支出呈现差异化增长特征:政府支出经历“增长–回调–回升”波动,社会支出持续加速(年均增12.3%),个人支出稳步递增(年均增9.5%),人均卫生费用从2962.18元升至6425.32元。各主体增长规律折射卫生筹资结构动态优化,为后续投入效率与公平性研究提供时间序列支撑。
根据上述数据进行一次拟合曲线。
Figure 9. Comparison chart of fitted curves for each branch of expenditures
图9. 各分支费用拟合曲线对比图
由图9分析得出:政府支出在短期波动显著,但是长期趋势向上;社会支出拟合优度高,能较好地捕捉其稳定的增长趋势;个人支出费用拟合曲线斜率较低,趋势较缓。总体趋势可以简单预测在接下来五年后社会支出可能突破5万亿元,即政府支出是基层医疗和公共卫生的主要资金来源。
4.3. 对于医疗总费用利用改进的灰色模型进行数据处理及预测
利用灰色预测模型对原始数据进行数据处理。
Figure 10. Smoothed ratio curve of total medical expenditure
图10. 医疗总费用光滑比曲线
根据图10光滑比该数据具有准指数规律,下面进行GM (1, 1)模型的数据处理。
选取前六组为训练数据,后三组为实验数据,如表9所示。
Table 9. Training data and experimental data table
表9. 训练数据和实验数据表
训练数据 |
实验数据 |
时间 |
医疗总费用(亿元) |
时间 |
医疗总费用(亿元) |
2015 |
40974.64 |
2021 |
76844.99 |
... |
... |
2022 |
85327.49 |
2020 |
72175.00 |
2023 |
90575.81 |
Figure 11. Visualization of residuals of fitted data
图11. 拟合数据残差直观图
在进行统计模型的验证和分析时,来评估模型对数据的拟合程度常用的两种方法是残差检验和级比偏差检验。如图11所示:通过计算平均相对残差和平均级比残差,可以量化模型的拟合效果。
Table 10. Data of grey model fitted curve
表10. 灰色模型拟合曲线数据
序号 |
年份 |
原始数据 |
拟合数据 |
相对残差 |
级比残差 |
1 |
2015 |
40974.64 |
40974.64 |
0 |
0 |
2 |
2016 |
46344.88 |
48709.851 |
0.0510298 |
0.0309829 |
3 |
2017 |
52598.28 |
53383.4909 |
0.0149285 |
0.0342866 |
4 |
2018 |
59121.91 |
58505.5598 |
0.0104251 |
0.0249180 |
5 |
2019 |
65841.39 |
64119.0838 |
0.0261584 |
0.0158359 |
6 |
2020 |
72175.00 |
70271.2174 |
0.0263773 |
0.0001606 |
7 |
2021 |
76844.99 |
77013.6393 |
0.0021947 |
0.0294121 |
8 |
2022 |
85327.49 |
84402.9868 |
0.0108348 |
0.0129379 |
9 |
2023 |
90575.81 |
92501.3316 |
0.0212587 |
0.0325112 |
进行残差检验和级比偏差检验,计算结果由表10可知:平均相对残差为0.020401,表明数据的离散程度相对较小,模型能够较好地捕捉数据的总体趋势;平均级比残差为0.022631,同样表明残差的分布比较集中,模型的拟合效果较好。结果都表明该模型对数据的拟合程度不错。这意味着模型能够合理地解释数据的变化,并且可以作为预测未来趋势的可靠工具。
利用数学MATLAB软件,使用GM (1, 1)模型,利用最小二乘法得到发展系数
= 0.11015,灰作用量b = 42758.4087求解模型预测结果如图12所示。
Figure 12. Fitted curve chart of grey model prediction data
图12. 灰色模型预测数据拟合曲线图
根据以上数据列出拟合预测结果。
Table 11. Prediction results of the grey model
表11. 灰色模型预测结果
2024年 |
2025年 |
2026年 |
2027年 |
2028年 |
101376.7009 |
111103.649 |
121763.8838 |
133446.9527 |
146250.9952 |
根据灰色模型预测,2024到2028年的我国卫生总费用持续上升,由表11可以看出预计从10.1万亿元增至14.6万亿元,这一增长主要受人口老龄化的加剧、同时还有第一、二类疾病的发病率等有关,同时还与各种医疗方面的新技术以及攻克各种疾病的难点有关。
5. 总结
本研究将灰色系统理论中的GM (1, 1)模型与Lee-Carter模型有机地结合起来。GM (1, 1)模型能够把握数据的整体趋势,而Lee-Carter模型对传染病数据分析方面具有显著优势。探索突破单一模型数据假设约束的可能性,捕捉医疗费用动态规律与传染病长期趋势。另一方面,构建传染病多维预测框架,从多维度分析传染病的发病率、死亡率和医疗费用,初步分析了疾病与经济的相关性并且建立“模型参数–疾病机制–政策工具”的关联逻辑。
结合卫生经济与传染病数据,量化分析疾病负担,为医保政策的调整、医疗资源的分配等提供科学依据。更加全面地制定相关政策、并且深入地了解疾病造成经济负担的实际情况,从而制定出更加符合实际需求、更加科学合理的政策。结合传染病发病趋势的分析,可以更加合理地分配医疗资源,缓解医疗资源供需矛盾,提高资源配置效率。构建传染病预测模型,通过动态监测发病趋势,提升对突发公共卫生事件的应急响应能力。这有助于在传染病爆发初期及时发现并采取措施,防止病毒扩散蔓延,降低对社会经济的影响。同时,预警能力的提升也将为政府决策提供有力支持,确保在关键时刻能够迅速做出正确决策。但研究存在显著局限:数据维度仅覆盖三类传染病,未纳入耐药性、社会经济等混杂因素;参数估计依赖历史数据稳态假设,对突发公共卫生事件的适应性未验证。
未来可拓展方向包括:拓展病种至HIV、流感等复杂传染病,整合病原体变异、政策干预强度等多源数据;通过交叉验证优化模型,探索极端场景下的预测能力。本研究为卫生规划提供一种可验证的量化参考工具——如病毒性肝炎的参数特征提示需强化慢病程管理投入,肺结核的稳定趋势支持现有诊疗政策延续,以期为精准配置卫生资源提供初步数据支撑。
基金项目
中国轻工业联合会教育工作分会2024年度课题(QGJY2024159);天津市教委科研计划项目(2018KJ113)。