基于组合模型的河南省甲型H1N1流感流行特征分析与预测
Analysis and Prediction of Epidemic Characteristics of H1N1 Influenza in Henan Province Based on Combination Models
DOI: 10.12677/aam.2024.1311459, PDF, HTML, XML,    科研立项经费支持
作者: 邵 影, 徐梦婷, 刁羽雪, 郑伊静, 杜彦斌:河南科技大学数学与统计学院,河南 洛阳
关键词: 流感组合模型ARIMALSTMBP神经网络Influenza Combination Model ARIMA LSTM BP Neural Network
摘要: 探讨河南省甲流的流行特点和精准预测模型,为流感的预防控制提供参考依据。在河南省卫健委收集2013年~2024年流感病例数,对流感流行时空特点进行分析;然后,利用Python软件和2018年1月~2022年11月河南省流感发病数据构建了ARIMA(8,1,9)模型,并使用2022年12月~2024年2月的发病数进行了测试,得到了评估指标RMSE;接着,在ARIMA模型的基础上利用深度学习算法进行残差修正,建立了ARIMA-LSTM、ARIMA-BP和ARIMA-SVM的组合模型,比较几个模型的预测效果。结果发现河南省流感发病趋势逐年上升,且具有显著的季节特征,每年的12月~3月是发病高峰期。模型拟合结果显示,与深度学习相结合的组合模型能够提高传统ARIMA模型的预测精度,ARIMA-BP和ARIMA-SVM组合模型更适合于传染病的追踪预测。
Abstract: Explore the epidemic characteristics and precise prediction model of H1N1 in Henan Province to provide a reference for influenza prevention and control. Influenza case numbers in Henan Province from 2013 to 2024 were collected by the Health Commission of Henan Province to analyze the temporal and spatial characteristics of influenza. Then, using the influenza incidence data from January 2018 to November 2022 in Henan Province, an ARIMA (8,1,9) model was constructed, and the incidence numbers from December 2022 to February 2024 were tested to obtain the evaluation index RMSE. Subsequently, based on the ARIMA model, deep learning algorithms were used for residual correction, establishing ARIMA-LSTM, ARIMA-BP, and ARIMA-SVM combined models, and comparing the predictive effects of these models. Results showed that the influenza incidence trend in Henan Province is increasing year by year, with significant seasonal characteristics, and the peak incidence is from December to March each year. The model fitting results show that the combined model with deep learning can improve the prediction accuracy of traditional ARIMA models and has smaller residuals, and the combination of ARIMA-BP and ARIMA-SVM models is more suitable for predicting infectious diseases.
文章引用:邵影, 徐梦婷, 刁羽雪, 郑伊静, 杜彦斌. 基于组合模型的河南省甲型H1N1流感流行特征分析与预测[J]. 应用数学进展, 2024, 13(11): 4772-4780. https://doi.org/10.12677/aam.2024.1311459

1. 引言

甲型H1N1流感,是一种急性呼吸道传染病。2009年在墨西哥暴发了含有猪流感病毒基因的甲型H1N1流感病毒感染,并造成世界大流行,后被称为新型甲型H1N1流感[1]

人群对新型甲型H1N1流感病毒普遍易感,一般表现为流感样症状,少数病例病情重,进展迅速,可出现病毒性肺炎,合并呼吸衰竭、多脏器功能损伤,严重者可以导致死亡[2]。近年来的流感监测数据显示流行类型主要为甲型H1N1流感,且有显著上升趋势。甲型H1N1流感传染性强,有报导认为是季节性流感的4倍,流感轻型病例和隐形感染者占感染者中绝大多数,传染源识别与管理困难;而且在感染后自发病前1天至发病后第7天甚至到第10天均有传染性,而潜伏期相对较短(平均1~3天,最长7天) [3]。尤其是在我国人口流动频繁,城市人口密集而建筑居室空气状况相对较差,流感的传播复制率高和传代时间短,一旦进入秋冬季,气候适宜的环境下容易引起此起彼伏连续不断的局部爆发和全省性的广泛流行。因此,掌握流感的流行特点和精准预测模型对流感的防控至关重要。

钟沛丽(2020) [4]基于我国13年的流感病例数据研究我国流感流行特征、南北方差异,采用了ARIMA和LSTM建立了全国流感预测模型。汪鹏等人(2018) [5]探讨比较了ARIMA模型和Holt-Winters模型在武汉市流感样病例预测中的应用,为流感防控提供科学依据。李荣庭等人(2022) [6]针对2009年美国爆发的甲型H1N1流感新增病例的少样本数据集,引入支持向量机对ARIMA模型误差进行优化,建立一种对未来流感新增病例数的预测模型,使得该模型的预测结果不再依赖大量的数据并具有较高的可信度。结果表明,SVM优化后的ARIMA模型无需大量数据亦能保证预测的结果准确。因此,我们建立ARIMA模型与BP神经网络、SVM、LSTM组合模型,对比他们的预测精度并对河南省甲型H1N1流感趋势进行预测。

2. 资料与方法

2.1. 数据来源

本研究采用的河南省流感数据来源于河南省卫生健康委员会(https://wsjkw.henan.gov.cn)每月报告的法定传染病疫情概况中的2013年1月至2024年2月的流行性感冒发病数,共11年的月度数据。

2.2. 模型与方法

(1) ARIMA模型

ARIMA模型是一种常用的时间序列模型,利用数据本身的历史信息来预测未来。它主要由自回归模型(AR)、差分过程(I)和移动平均模型(MA)构成。ARIMA模型全称为差分整合移动平均自回归模型(autoregressive integrated moving average model),简记为ARIMA(p,d,q)模型[7]

{ Φ( B ) d x t =Θ( B ) ε t , E( x s ε t )=0, E( ε t )=0,Var( ε t )= σ ε 2 ,E( ε t ε s )=0,st,

式中, d = ( 1B ) d Φ( B )=1 ϕ 1 B ϕ p B p ,为平稳可逆ARMA(p,q)模型的自回归系数多项式。

其中,AR部分用于处理时间序列的自回归部分,它考虑了过去若干时期的观测值对当前值的影响;I部分用于使非平稳时间序列达到平稳,通过差分处理,消除了时间序列中的趋势和季节性因素;MA部分用于处理时间序列的移动平均部分,它考虑了过去的预测误差对当前值的影响。结合这三部分,ARIMA模型既可以捕捉到数据的趋势变化,又可以处理那些有临时、突发的变化或者噪声较大的数据。所以,ARIMA模型在很多时间序列预测问题中都有很好的表现。

(2) LSTM模型

LSTM模型(长短期记忆网络)是传统RNN (递归神经网络)的变体,是一种特殊类型的RNN。LSTM网络是通过引入“门”的概念来保存长期信息。这些门可以控制信息的流动,决定信息是否应该被保留或遗忘。这样的三个门分别被称为:输入门(i)、遗忘门(f)和输出门(O)。它们的计算公式为[8]

O=σ( W[ x ( t ) , h ( t1 ) ]+ b o ) , f=σ( W[ x ( t ) , h ( t1 ) ]+ b f ) , i=σ( W[ x ( t ) , h ( t1 ) ]+ b i ) ,

h ( t ) =Otanh( C ( t ) ) , C ( t ) =f C ( t1 ) +itanh( W C [ x ( t ) , h ( t1 ) ]+ b c ) ,

(3) BP神经网络

BP神经网络的结构可以分为三部分,输入层、输出层和隐含层。其中输入层和输出层只有一层神经元,隐含层神经元则可以有多层[5]。各层的神经元仅与相邻层的神经元之间互相全连接,同层内的神经元之间没有连接,各层的神经元之间没有反馈连接,从而构成具有层次结构的前馈型神经网络系统。

(4) SVM模型

支持向量机(SVM)模型,作为一种判别式分析方法,广泛应用于数据分析和回归预测中。在机器学习领域,SVM作为一种有监督学习算法,其应用不仅限于模型识别与分类,还广泛涉及回归分析以及异常值检测。SVM模型希望通过将边界的空间最大化,将样本分成两类,建立决策边界。这使得SVM在高维空间中拥有良好的泛化能力,能够在多种数据类型和领域中高效操作。

2.3. 组合模型原理

(1) ARIMA模型的构建

首先对河南省2018~2024年流感发病数建立ARIMA模型,并对河南省2024年3月~2024年12月的流感发病数进行了预测。

(2) ARIMA-LSTM组合模型的构建

a) 归一化。将ARIMA模型的残差进行归一化,即将其放缩至(−1, 1)范围内。

b) 构建LSTM模型。先初始化一个Sequential模型,并向模型添加LSTM层,设置50个LSTM单元。然后,为了将LSTM层的输出转换为最终的预测值,添加了一个全连接层(Dense层),并指定损失函数为均方误差(MSE),优化器为Adam。使用一个循环遍历测试集,通过这种方式,模型可以利用自身的预测作为输入进行下一步的预测。

c) 反归一化。将LSTM模型预测的缩放后的值转换回原始的比例。

d) 计算ARIMA模型的残差,并用LSTM模型的残差调整ARIMA模型的预测结果。将ARIMA模型的预测结果与LSTM模型的调整残差相加,从而得到调整后的预测值。这样能够减少ARIMA模型中可能存在的系统偏差。组合模型流程图见图1

Figure 1. Flow chart of ARIMA-LSTM combination model

1. ARIMA-LSTM组合模型流程图

3. 结果

3.1. 河南省甲型H1N1流感流行特征分析

(1) 总体趋势不断上升

2013年至2019年,河南省流感病例数呈缓慢增加趋势,波动幅度较小,每年患流感人数较为平稳。在2020年,流感病例显著增加,达到第一个小高峰,相较于上一年增加了192,807例,环比增长速度为556.12%。2021年出现明显回落后,显示出一些波动,但在2023年由于新冠疫情解封急剧上升,达到最高峰。2024年秋冬季再次达到小高峰,见图2

Figure 2. Time series chart of influenza incidence in Henan Province

2. 河南省流感发病数时序图

(2) 具有明显季节特征

通过对比河南省不同年份的每月流感病例数据发现,12月份的月平均流感病例数最多,达到32,086例/年,7月份的病例数最少,约1502例/年。流感发病数最高主要集中在12月份、1月份、3月份,共占全年的63.8%,而6月份和7月份是流感发病数最低的两个月,约占全年的2.6%,河南省流感具有明显的季节性,见图3

Figure 3. Monthly distribution of influenza cases in Henan Province

3. 河南省流感病例月份分布

3.2. 基于ARIMA模型的流感线性趋势预测结果

(1) 平稳性检验

结合河南省流感发病数序列的时序图和ADF检验,发现序列非平稳,进行一阶差分处理,之后序列达到平稳,平稳性检验结果见表1

Table 1. First order difference stationarity test

1. 一阶差分平稳性检验

ADF值

P值

临界值

1%

5%

10%

−7.05293

<0.05

−3.535

−2.907

−2.591

(2) 模型识别

使用matplotlib和statsmodels分别绘制差分前和差分后的ACF (自相关图)和PACF (偏自相关图) (见图4),对模型的阶数进行初步判断。然后结合AIC和BIC信息准则,和最小RMSE确定模型阶数,为ARIMA(8,1,9)。模型拟合效果图见图5

Figure 4. Differential autocorrelated graph and partial autocorrelated graph

4. 差分后的自相关图和偏自相关图

Figure 5. Comparison results of ARIMA model fitting

5. ARIMA模型拟合对比效果图

(3) 模型检验

由QQ图来判断残差是否服从正态分布,可以看出点密集地分布在对角线左右,可认为该序列近似服从正态分布(见图6)。对拟合的模型残差进行白噪声检验从而判断残差之间是否相关。从输出结果可以看出,残差P值大于0.05,证明该残差序列为白噪声序列,模型显著有效。但模型拟合值与预测值之间还存在较大的误差,RMSE较大,因此我们基于深度学习算法建立残差修正的组合模型。

Figure 6. Residual normal Q-Q diagram

6. 残差正态Q-Q图

3.3. 基于组合模型的流感非线性趋势预测结果

基于深度学习算法的模型残差修正,分别建立ARIMA-LSTM模型、ARIMA-BP模型和ARIMA-SVM模型,对流感数据再次进行拟合,我们发现拟合效果优于单独的ARIMA模型。通过对比可知,ARIMA-BP、ARIMA-LSTM和ARIMA-SVM组合模型的预测效果显著优于单独的ARIMA模型和LSTM模型,说明组合模型在传染病的追踪预测过程中具有更高的精确度。且ARIMA-BP模型误差RMSE最小,效果最好,模型预测值与真实值对比效果见图7

Figure 7. Comparison between real and predicted values of ARIMA-BP model

7. ARIMA-BP模型的真实值与预测值的对比图

4. 讨论

2017年以来,我国流感发病率和严重程度不断上升。根据国家流感中心的数据,截至2017年12月31日,流感病毒的检出率呈现显著上升的趋势,流感暴发疫情的次数也远超往年。2020年伊始,新冠疫情爆发与秋冬季流感盛行的交加,给全球各地的防疫工作造成了巨大压力。流感疫情的爆发不仅给人们的身体带来了严重的伤害,而且增加了患者个人和全国总体的经济负担。研究显示,流感可导致较高的门诊和住院经济负担,中国流感患者门诊人均总直接经济负担约为768~999.9元人民币,住院病例的经济负担约为9832元人民币。2011~2019年中国季节性流感每年造成的经济负担(包括直接医疗成本、直接非医疗成本和间接成本)约为330亿元~1060亿元人民币,相当于2019年中国生产总值(gross domestic product, GDP)的0.03%~0.1%,其中儿童和老人的经济负担最重[9]

研究流感的流行特征和趋势预测对于检测流感的发展,做好防控有着重要的现实意义。国内外很多学者对不同省份流感建立预测模型,主要分为两类:时间序列模型和机器学习算法模型。然而,单独的时间序列模型和机器学习算法在流感预测方面都存在着较大的误差。研究者在ARIMA模型的基础上,不仅探讨了序列的条件异方差性,而且使用了不同组合方式将ARIMA-GARCH模型同机器学习模型LSTM模型结合起来,为传染病预测模型提供了新思路。宋舸[10]探讨了ARIMA与SVM的组合模型应用在新冠病毒发病趋势的预测。对比之后,ARIMA-SVM组合模型的预测效果比单个ARIMA、SVM模型有更高的预测准确度。因此,本文融合了ARIMA模型与机器学习模型,构建了ARIMA-LSTM、ARIMA-BP、ARIMA-SVM组合模型,并应用于河南省流感的预测中,结果均显示组合模型的效果更佳。本文的研究结果不仅为流感的防控预测提供参考,也能应用于其他传染病的追踪预测中。

基金项目

河南科技大学大学生创新创业训练计划项目(2024237),河南省科技攻关重点研究推广项目(242102320071)。

参考文献

[1] 中华人民共和国国家卫生和计划生育委员会. 流行性感冒诊疗方案(2018年版) [J]. 全科医学临床与教育, 2018, 16(2): 127-130.
[2] 陈晨, 刘国恩, 曾光. 中国流感疾病负担现状、问题与挑战及应对策略[J]. 中国公共卫生, 2022, 38(11): 1494-1498.
[3] 林燕, 于河, 李健. 2018年跨年流行性感冒的特点与中医药防治[J]. 中国临床医生杂志, 2018, 46(3): 260-261.
[4] 钟沛丽. 我国流感流行特征、影响因素及模型预测研究[D]: [博士学位论文]. 广州: 广州中医药大学, 2020.
[5] 汪鹏, 彭颖, 杨小兵. ARIMA模型与Holt-Winters指数平滑模型在武汉市流感样病例预测中的应用[J]. 现代预防医学, 2018, 45(3): 385-389.
[6] 李荣庭, 段鹏, 胡瑞等. 基于ARIMA和SVM混合模型的流感新增病例预测[J]. 云南民族大学学报(自然科学版), 2022, 31(1): 103-110.
[7] 王燕. 应用时间序列分析[M]. 第6版. 北京: 中国人民大学出版社, 2022: 2-6.
[8] 郑史雄, 雷川鹤, 贾宏宇, 等. 基于LSTM的近断层桥梁地震响应和易损性快速预测方法[J/OL]. 中国公路学报, 1-15.
http://kns.cnki.net/kcms/detail/61.1313.U.20240920.1605.008.html, 2024-10-12.
[9] 查文婷. 基于数学模型流行性感冒预测、预警和传播能力评估[D]: [博士学位论文]. 长沙: 湖南师范大学, 2021.
[10] 宋舸, 李小杉, 王克伟. ARIMA与SVM组合模型在新型冠状病毒肺炎预测中的应用[J]. 中华医院感染学杂志, 2022, 32(1): 151-155.