基于外部知识辅助的人群健康数据预测方法
Population Health Data Prediction Method Based on External Knowledge Assistance
DOI: 10.12677/mos.2024.133345, PDF,    国家自然科学基金支持
作者: 傅建华, 何杏宇, 张鑫泽, 梁 涛:上海理工大学出版印刷与艺术设计学院,上海
关键词: 人群健康数据预测深度学习外部知识辅助Population Health Data Prediction Deep Learning External Knowledge Assistance
摘要: 随着深度学习技术的发展和引入,现有人群健康数据预测方法的性能不断提高,但仍然受到数据质量问题的限制。为此,本文提出了一种基于外部知识辅助的人群健康数据预测方法。首先,该方法以与冠心病患病率相关性较强的高血压患病率数据和选区老年人口比例数据作为外部知识辅助填补冠心病患病率数据稀疏部分,对上述数据进行预处理后,构建CNN模型对高血压患病率数据和选区老年人口比例数据提取特征矩阵,并和随机噪声、部分完整的冠心病患病率数据作为CGAN模型的输入,以生成用来填补原冠心病患病率数据中稀疏部分的人工样本;然后,该方法将填补后的完整数据集通过ARIMA模型拟合得到模型特征,并输入GRU模型进行预测分析。实验结果表明,本文方法在MAE和RMSE上和KNN模型和RNN模型相差不多,但MPAE大大降低。
Abstract: With the development of deep learning technologies, the performance of existing population health data prediction methods has been improved, but still suffers the limitation of data quality. In view of this, this paper proposes a population health data prediction method based on external knowledge assistance. In this method, firstly, the data of hypertension prevalence and elderly population proportion are utilized as external knowledge to fill the sparse part of coronary heart disease prevalence, due to their strong correlation, their feature matrixes are extracted via the CNN model and input into the CGAN model, with the complete coronary heart disease prevalence data and random noise part, to generate artificial samples; Further, the complete data set after filling is fitted by the ARIMA model to obtain the model features, and input into the GRU model for prediction analysis. The experiment results show that the proposed method has similar MAE and RMSE to RNN and KNN models, but less MPAE than them.
文章引用:傅建华, 何杏宇, 张鑫泽, 梁涛. 基于外部知识辅助的人群健康数据预测方法[J]. 建模与仿真, 2024, 13(3): 3784-3796. https://doi.org/10.12677/mos.2024.133345

参考文献

[1] 蔺洁, 李霞, 刘佳. 基于指数平滑模型的克拉玛依市流感样病例预测分析[J]. 疾病预防控制通报, 2021, 36(6): 8-11.
[2] 耿利彬, 杨育松, 王娅琼, 等. ARIMA模型在流感样病例发病预测中的应用[J]. 首都公共卫生, 2021, 15(1): 45-47.
[3] 陈宝, 丘美娇, 林尤斌, 等. SARIMA模型在海南某医院流感样病例预测中的可行性分析[J]. 南昌大学学报(医学版), 2022, 62(2): 75-78, 99.
[4] 王燕. 应用时间序列分析[M]. 北京: 中国人民大学出版社, 2015.
[5] 杜垚强, 杨叶晓青, 徐怡琳, 等. 股骨骨折手术患者临床输血机器学习预测模型的构建分析[C]//中国输血协会. 中国输血协会第十一届输血大会会议论文汇编(2022.09大连)——信息化专题. 2022: 2.
[6] 余璟璐, 江丽莉, 裴立红. 空腹血糖正常人群中2型糖尿病及糖耐量受损的ANN预测模型研究[J]. 中国卫生检验杂志, 2023, 33(16): 1971-1974.
[7] 严虹, 刘国烨, 李砚, 等. 深度学习在检验医学中的研究与应用[J]. 中华检验医学杂志, 2019, 42(12): 1063-1066.
[8] Singh, S., Parmar, K.S., Singh Makkhan, S.J., Kaur, J., Peshoria, S. and Kumar, J. (2020) Study of ARIMA and Least Square Support Vector Machine (LS-SVM) Models for the Prediction of SARS-CoV-2 Confirmed Cases in the Most Affected Countries. Chaos, Solitons and Fractals, 139, Article ID: 110086. [Google Scholar] [CrossRef] [PubMed]
[9] 张婷婷. 面向失衡数据集的数据缺失问题研究[D]: [硕士学位论文]. 哈尔滨: 哈尔滨理工大学, 2017.
[10] 符祥远. 基于深度学习的交通流数据填补及预测[D]: [硕士学位论文]. 西安: 长安大学, 2023.
[11] 史继新, 张文增, 冀国强, 等. ARIMA模型在流感样病例预测预警中的应用[J]. 首都公共卫生, 2010, 4(1): 12-16.
[12] 戴皓云, 周楠, 任香, 等. 基于ARIMA模型各亚型流行性感冒流行特征与趋势预测[J]. 疾病监测, 2022, 37(10): 1338-1345.
[13] 杨真真, 谢艳秋, 靳旭东, 等. 基于ARIMA时间序列模型的传染病发展趋势预测——以COVID-19为例[J]. 中国科技信息, 2021(3): 70-72.
[14] 李申龙, 王振平, 卢国群, 等. 基于时间序列和机器学习预测尘肺病发展趋势研究[J]. 中国煤炭, 2023, 49(10): 68-73.
[15] 谌典, 周畅, 张奥懿, 等. 基于临床、超声特征及影像组学构建机器学习模型预测慢性肾脏病患者肾功能损伤程度[J]. 中国医学影像技术, 2024, 40(4): 575-579.
[16] 刘洋, 曹赛雅, 冯月娇, 等. 应用机器学习和神经网络模型识别结直肠癌“炎癌转化”过程的关键基因及防治中药预测[J]. 中草药, 2023, 54(19): 6386-6399.
[17] Shahin, A.I., Guo, Y.H., Amin, K.M. and Sharawi, A.A. (2017) White Blood Cells Identification System Based on Convolutional Deep Neural Learning Networks. Computer Methods and Programs in Biomedicine, 168, 69-80. [Google Scholar] [CrossRef] [PubMed]
[18] 杨美涛, 王彦丁, 李志强, 等. ARIMA-SVM组合模型在肺结核发病趋势预测中的应用[J]. 现代预防医学, 2023, 50(11): 1921-1926.
[19] 侯文涛, 张飞扬, 张瑞杰, 等. 基于SARIMA-SVM组合模型的丙型肝炎发病率预测研究[J]. 数学的实践与认识, 2022, 52(3): 140-146.
[20] 王睿. 胃食管反流病流行病学调查及其缺失数据的处理方法研究[D]: [博士学位论文]. 上海: 第二军医大学, 2009.
[21] 岳根霞, 刘金花, 刘峰. 基于决策树算法的医疗大数据填补及分类仿真[J]. 计算机仿真, 2021, 38(1): 451-454, 459.
[22] 程亮. 基于随机森林的基坑监测数据填补对比研究[J]. 城市地质, 2021, 16(4): 466-473.
[23] 解东方. 心血管病流行病调查中缺失数据填补方法的比较及模拟研究[D]: [博士学位论文]. 北京: 北京协和医学院, 2014.
[24] 刘癸壬. 贝叶斯网络在急性冠脉综合征死亡风险评估中的应用[D]: [硕士学位论文]. 南京: 东南大学, 2023.
[25] 吴世彬. 基于Stacking集成学习的医疗数据填补方法研究[D]: [硕士学位论文]. 武汉: 华中农业大学, 2023.