基于CNN-Transformer-BPNN组合模型的糖尿病预测研究
Research on Diabetes Prediction Based on CNN-Transformer-BPNN Combination Model
DOI: 10.12677/sa.2025.1411316, PDF,    科研立项经费支持
作者: 马一格, 刘红平*:山东建筑大学理学院,山东 济南 收稿日期:2025年10月11日;录用日期:2025年11月2日;发布日期:2025年11月12日
关键词: 卷积神经网络反向传播神经网络分类预测组合模型糖尿病Convolutional Neural Network Back Propagation Neural Network Classification Prediction Combination Model Diabetes
摘要: 本文使用SMOTE方法对Kaggle公开的糖尿病数据进行过采样,并按照8:2的比例划分训练集和测试集后进行学习、建模和预测。在Transformer模型的基础上,采用双分支并行处理结构,在两侧分支分别加入CNN模型和BPNN模型,建立CNN-Transformer-BPNN组合模型,该组合模型结合了CNN的局部特征捕获能力、Transformer的全局理解能力以及BPNN的非线性映射优势,其AUC值、F2-score、精确值分别为0.9615、0.9944、0.9614,预测效果显著。本文建立的CNN-Transformer-BPNN组合预测模型可以为糖尿病早期诊察提供可靠的临床辅助,便于对病患进行及时预警和干预,对糖尿病的诊治和我国医疗系统的发展都有积极促进作用。
Abstract: In this paper, the SMOTE method is used to oversample the diabetes data published by Kaggle, and the training set and test set are divided according to the ratio of 8:2 for learning, modeling and prediction. On the basis of the Transformer model, a CNN-Transformer-BPNN combined model is established by using a two-branch parallel processing structure and adding CNN model and BPNN model to the two branches on both sides. The combined model combines the local feature capture ability of CNN, the global understanding ability of Transformer and the nonlinear mapping advantage of BPNN. The AUC value, F2-score and accurate value are 0.9615, 0.9944 and 0.9614, respectively, and the prediction effect is remarkable. The CNN-Transformer-BPNN combined prediction model established in this paper can provide reliable clinical assistance for early diagnosis of diabetes, facilitate timely early warning and intervention for patients, and have a positive effect on the diagnosis and treatment of diabetes and the development of China’s medical system.
文章引用:马一格, 刘红平. 基于CNN-Transformer-BPNN组合模型的糖尿病预测研究[J]. 统计学与应用, 2025, 14(11): 121-131. https://doi.org/10.12677/sa.2025.1411316

参考文献

[1] 瞿创业, 甘立新, 乔景泉, 等. 人工智能及机器学习在骨科手术风险预测方面的作用[J]. 医学理论与实践, 2025, 38(2): 217-220.
[2] 张煊, 谢瑀, 冯亚宁, 等. 人工智能在预测肾脏疾病预后中的应用与进展[J/OL]. 中华中医药学刊: 1-12.
https://link.cnki.net/urlid/21.1546.R.20250319.0954.002, 2025-04-14.
[3] 田林, 任绪泽, 涂峥程. 人工智能、机器学习和深度学习在医学诊断中的应用进展[J]. 现代医学, 2024, 52(9): 1480-1484.
[4] 王小曼, 游一鸣, 韩梦琦, 等. 基于机器学习模型对缺血性脑卒中住院期间死亡风险的预测[J]. 现代预防医学, 2024, 51(19): 3457-3462, 3482.
[5] 李雅希, 陈思平, 杨欢. 基于Mediapipe的脑卒中患者康复系统设计[J]. 计算机技术与发展, 2025, 35(1): 169-176.
[6] 刘忠典, 许琪, 陈伊静, 等. 心血管疾病中高风险人群颈动脉粥样硬化的识别:基于机器学习的预测模型及验证[J]. 中国全科医学, 2024, 27(30): 3763-3771.
[7] 周丽娟, 温贤秀, 吴海燕, 等. 基于机器学习算法构建慢性阻塞性肺疾病吸入剂治疗患者不良吸入风险预警模型[J]. 医药导报, 2024, 43(9): 1509-1518.
[8] 韦业, 陈广辉, 覃小伶, 等. 基于生物信息学与机器学习的坐骨神经痛与内质网应激相关生物标志物筛选及调控中药预测[J]. 中华中医药学刊, 2025, 43(7): 80-85, 287-293.
[9] 杨凯璇, 谷鸿秋. 临床预测模型常用统计模型及其SAS实现[J]. 中国卒中杂志, 2024, 19(5): 496-505.
[10] 李阳, 高海林, 李子杨, 等. 数据挖掘技术在糖尿病风险预测中的应用[J]. 智能计算机与应用, 2024, 14(12): 133-138.
[11] 严慧娜, 刘瑞云, 李颖, 等. 机器学习临床决策支持系统在ICU中应用的研究进展[J]. 护理研究, 2025, 39(7): 1199-1205.
[12] Farran, B., AlWotayan, R., Alkandari, H., Al-Abdulrazzaq, D., Channanath, A. and Thanaraj, T.A. (2019) Use of Non-Invasive Parameters and Machine-Learning Algorithms for Predicting Future Risk of Type 2 Diabetes: A Retrospective Cohort Study of Health Data from Kuwait. Frontiers in Endocrinology, 10, Article 624. [Google Scholar] [CrossRef] [PubMed]
[13] Gill, S. and Pathwar, P. (2019) Prediction of Diabetes Using Various Feature Selection and Machine Learning Paradigms. In: Gunjan, V.K. and Zurada, J.M., Eds., Modern Approaches in Machine Learning & Cognitive Science: A Walkthrough, Springer, 133-146.
[14] 杨紫森, 苏津, 唐溢乐, 等. 基于机器学习的糖尿病前期预测模型的构建及其验证[J]. 热带医学杂志, 2025, 25(5): 605-608, 620, 727.
[15] 王琦琪, 戴家佳, 崔熊卫. 基于集成学习模型的糖尿病患病风险预测研究[J]. 软件导刊, 2022, 21(4): 62-66.
[16] 叶壮. 基于机器学习方法的糖尿病预测与分析[J]. 数字技术与应用, 2024, 42(10): 33-35.
[17] 祝思婷. 基于集成学习的脑血管疾病预测研究[D]: [硕士学位论文]. 苏州: 苏州大学, 2023.
[18] 乔松博, 孙瑜, 胡海, 等. 基于REMD-CNN-Transformer-LSTM组合模型的碳排放交易价格预测[J]. 西安理工大学学报, 2025, 41(2): 186-196.
[19] 徐鹤, 杨丹丹, 刘思行, 等. 基于改进Transformer的持续血糖浓度预测模型[J]. 数据采集与处理, 2025, 40(4): 1065-1081.
[20] 吴纵凌. 糖尿病预测中不平衡数据的过采样和分类方法研究[D]: [硕士学位论文]. 西安: 西安理工大学, 2024.
[21] 陈天昕. 基于机器学习算法和深度学习算法的高炉炉温预测研究[D]: [博士学位论文]. 南昌: 江西财经大学, 2023.
[22] 张智超. 糖尿病年龄分布特点及发病年轻化相关因素研究[J]. 基层医学论坛, 2018, 22(10): 1304-1305.
[23] 刘悦. 基于机器学习的老年人抑郁症状的预测[D]: [硕士学位论文]. 济南: 山东大学, 2023.
[24] 杨海宽. 基于GA-LightGBM的Stacking模型融合的是否患有糖尿病的预测[D]: [硕士学位论文]. 武汉: 武汉轻工大学, 2023.
[25] 张星星, 张海洋, 何小菁, 等. 不同肥胖指标与老年人糖尿病患病风险的调查研究[J]. 实用老年医学, 2024, 38(9): 940-943.
[26] 顾智超, 吴昀喆, 杨帆, 等. 基于检验数据的机器学习建立2型糖尿病患者合并冠心病的风险预测模型[J]. 国际检验医学杂志, 2025, 46(2): 135-140.
[27] 王炳源, 高莉, 秦露伟, 等. 河南省心脑血管疾病发病预测模型的建立与评估[J]. 疾病监测, 2023, 38(10): 1239-1246.
[28] 黄丽红, 魏永越, 沈思鹏, 等. 常见新型冠状病毒肺炎疫情预测方法及其评价[J]. 中国卫生统计, 2020, 37(3): 322-326.