1. 引言
根据第三次脓毒症国际共识的定义,脓毒症被定义为由宿主对感染反应失调引起的危及生命的器官功能障碍[1]。据报道,全球每年脓毒症导致超过1100万人死亡,亚洲的平均死亡率为40%左右[2],我国每年新发脓毒症患者约486万人,因脓毒症导致死亡人数约83万人[3]。脓毒症的临床表现多样,发病机制复杂,涉及感染、炎症反应、免疫失调和凝血功能障碍等多个方面,患者病情发展迅速,死亡率较高。由于其复杂的病理生理过程,使得早期诊断和死亡风险评估变得尤为困难。因此,早期准确预测脓毒症患者死亡风险,有助于辅助临床医务人员对患者进行评估并制定个体化治疗方案,及时采取干预措施,改善患者的预后[4]。
近年来,随着人工智能技术的发展,机器学习在医疗领域的研究取得了显著进展[5]。机器学习算法在处理高维数据、非线性数据等方面具有明显优势,尤其是对于复杂疾病的预测也表现出较高性能。研究人员尝试通过应用逻辑回归、支持向量机、多层感知机等多种机器学习方法对脓毒症患者死亡风险进行预测,取得良好进展[6]。随着研究的深入,集成学习能够结合多个基础分类器的预测结果,有效全面捕捉数据集中的复杂信息,降低预测性能的局限性,有效提高模型的泛化能力和预测准确性的优势显现出来,并广泛应用于医疗预测任务[7]。其中,堆叠(Stacking)作为一种先进的集成学习方法,通过元分类器整合多个基础分类器的输出,以提高整体模型性能。但不同基础分类器在特定任务中的表现可能存在差异,性能较差的基础分类器可能降低整体模型的预测能力。仅平等地对待所有基础分类器,忽略其性能差异,会影响整体模型性能。优化问题一直在人工智能、数据挖掘等领域受到广泛关注,具有较高求解效率的贝叶斯优化方法逐渐成为解决优化问题的主流方法。贝叶斯优化(Bayesian Optimization, BO)是用于全局优化的序列化模型优化方法,其核心思想是在根据均匀分布随机产生的初始数据中选择潜在最优解,建立目标函数的概率模型,根据其获取新的潜在最优解,重复该过程直至满足终止条件[8]。BO能够在设定最优采集函数的前提下,理论上能保证最终收敛[9]。该方法广泛应用于超参数调优、实验设计、自动化机器学习等领域,相比于传统的网格搜索和随机搜索,贝叶斯优化能够更高效地探索参数空间,减少不必要的计算开销。因此,在本研究中考虑平衡基础分类器性能差异,建立多指标评估函数计算基础分类器作为元分类器特征的可信度,使得其能够作为最优特征输入到元分类器中,提升模型整体性能。
本研究针对脓毒症患者死亡风险构建的Stacking预测模型,采用5折交叉验证计算每个基础分类器的性能指标,构建多指标评估函数以获取基础分类器的可信度得分,使用贝叶斯优化算法确定权重组合,引入权重分数,为元分类器特征分配不同的权重,以获取较优的整体模型性能。旨在提高脓毒症患者死亡风险预测的准确性,有效辅助医务人员对患者进行死亡风险评估,从而及时采取干预措施,改善患者预后。
2. 方法
2.1. 数据来源
本研究所使用的数据来源于对公众免费开放的MIMIC-IV重症监护医疗数据库(Medical Information Mart For Intensive Care IV, MIMIC-IV V2.2),该数据库由美国麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)、贝斯以色列女执事医学中心(BIDMC)共同构建[10]。MIMIC-IV V2.2是一个开放、大规模的数据库,包含2008年至2019年期间各重症监护室收治的患者真实临床数据信息。该数据库包含人口统计学、患者生命体征、实验室检查结果、药物使用、诊断说明和生命状态等多方面临床数据和患者信息,为临床研究提供了丰富资源。由于患者的健康信息未被识别,因此无需征得患者的个人同意,且作者已通过测试并获得机构批准从该数据库中提取数据用于研究目的。
2.2. 纳入和排除标准
根据Sepsis-3定义,制定纳入标准:(1) 年龄 ≥ 18岁;(2) 第一次进入ICU且伴有感染;(3) 第一次SOFA ≥ 2;(4) 在重症监护室的住院时间超过24小时,以确保有足够的数据进行分析。将年龄小于或等于18岁;ICU住院时长小于24小时;患者无出入量记录及数据记录不全的数据排除在外。
2.3. 数据提取及预处理
使用PostgreSQL (版本10.3-1)按照纳入标准对脓毒症患者数据进行提取,并根据排除标准筛选数据。提取变量包括人口统计学数据(年龄、性别、体重、ICU住院时长等)、临床评分(全身炎症反应综合征(Systemic Inflammatory Response Syndrome, SIRS)、序贯器官衰竭评分(Sequential Organ Failure Assessment, SOFA)、急性生理与慢性健康评分系统(Acute Physiology and Chronic Health Evaluation III, APACHE III)等)及实验室指标(白细胞计数(White Blood Cell, WBC)、血尿素氮(Blood Urea Nitrogen, BUN)、血小板计数等)等,对于实验室指标保留提取特征的最大值及最小值,以更全面地评估其对结局变量的影响。为确保研究的准确性,删除缺失值超过20%的患者数据及特征变量,并对连续变量进行均值插补,分类变量则采用众数插补的方式,该方法能够在保证数据分布的同时,最大限度地减少信息损失。为了消除异常值对模型的影响,采用3倍标准差法对数据进行异常值的检测和剔除,以便进一步分析,确保研究的准确性和完整性。
最终纳入15,581例脓毒症患者,其中有2610例患者在入院后30天内死亡(记为阳例)。所提取的脓毒症患者数据集随机划分为训练集和验证集,将80%的数据用于模型训练,20%的数据用于评估所构建模型的性能。在构建模型之前,对所有特征进行了标准化处理,标准化处理的方式如公式(1)所示,其中
为标准化后的数值,
为原始样本特征的值,
为该样本特征的均值,
为该样本特征的标准差,该方法有助于提高模型的收敛速度和性能。
(1)
为了筛选出对结局变量具有显著相关性的特征,本研究采用皮尔逊相关系数(Pearson Correlation Coefficient)作为特征选择的依据,取值范围为
之间,1表示所选择的特征与结局变量存在完全正相关关系,−1则表示完全负相关关系,0表示两者之间无线性相关性。其计算公式如(2)所示,其中
和
分别表示两个变量的观测值,
和
表示两个变量的均值,
为样本数量。
(2)
通过Pearson相关系数计算所纳入的43个特征变量与结局变量之间的相关性,并按照相关系数的绝对值进行排序,如图1所示,其中纵轴表示特征变量,横轴表示其与结局变量的相关系数绝对值。根据所得结果,选取排名前20的特征作为模型的特征变量。通过Pearson特征选择方法有效地降低特征维度,同时保留对结局变量具有较强解释能力的特征,从而提高模型的性能和可解释性。
Figure 1. Pearson characteristic plot of the correlation coefficient
图1. 皮尔逊相关系数特征图
2.4. Stacking模型构建
为了全面评估基础分类器的性能,采用5折交叉验证的方法,即将数据集随机分为5个子集,每次使用其中4个子集作为训练集,剩余1个子集作为验证集,重复5次以确保每个子集都被用于验证。计算每个基础分类器的AUC值,准确率、召回度、精确度和F1分数等性能指标,以全面衡量其分类能力。由于不同指标的取值范围不同,对指标进行归一化处理,使其映射在同一尺度上,保证其指标可比性。通过构建多指标评估函数,使其能够根据模型评价指标及其重要程度分配权重,计算基础分类器的可信度得分
,计算方法如公式(3)所示,其中
,
是各个评价指标的权重,满足
。
(3)
多指标评估函数通过获取基础分类器可信度值,为其作为特征变量传入元分类器提供了更多的信息,提供后续Stacking模型的优化依据。
贝叶斯优化主要包括高斯回归(Gaussian Process Regression, GPR)以及采集函数(Acquisition Function)两个部分[11]。其中GPR主要用于对目标函数建模,设定目标函数为
,满足高斯分布,即其均值和核函数可以表示为公式(4),其中
为均值函数,
为核函数,利用现有数据集进行预测,优化权重分配。
(4)
采集函数主要是通过在不确定性较高的区域进行采样,获取潜在的全局最优解,再在已知函数值较高的区域进行采样,使其进一步优化当前状态下的最优解,该方法仅进行少量迭代就可找到全局最优解。因此可动态调整Stacking模型中的权重参数,获取较好的性能表现。
Stacking是一种通过结合多个基础分类器的预测结果来训练元分类器的集成方法,以提升整体模型性能。本研究构建基于Stacking的脓毒症患者死亡风险预测模型框架如图2所示。根据模型差异及其性能将随机森林(Random Forest, RF),梯度提升决策树(Gradient Boosting Decision Tree, GBDT),支持向量机(Support Vector Machine, SVM)作为基础分类器,逻辑回归(Logistic Regression, LR)作为元分类器。为了进一步提高模型性能,在Stacking框架中引入权重分配策略,计算基础分类器可信度得分,再使用贝叶斯优化确定最优权重组合,使得权重分配合理并有效,根据最终可信度得分作为元分类器特征重要程度依据,将赋予权重后的特征传入元分类器中训练。与标准Stacking模型相比,增加了多指标评估和贝叶斯优化部分,对其赋予权重,并且通过比较评估所构建模型与其他机器学习模型预测性能,发现所提出的模型性能较优,为辅助临床医生对脓毒症患者死亡风险预测提供了可靠依据。
Figure 2. Model framework
图2. 模型框架
2.5. 模型评估
在二分类问题中,混淆矩阵(Confusion Matrix)是评估模型性能的基础工具。主要包含四个关键指标:真阳例(True Positive,TP,即样本标签为阳性且模型预测为阳性的样本数量)、真阴例(True Negative,TN,即样本标签为阴性且模型预测为阴性的样本数量)、假阳例(False Positive,FP,即样本标签为阴性且模型预测为阳性的样本数量)和假阴例(False Negative,FN,即样本标签为阳性且模型预测为阴性的样本数量)。混淆矩阵通过统计模型预测结果的样本数量构建,但当样本量较大时,仅依赖数量统计评估模型性能可能不够精确。因此,通常基于混淆矩阵进一步计算准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1分数(F1 Score)等指标,以更全面地评估模型性能。
为了全面评估模型的性能,采用以下指标:
准确率(Accuracy)反映模型预测结果与真实标签的一致性。
(5)
精确度(Precision)表示在所有预测为阳性的样本中,模型预测正确的比例。
(6)
召回率(Recall)表示在所有真实为阳性的样本中,模型预测正确的比例,灵敏度越高,说明模型对正类样本的识别能力越强。
(7)
F1分数(F1 Score):综合考虑灵敏度和特异性的平衡指标,当数据集中的阴阳样本比例接近平衡时,上述指标足以有效评估模型性能。
(8)
然而,在样本不平衡的情况下,这些指标可能无法准确反映模型的真实性能。此时,受试者特征曲线(Receiver Operating Characteristic Curve, ROC)和曲线下面积(Area Under Curve, AUC)成为更合适的评估工具。ROC曲线以真阳率(True Positive Rate,TPR,即召回率)为纵轴,假阳率(False Positive Rate, FPR)为横轴绘制,TPR越高,模型性能越好;FPR则越低越好。ROC曲线能够直观地展示模型在不同分类阈值下的性能表现。AUC是ROC曲线下的面积,其值越接近1,表明模型的分类性能越优。ROC曲线和AUC能够更全面地反映模型在不平衡数据集中的分类效果,尤其是在正负样本分布不均的情况下,AUC能够提供更为稳健的性能评估。
3. 结果
实验结果表明,Stacking模型在脓毒症患者死亡风险预测中表现优异,其AUC值显著高于其他模型。此外,模型的灵敏度和特异性均达到了较高水平,表明其具有较好的泛化能力和鲁棒性。
模型评估结果
模型受试者特征曲线如图3所示,与如图4所示的LR,高斯朴素贝叶斯(Gaussian Naïve Bayes, GaussianNB)、极端梯度提升(Extreme Gradient Boosting, XGBoost)、自适应提升(Adaptive Boosting, Adaboost)、SVM和多层感知机(Multilayer Preceptron)模型的受试者特征曲线相比,所构建的Stacking模型AUC效果最优,达到0.88。模型准确率、精确度、召回率等性能评估指标结果如表1所示。Stacking模型的综合性能最优,相较于传统机器学习模型各指标均有一定程度的提高。基础分类器所使用的特征及其相应的变量重要性得分如图5所示,结果显示,APACHE III评分、WBC等这些指标对模型的预测产生重要影响。同时这些指标也是在对数据集进行统计学分析时,发现与脓毒症患者死亡风险具有较高相关性的特征变量。因此,这些特征不仅对预测患者的死亡风险具有重要作用,而且还可以作为Stacking模型的关键特征,对于更深入了解脓毒症患者死亡风险因素具有指导意义。
Figure 3. Receiver operating characteristic curve of stacking model
图3. Stacking模型受试者特征曲线
Figure 4. Receiver operating characteristic curve of models
图4. 各个模型受试者特征曲线
Table 1. Performance comparison of models
表1. 模型性能对比
模型 |
准确率 |
精确度 |
召回率 |
F1分数 |
AUC |
LR |
0.87 |
0.85 |
0.87 |
0.85 |
0.82 |
GaussianNB |
0.82 |
0.83 |
0.83 |
0.83 |
0.81 |
续表
XGBoost |
0.88 |
0.87 |
0.88 |
0.87 |
0.85 |
Adaboost |
0.87 |
0.86 |
0.88 |
0.86 |
0.87 |
SVM |
0.83 |
0.70 |
0.83 |
0.76 |
0.75 |
MLP |
0.86 |
0.85 |
0.87 |
0.84 |
0.81 |
Stacking |
0.88 |
0.87 |
0.88 |
0.87 |
0.88 |
Figure 5. The characteristic importance of RF, GBDT and SVM
图5. RF、GBDT和SVM的特征重要性
4. 讨论
在本研究中,利用Stacking模型对脓毒症患者死亡风险进行早期预测,并与传统的机器学习预测模型进行比较。结果表明,与传统模型相比,Stacking模型在预测患者死亡风险方面具有优势,得到了AUC和灵敏度等指标的支持。本研究还确定包括APACHE III评分、WBC等对脓毒症患者死亡风险研究具有重要意义的特征变量,这与现有的研究结果是一致的[12] [13]。
APACHE评分是一种综合考虑多个生理指标和临床变量,以评估患者的疾病严重程度和预后风险的评分系统。较高的APACHE评分意味着患者病情较为严重,可能需要更积极的治疗和监护,在脓毒症预后的评估中具有一定的预测能力[14] [15]。
WBC是一种通过反映血液中白细胞数量来评估人体免疫功能的指标。脓毒症的实质是感染诱发的失控性全身炎症反应综合征,炎症反应贯穿于脓毒症的病理生理过程[16],白细胞在其中发挥了重要作用。研究表明,在疑似感染的患者中,白细胞计数的减少与死亡风险增加有关,并且在部分患者中,白细胞计数减少可能表现为脓毒症[17]。
本研究所构建的Stacking模型在预测脓毒症患者的死亡风险方面取得了良好的预测结果,同时还确认了APACHE III、WBC等特征变量,为脓毒症患者的临床管理提供重要的参考依据。
5. 结论
本研究通过构建针对脓毒症患者死亡风险的Stacking预测模型,采用5折交叉验证计算每个基础分类器的性能指标,构建多指标评估函数以获取基础分类器的可信度得分,使用贝叶斯优化算法确定权重组合,引入权重分数,为元分类器特征分配不同的权重,以获取较优的整体模型性能。实验结果表明,通过对基础分类器评估可信度,为元分类器的特征赋权,在提高预测性能方面具有显著优势,能够为临床决策提供更可靠的支持,也为脓毒症患者死亡风险预测研究提供了新的思路和方法。然而,本研究仍存在一定的局限性,例如数据来源相对单一,未来仍需进行多个外部数据研究,进一步验证模型的泛化能力。总之,本研究为脓毒症患者死亡风险预测提供了一种有效方法。