1. 背景
冠心病(coronary heart disease, CHD)是全球范围内导致高发病率和死亡率的心血管疾病,其病理基础主要是冠状动脉粥样硬化[1]。研究指出炎症反应和脂质浸润与冠心病的发生密切相关[2]。中性粒细胞与高密度脂蛋白胆固醇比值(neutrophil to high-density lipoprotein cholesterol ratio, NHR)一个复合炎症指标,不仅反映了机体炎症状态,还涉及脂质代谢状态[3]。研究发现,NHR具有预测心血管疾病死亡率的潜力[4]。另有研究证明,NHR与高血压、糖尿病具有紧密联系[5] [6]。此外,NHR可能在冠心病的发生进展中具有重要意义[7]。
机器学习(machine learning, ML)是一种人工智能的分支,在心血管疾病研究领域中,ML对于心血管疾病的预防、诊断和治疗具有极大潜力,可以提高诊断的准确性、降低误诊率,并有望实现早期预测和干预[8]。综上所述,本次研究旨在,基于机器学习分析NHR与冠心病及冠脉严重程度的相关性。
2. 资料与方法
2.1. 研究对象
本研究收集了2021年12月至2024年2月期间在云南省第三人民医院心血管内科行冠脉造影的940例患者。其中包括548例冠心病组和392例对照组。纳入标准:(1) 患者年龄 ≥ 18岁;(2) 患者首次完成冠脉造影术,冠心病患者行造影需满足至少有1支主要冠状动脉主要分支中至少有一支狭窄程度 ≥ 50% [9]。非冠心病人群冠状动脉造影为冠状动脉狭窄 < 50%。排除标准:(1) 既往行经皮冠状动脉介入治疗或者冠状动脉旁路移植;(2) 严重心脏瓣膜病、人工心脏瓣膜、心肌炎、心包炎病史;(3) 急性脑血管意外、严重感染性疾病、不明原因发热、慢性阻塞性肺疾病、血液系统疾病、自身免疫性疾病以及恶性肿瘤病史;(4) 严重肝肾功能不全者;(5) 近3个月内使用降血脂、抑制血小板聚集、抗凝药;(6) 临床资料不全。本研究经患者知情同意并签署知情文件,符合《赫尔辛基宣言》的相关规定。
2.2. 临床资料
收集所有纳入研究者的临床资料,包括基本信息、实验室指标、冠脉造影指标等,如年龄、性别、BMI、吸烟史、高血压、糖尿病、白细胞(white blood cell, WBC)、中性粒细胞(neutrophil, N)、淋巴细胞(lymphocyte, L)、单核细胞(monocyte, M)、血小板(blood platelet, Plt)以及禁食至少8小时后生化指标,如甘油三酯(triglyceride, TG)、总胆固醇(total cholesterol, TC)、低密度脂蛋白胆固醇(low density lipoprotein, LDL-C)、高密度脂蛋白胆固醇(highdensity lipoprotein, HDL-C)、血肌酐(serum creatinine, Scr)、尿酸(uric acid, UA)、空腹血糖(fasting blood glucose, FBG)。计算NHR = N/HDL-C。Gensini评分[10]:(1) 狭窄部位:右冠状动脉、左回旋支、左前降支远端均为1分,左前降支中段为1.5分,回旋支近端或左前降支为2.5分,左主干为5分,其他小分支为0.5分;(2) 狭窄程度:完全梗阻记为32分,90% < 狭窄 < 100%记为16分,75% < 狭窄 ≤ 90%记为8分,50% < 狭窄 ≤ 75%记为4分,25% < 狭窄 ≤ 50%记为2分,狭窄 ≤ 25%记为1分,(1)与(2)项内容乘积即为病变部位积分。
2.3. 统计学方法
本研究分析采用R4.3.2进行完成,P < 0.05认为具有统计学意义。描述性统计中,如果变量是连续型变量,对于服从正态分布的变量使用均数和标准差进行描述,并采用T检验进行差异性分析,对于不服从正态分布的则采用中位数和四分位数间距进行描述,并采用非参数检验进行差异性分析。对于分类变量,采用频数和率进行描述性统计,采用卡方检验或Fisher确切概率法进行差异性分析。相关性分析计算变量的相关系数。最小绝对缩减与选择算子(Lasso Regression Algorithm, LASSO)回归分析筛选潜在影响。基于从LASSO回归得出的变量,进行单多因素分析。构建机器学习模型,选择极端梯度提升树(eXtreme Gradient Boosting, XGBoost)、决策树(Decision Tree Classifier)、支持向量机(Support Vector Machine, SVM)和K近邻(K-Nearest Neighbor, KNN)模型进行评估,选取最佳机器学习模型评估变量在诊断的重要性。采用受试者工作特征(Receiver Operating Characteristic, ROC)曲线分析和曲线下面积(Area Under the Curve, AUC)值来评估对疾病的预测能力。使用Spearman相关性分析来评估NHR与Gensini评分之间的关系。
3. 研究结果
3.1. 临床资料描述
本研究收集了940例研究对象,其中冠心病组有548例患者,对照组有392例患者。冠心病组的男性比例显著高于对照组(63.9% vs 45.4%, P < 0.001),年龄显著高于对照组(65 (56, 71) vs 61 (53, 69), P < 0.001),吸烟率显著高于对照组(44% vs 31.9%, P < 0.001),高血压患病率显著高于对照组(74.3% vs 62.8%, P < 0.001),糖尿病患病率显著高于对照组(37.8% vs 19.1%, P < 0.001)。此外,冠心病组的血肌酐(Scr)、空腹血糖(FBG)、甘油三酯(TG)、高密度脂蛋白胆固醇(HDL-C)、中性粒细胞(N)、单核细胞(M)、淋巴细胞(L)、炎症相关复合标志物(NHR、PIV、AISI、NLR、MHR、LMR、NMLR、dNLR、SII、SIRI)也显著高于对照组(P < 0.001)。然而,两组在体重指数(BMI)、尿酸(UA)、总胆固醇(TC)、低密度脂蛋白胆固醇(LDL-C)、血小板(Plt)、血小板/淋巴细胞比值(PLR)等方面无显著差异(P > 0.05) (见表1)。
Table 1. Comparison of clinical data between coronary heart disease group and control group
表1. 冠心病组和对照组临床资料比较表
变量 |
对照组(n = 392) |
冠心病组(n = 548) |
P值 |
年龄(岁) |
61 (53, 69) |
65 (56, 71) |
<0.001 |
男性[n (%)] |
178 (45.4) |
350 (63.9) |
<0.001 |
吸烟史[n (%)] |
125 (31.9) |
241 (44) |
<0.001 |
高血压[n (%)] |
246 (62.8) |
407 (74.3) |
<0.001 |
糖尿病[n (%)] |
75 (19.1) |
207 (37.8) |
<0.001 |
BMI (kg/m2) |
24.4 (22.8, 26.7) |
24.6 (22.4, 26.7) |
0.788 |
Scr (mmol/L) |
76 (65, 89) |
81 (70.8, 95) |
<0.001 |
UA (mmol/L) |
363 (289, 428) |
367 (306, 435) |
0.072 |
FBG (mmol/L) |
5.3 (4.8, 6.1) |
5.8 (5, 7.5) |
<0.001 |
TG (mmol/L) |
1.5 (1, 2.2) |
1.6 (1.2, 2.4) |
0.025 |
TC (mmol/L) |
4.6 (3.9, 5.3) |
4.7 (4, 5.3) |
0.367 |
HDL-C (mmol/L) |
1.2 (1, 1.4) |
1.1 (0.9, 1.3) |
<0.001 |
LDL-C (mmol/L) |
2.8 (2.2, 3.4) |
2.9 (2.2, 3.5) |
0.171 |
Plt (109/L) |
224.5 (186, 264) |
217.5 (181, 257.2) |
0.101 |
N (109/L) |
3.5 (2.8, 4.5) |
4.3 (3.3, 5.7) |
<0.001 |
L (109/L) |
1.9 (1.5, 2.3) |
1.8 (1.4, 2.2) |
0.006 |
M (109/L) |
0.4 (0.3, 0.5) |
0.4 (0.3, 0.5) |
<0.001 |
PIV |
147.4 (96.2, 260.2) |
206 (128.4, 373.2) |
<0.001 |
AISI |
147.4 (96.2, 260.2) |
206 (128.4, 373.2) |
<0.001 |
NLR |
1.9 (1.4, 2.6) |
2.4 (1.7, 3.5) |
<0.001 |
PLR |
120.3 (92.9, 152.2) |
124.8 (92.9, 161.4) |
0.228 |
MHR |
0.3 (0.2, 0.4) |
0.4 (0.2, 0.5) |
<0.001 |
LMR |
5.2 (3.9, 6.8) |
4.3 (3.2, 5.7) |
<0.001 |
NMLR |
2 (1.6, 2.8) |
2.7 (1.9, 3.7) |
<0.001 |
dNLR |
1.5 (1.1, 1.9) |
1.8 (1.4, 2.4) |
<0.001 |
SII |
424.8 (300, 589.3) |
527.9 (352.6, 781) |
<0.001 |
SIRI |
0.7 (0.4, 1) |
1 (0.6, 1.6) |
<0.001 |
NHR |
3 (2.2, 4.1) |
3.9 (2.7, 5.8) |
<0.001 |
3.2. 相关性分析
采用Spearman相关性分析计算CHD与11个炎症指标的相关系数。可以看出CHD与NHR、PIV、SII、SIRI、AISI、NLR、MHR、NMLR和dNLR呈正相关(P < 0.001),相关系数分别为0.25、0.22、0.19、0.26、0.22、0.25、0.18、0.25、0.23。然而,CHD与LMR呈负相关(P < 0.001),相关系数为−0.20。此外,CHD与PLR相关系数分别为0.039,无统计学意义(P = 0.228) (见图1)。
Figure 1. Correlation coefficient between inflammatory markers and CHD
图1. 炎症指标与CHD之间相关系数图
3.3. CHD与炎症指标间的LASSO回归
基于交叉验证,当λ = 0.008时,通过LASSO回归算法从上述10个具有统计学意义的变量中筛选系数为非零系数的CHD相关指标为:NHR、NMLR、LMR (见图2、图3)。
3.4. Logistic单因素与多因素分析
将LASSO回归筛选出的3个变量作为自变量,将CHD作为因变量,进行单因素和多因素的分析。在没有调整的情况下,NHR和NMLR与冠心病的发生显著相关,尤其是NHR,OR值为1.33 (95%CI: 1.23~1.43, P < 0.001),表明NHR每增加一个单位,患CHD的发生风险增加33%。而LMR的OR值为0.84 (95%CI: 0.79~0.89, P < 0.001),表明LMR每增加一个单位,患CHD的风险降低16%。此外,在模型1 (调整了性别和年龄)以及模型2 (调整了性别、年龄、高血压、糖尿病、吸烟史)中,NHR与冠心病的发生仍呈显著正相关(P < 0.001)。这些结果表明,NHR和NMLR与冠心病发生风险呈正相关,而LMR与冠心病发生风险呈负相关(见表2)。
Figure 2. Regularization parameter λ filtering process
图2. 正则化参数λ筛选过程
Figure 3. When the regularization parameter λ changes, the coefficients of 10 variables change
图3. 正则化参数λ变化时,10个变量的系数变化
Table 2. Single factor and multi factor analysis tables
表2. 单因素和多因素分析表
|
未调整 |
模型1 |
模型2 |
OR (95%CI) |
P |
OR (95%CI) |
P |
OR (99%CI) |
P |
NHR |
1.33 (1.23~1.43) |
<0.001 |
1.32 (1.22~1.43) |
<0.001 |
1.29 (1.19~1.39) |
<0.001 |
NMLR |
1.28 (1.17~1.40) |
<0.001 |
1.22 (1.12~1.33) |
<0.001 |
1.20 (1.11~13) |
<0.001 |
LMR |
0.84 (0.79~0.89) |
<0.001 |
0.89 (0.84~0.95) |
<0.001 |
0.89 (0.84~0.95) |
<0.001 |
注:模型1调整了性别、年龄;模型2调整了性别、年龄、高血压、糖尿病、吸烟史。
3.5. 综合评价多模型在冠心病预测中的性能
经过上述的变量筛选,最终选择NHR、NMLR、LMR变量,然后加上基本信息变量(性别、年龄、高血压、糖尿病、吸烟史、BMI)、生化指标(Scr、UA、FBG、TG、TC、LDL-C与HDL-C)以及血常规(Plt、N、L、M)纳入多种机器学习模型对冠心病的数据样本进行分类任务,包括极端梯度提升树(eXtreme Gradient Boosting, XGBoost)、决策树(Decision Tree Classifier)、支持向量机(Support Vector Machine, SVM)和K近邻(K-Nearest Neighbor,KNN)。各模型的性能在ROC曲线下面积(AUC)进行评估。在这些模型中,XGBoost在训练集上的表现最佳,其AUC为0.915,展现出较高的准确度(0.837)、灵敏度(0.785)和特异度(0.911)。这表明XGBoost在区分有无冠心病的任务中具有良好的性能。相比之下,其他模型如决策树(AUC = 0.669)、SVM (AUC = 0.548)和K近邻(AUC = 0.735)的性能较低(见图4)。在验证集上,XGBoost尽管性能有所下降(AUC = 0.662),但XGBoost仍然是所有模型中表现最佳(见图5)。
Figure 4. ROC curve of training set
图4. 训练集ROC曲线
Figure 5. ROC curve of validation set
图5. 验证集ROC曲线
3.6. XGBoost模型在冠心病预测中的应用及性能评估
进一步利用最佳模型XGBoost进行变量集评分得到SHAP图。计算了NHR、NMLR、LMR炎症指标变量、基本信息变量(性别、年龄、高血压、糖尿病、吸烟史、BMI)、生化指标(Scr、UA、FBG、TG、TC、LDL-C与HDL-C)以及血常规(Plt、N、L、M)对模型输出的贡献,以确定最相关的预测因素。显示了影响CHD的前10名重要的变量,按重要度排序为:NHR、年龄、性别、糖尿病、LDL-C、高血压、BMI、中性粒细胞计数、淋巴细胞计数、TG。其中NHR的影响因子系数最大,说明它对CHD的风险预测影响最大。其他变量的重要性依次递减(见图6)。
Figure 6. SHAP characteristics of variables in XGBoost model
图6. XGBoost模型中各变量SHAP特征
3.7. ROC分析预测因素
本研究使用ROC曲线评估了NHR预测CHD的发生。结果表明,仅NHR的曲线下面积(AUC)为0.645 (P < 0.001) (见图7)。此外,本研究发现上述XGBoost模型重要性图排名前7的因素组合时,预测准确性显着提高,AUC为0.738 (P < 0.001) (见图8)。
Figure 7. ROC curve analysis of NHR on coronary heart disease
图7. NHR对冠心病的ROC曲线分析
Figure 8. ROC curve analysis of comprehensive individual factors
图8. 综合个体因素的ROC曲线分析
3.8. NHR与Gensini评分的相关性
将CHD组患者的NHR与Gensini评分的Spearman相关性分析,发现NHR与Gensini评分之间存在相关性,呈正相关的趋势,随着NHR水平的增加,Gensini评分逐渐增加(r = 0.32, P < 0.001),绘制两者的线性回归图,如图所示,根据图形也可以看出两者之间存在明显的线性正相关的趋势(见图9)。
Figure 9. Regression plot of NHR and Gensini score in CHD patient group
图9. CHD患者组中NHR与Gensini评分回归图
4. 讨论
炎症反应和血脂代谢异常是发生冠心病的重要危险因素[11]。本研究基于机器学习,分析了NHR与冠心病及冠脉严重程度的相关性。NHR是一种新颖的复合炎症标志物,并且可以反映脂质代谢紊乱[12]。冠心病是一种多因素疾病,涉及遗传、环境和生活方式等多种因素[13]。近年来,NHR在心血管疾病中的作用受到了广泛关注[14]。本研究结果表明,NHR与冠心病的发生显著相关,NHR可能是冠心病的一个独立风险因素。在本研究中,我们还探讨了NHR与其他心血管风险因素的关系。结果显示,NHR与血压、总胆固醇和低密度脂蛋白胆固醇等指标存在显著相关性。这表明NHR可能是一个综合反映多种心血管风险因素的指标。然而,NHR与这些风险因素之间的具体生物学机制尚不完全清楚,需要进一步研究。
本研究纳入了940名研究对象,其中有548名研究对象患有冠心病,冠心病组在多项临床和实验室指标上均显著高于对照组。我们的研究结果表明,NHR与CHD呈显著正相关,即使在调整了性别、年龄、高血压、糖尿病、吸烟史等危险因素后,NHR与CHD仍然呈显著正相关。而LMR与CHD风险呈负相关。通过进一步分析,我们发现,XGBoost模型在区分CHD与非CHD患者方面表现良好,具有较高的预测准确性和可靠性。在特征重要性图显示影响CHD的前10名重要的变量,按重要度排序为:NHR、年龄、性别、糖尿病、LDL-C、高血压、BMI、中性粒细胞计数、淋巴细胞计数、TG。其中NHR的影响因子系数最大,表明NHR对CHD的风险预测影响最大,其他变量的重要性依次递减。进一步利用ROC曲线评估NHR等指标在预测CHD方面的准确性,发现仅使用NHR预测CHD时,AUC为0.645,而将本研究发现的特征重要性图排名前7的因素(NHR、年龄、性别、糖尿病、LDL-C、高血压、BMI)组合时,预测准确性显着提高,AUC为0.738。对NHR与Gensini评分之间相关性进行分析,发现随着NHR水平的增加,Gensini评分逐渐增加。
我们的研究表明,CHD组的中性粒细胞、单核细胞、淋巴细胞、炎症相关复合标志物(NHR、NMLR等)显著高于对照组。此外,CHD与NHR呈正相关,进一步表明炎症与CHD存在关联,这与先前的研究结果一致[15]。中性粒细胞是白细胞的一种,是人体免疫系统的重要组成成分,主要负责对抗感染和炎症[16]。中性粒细胞是骨髓产生的多形核白细胞,具有快速响应外界威胁的能力[17]。当身体某处发生感染或炎症时,中性粒细胞会迅速被动员起来,通过变形运动穿过血管壁,聚集到受损或感染区域,发挥其吞噬和杀死病原体的功能。在炎症过程中,中性粒细胞数量可能会增加,这是炎症标志物之一。这种数量的增加,医学上称为白细胞增多症,是炎症活动的一个明显标志[18]。中性粒细胞通过释放各种酶和细胞因子,参与调节炎症反应,同时促进伤口愈合和组织修复[16]。冠心病是一种慢性炎症性疾病。炎症反应的激活会导致血管内皮功能障碍,血管壁变得渗透性增加,这为脂质、炎症细胞和其他血液成分的沉积创造了条件[19]。中性粒细胞作为免疫系统的第一响应者,迅速被招募到受损的血管部位。它们通过释放各种酶和细胞因子,如髓过氧化物酶(MPO)、弹性蛋白酶和肿瘤坏死因子α (TNF-α),参与了炎症过程的放大和血管壁的进一步损伤,进而形成斑块,这些斑块可能会阻塞冠状动脉,引发心肌缺血、心绞痛甚至心肌梗死[20]。
高密度脂蛋白胆固醇被称为“好胆固醇”。这是因为高密度脂蛋白胆固醇有助于将胆固醇从血管壁运送到肝脏进行代谢,从而减少动脉粥样硬化的风险[21]。它通过一种称为胆固醇逆向传输的过程,帮助清除循环中的胆固醇[22]。具体来说,HDL-C将胆固醇从血管壁的动脉粥样硬化斑块中运回肝脏,在那里,胆固醇可以被进一步代谢并排出体外,或者转化为胆汁酸,从而减少了血管壁上胆固醇的积累[23]。HDL-C的这种能力对于维护血管健康至关重要。动脉粥样硬化是一种慢性疾病,其特征是动脉壁内脂质、炎症细胞和其他物质的积累,形成斑块,这些斑块可以硬化并缩小血管腔,限制血液流向心脏和其他重要器官[24]。HDL-C通过减少这些斑块中的胆固醇,有助于防止或减缓动脉粥样硬化的进展[25]。有研究表明,较低的高密度脂蛋白胆固醇可能会增加心血管疾病风险[26]。低HDL-C水平可能意味着胆固醇逆向传输过程的效率降低,导致胆固醇在血管壁上的积累增加,增加了心血管疾病的风险。因此,维持健康的HDL-C水平是预防心血管疾病的重要策略之一。此外,HDL-C还具有其他心血管保护作用,包括抗氧化、抗炎、抗血栓形成和促进内皮细胞修复等[27]。这些功能进一步强化了HDL-C在维护血管健康和预防心血管疾病中的重要性。
NHR比值是指中性粒细胞计数与高密度脂蛋白胆固醇水平的比值,是反映炎症和脂质代谢的复合指标[28]。研究表明,较高的NHR比值可能与心血管疾病的风险增加有关[29]。高密度脂蛋白胆固醇已被证明可以调节中性粒细胞的活化作用,减少中性粒细胞的增殖和迁移[30]。炎症不仅直接损伤血管内皮,还可能影响脂蛋白的功能,如降低HDL-C的抗炎和促进胆固醇逆向传输的能力。因此,NHR比值的升高可能反映了体内炎症与脂质代谢紊乱的共同作用,从而增加了心血管疾病的风险。这可能是因为高水平的中性粒细胞表明体内存在慢性炎症,这种炎症环境可能促进动脉粥样硬化斑块的形成和发展。同时,低水平的HDL-C可能意味着胆固醇逆向传输受损,导致胆固醇在血管壁中的积累,增加了心血管疾病的风险。NHR作为冠心病的风险标志物,它提供了一个将炎症和胆固醇水平相结合的风险评估工具。我们的研究结果表明,NHR与CHD呈显著正相关,即使在调整了性别、年龄、高血压、糖尿病、吸烟史等危险因素后,NHR与CHD仍然呈显著正相关。这种独立性可能源于NHR比值能够反映体内的炎症状态,而炎症是动脉粥样硬化的关键驱动因素之一。此外,NHR比值还能够揭示HDL-C的功能状态,因为即使HDL-C水平在正常范围内,如果个体存在炎症,HDL-C的抗动脉粥样硬化能力也可能受到影响。NHR可能有助于改善冠心病的风险分层,特别是在传统风险评分未能准确预测风险的个体中。了解NHR与冠心病的关系可能有助于指导治疗决策,例如,通过使用抗炎药物或提高HDL-C水平的药物来降低冠心病风险。尽管NHR显示出作为冠心病风险预测工具的潜力,但仍需要更多的研究来验证其在不同人群中的适用性、准确性和成本效益。
总的来说,NHR比值是一个新兴的生物标志物,它结合了炎症和胆固醇代谢的信息,可能为冠心病的风险评估提供了新的视角。NHR可能作为心血管疾病风险的预测指标,尤其是在传统风险因素未能完全预测风险的情况下。NHR可能有助于早期识别那些处于心血管疾病风险中的个体,尤其是在炎症在疾病早期阶段就发挥作用的情况下。NHR可能用于监测治疗效果,尤其是在使用抗炎药物或调整脂质代谢治疗时。NHR可能有助于个性化医疗,通过识别炎症和胆固醇代谢异常的个体,为他们提供定制化的预防和治疗策略。NHR可能与心血管疾病的严重程度和预后相关,为临床医生提供更多关于患者病情的信息。此外,探索NHR与其他生物标志物的结合使用,有望提升心血管疾病风险预测的准确性。将NHR应用到心血管疾病预防的实践中,通过NHR预防冠心病,如生活方式改变、药物治疗等,需要综合考虑个体的生活方式、环境因素和遗传因素。然而,它在临床实践中的应用还需要更多的研究来支持。
基金项目
云南省教育厅科学研究基金项目(2023J0924)。
NOTES
*通讯作者。