基于随机森林算法构建与验证缺血性脑卒中患者社会功能缺陷风险预测模型
Construction and Validation of a Risk Prediction Model for Social Functional Impairment in Ischemic Stroke Patients Based on the Random Forest Algorithm
DOI: 10.12677/ns.2026.152054, PDF, HTML, XML,   
作者: 杜晓鹏, 赵雅宁, 刘 瑶:华北理工大学护理与康复学院,河北 唐山;常学优*:华北理工大学附属医院,河北 唐山
关键词: 缺血性脑卒中社会功能机器学习随机森林Ischemic Stroke Social Function Machine Learning Random Forest
摘要: 目的:探讨缺血性脑卒中患者社会功能缺陷的影响因素,构建并验证基于随机森林算法的社会功能缺陷预测模型。方法:采用病例对照研究选取2022年8月至2023年3月在华北理工大学附属医院诊治的存在社会功能缺陷的患者为病例组,不存在社会功能缺陷的患者为对照组。使用SPSS22.0进行单因素分析,使用二元logistic回归分析进行多因素分析。采用随机森林模型算法建模,通过受试者工作特征曲线下面积、准确率、灵敏度、特异度和F1分数等对模型性能进行综合评价。结果:多因素logistic回归分析显示,年龄 ≥ 60岁(OR = 3.856, 95% CI: 2.552~5.827)、文化程度低(OR = 2.300, 95% CI: 1.430~3.699)、认知功能障碍(OR = 1.633, 95% CI: 1.047~2.549)、伤残接受度低(OR = 2.387, 95% CI: 1.611~3.537)、健康自我管理能力低水平(OR = 1.697, 95% CI: 1.115~2.584)、存在卒中后疲劳(OR = 2.815, 95% CI: 1.927~4.112)与缺血性脑卒中患者社会功能缺陷高风险相关。构建的随机森林预测模型的AUC值、准确率、灵敏度、特异度和F1分数分别为0.785、0.721、0.744、0.698和0.727。引入SHAP解释工具对预测模型进行解释,变量重要性由高到低依次为年龄、卒中后疲劳、伤残接受度、文化程度、健康自我管理能力和认知功能。结论:本研究构建的随机森林模型预测效能良好,可以帮助临床医护人员对缺血性脑卒中社会功能缺陷高危人群进行筛查。
Abstract: Objective: To investigate the influencing factors of social functional impairment in patients with ischemic stroke, and to develop and validate a predictive model for social functional impairment based on the random forest algorithm. Methods: A case-control study was conducted, selecting patients with social functional impairment treated at the Affiliated Hospital of North China University of Science and Technology from August 2022 to March 2023 as the case group, and patients without social functional impairment as the control group. Univariate analysis was performed using SPSS 22.0, and multivariate analysis was conducted using binary logistic regression. A random forest model was developed, and its performance was comprehensively evaluated using metrics such as the area under the receiver operating characteristic curve (AUC), accuracy, sensitivity, specificity, and F1 score. Results: Multivariate logistic regression analysis showed that age ≥60 years (OR = 3.856, 95% CI: 2.552~5.827), low education level (OR = 2.300, 95% CI: 1.430~3.699), cognitive impairment (OR = 1.633, 95% CI: 1.047~2.549), low disability acceptance (OR = 2.387, 95% CI: 1.611~3.537), low health self-management ability (OR = 1.697, 95% CI: 1.115~2.584), and the presence of post-stroke fatigue (OR = 2.815, 95% CI: 1.927~4.112) were associated with a higher risk of social functional impairment in ischemic stroke patients. The random forest predictive model achieved an AUC of 0.785, accuracy of 0.721, sensitivity of 0.744, specificity of 0.698, and an F1 score of 0.727. Introducing the SHAP interpretation tool to explain the prediction model, the order of variable importance from high to low is age, post-stroke fatigue, disability acceptance, education level, health self-management ability, and cognitive function. Conclusion: The random forest model developed in this study demonstrates good predictive performance and can assist clinical healthcare providers in screening high-risk populations for social functional impairment in ischemic stroke patients.
文章引用:杜晓鹏, 常学优, 赵雅宁, 刘瑶. 基于随机森林算法构建与验证缺血性脑卒中患者社会功能缺陷风险预测模型 [J]. 护理学, 2026, 15(2): 203-211. https://doi.org/10.12677/ns.2026.152054

1. 引言

最新全球疾病负担数据显示[1],缺血性脑卒中的发病率、患病率持续上升,已成为重大公共卫生问题。脑卒中可导致患者认知、语言及运动功能受损,进一步影响其社会功能[2]。社会功能反映个体在复杂环境中的适应能力,受个体、家庭、社会等多个生态因素的影响[3]。研究报道,脑卒中患者社会功能缺陷与卒中后抑郁、焦虑等心理障碍的发生密切相关[4],其发生率为40.0%~56.5% [5],并可引发患者社交退缩、职业能力丧失及生活质量下降等问题[6]。同时,患者的社会功能缺陷还显著增加家庭照护负担,增加家庭经济压力,导致照料者出现身心健康问题,进而影响家庭结构的稳定[7]。随机森林算法近年来广泛应用于疾病及健康问题的预测,可以对各个影响因素的重要性进行排序并构建风险预测模型[8]。本研究基于随机森林算法构建缺血性脑卒中社会功能缺陷的预测模型,以便更早识别需要干预的患者群体,为实施针对性干预措施提供依据,从而改善患者康复预后,为临床诊疗和护理提供可靠依据。

2. 对象及方法

2.1. 对象

本研究采用病例对照研究,以2022年8月至2023年3月期间华北理工大学附属医院神经内科收治的中老年缺血性脑卒中患者为研究对象。在患者出院3个月时,采用世界卫生组织残疾评定量表(Word Health Organization Disability Assessment Schedule, WHO-DAS 2.0)对社会功能进行评定,将评分 ≥ 52分的286例患者作为病例组的研究对象,同期收取评分 ≤ 51分的286例患者为对照组的研究对象。纳入标准:(1) 符合《中国急性缺血性脑卒中诊治指南2023》制定的缺血性脑卒中诊断标准[9];(2) 年龄: ≥ 45岁;(3) 病情稳定,意识清楚。排除标准:(1) 伴有痴呆及严重认知功能障碍的患者;(2) 患有严重躯体疾病,例如严重心、肝、肾脏疾病以及肺部、血液等疾病的患者;(3) 言语表达不清或沟通障碍者。本研究经华北理工大学伦理委员会批准,所有研究对象均签署知情同意书。

2.2. 样本量计算

根据构建预测模型样本量计算的经验法则[10],每个备选预测因子需要至少10例阳性患者。研究显示,轻型缺血性脑卒中社会功能缺陷的发生率约为45% [11],考虑20%的样本丢失,则本研究所需的最小样本量为:(15 × 10/45%)/0.8 = 417例。本研究最终纳入572例患者,将其以7∶3的比例随机分为训练集(400例)和测试集(172例),训练集用于模型构建,测试集用于评估模型的预测性能。

2.3. 研究工具

(1) 一般资料调查表:包括性别、年龄、婚姻状况、家庭月收入、文化程度和居住地。(2) 卒中部位:收集医院客观指标,评估患者病灶存在的位置。(3) 认知功能:采用精神状态检查表(Mini-Mental State Examination, MMSE)评估认知功能障碍缺损程度,该量表是1975年由美国Folstein等人[12]指定的,该量表共包括5个维度,30个条目,总分为30分。得分 ≥ 27分判定为无认知功能障碍;<27分判定为认知功能障碍。(4) 伤残接受度:采用伤残接受度量表(Acceptance of Disability Scale, ADS),该量表由Linkowski根据损失接受理论编制,主要用于测量个体对残疾的态度[13]。该量表共包括4个维度,共32个条目32~64分代表低水平;65~96分代表中等水平;97~128分代表高水平,本研究将低水平编码为1,高水平编码为0。(5) 健康自我管理能力:采用成年人健康自我管理能力量表(Adult Health Self-Management Ability Scale, AHSMS),该量表由赵秋利等人编制[14],共包括3个分量表,7个维度,38个条目。(6) 卒中后疲劳:疲劳严重度量表(Fatigue Severity Scale, FSS)该量表是由Krupp等[15]编制,包含9个条目,用来筛选卒中后疲劳患者。量表包含9个条目,采用Likert7级评分法,将各项指标得分相加除以9,可以得出中文版疲倦严重度评分。得分 ≥ 4分的表示疲劳,得分 < 4分的表示不疲劳。(7) 卒中后抑郁:采用抑郁自评量表(Self-rating Depression Scale, SDS)测评抑郁程度,由Zung [16]于1971年开发。该量表共20个条目,总分为20~80分,得分越高代表抑郁程度越严重。

2.4. 统计学方法

采用SPSS22.0以及R4.4.2软件进行统计分析和建模。计数资料采用频数、构成比进行描述,组间比较采用χ2检验。单因素分析有统计学意义的变量纳入多因素logistic回归分析。采用R4.4.2软件在Tidy models环境下,将多因素分析筛选出有意义的变量纳入随机森林模型,使用5折交叉验证及网格搜索进行参数调优。模型性能评估采用ROC曲线下面积(AUC)、准确率、F1分数、特异度和灵敏度等作为评价指标,ROC曲线评估模型的区分度,校准曲线评估模型的校准度。检验水准α = 0.05。

3. 结果

3.1. 缺血性脑卒中患者社会功能缺陷单因素分析

两组患者在社会功能缺陷组(对照组)间,年龄、文化程度、婚姻状况、认知功能、伤残接受度、健康自我管理水平和卒中后疲劳水平比较差异具有统计学意义(P < 0.05, P < 0.01),见表1

Table 1. Univariate analysis of influencing factors of social function in patients with ischemic stroke

1. 缺血性脑卒中患者社会功能影响因素单因素分析

因素

对照组

病例组

χ2

P

性别

150

152

0.028

0.867

136

134

年龄

<60岁

146

54

65.073

<0.001

≥60岁

140

232

文化程度

初中及以上

247

197

25.162

<0.001

小学及以下

39

89

居住地

城镇

185

196

0.951

0.329

农村

101

90

婚姻

已婚

245

225

4.773

0.029

未婚

41

61

卒中部位

左侧

93

114

3.640

0.162

右侧

111

94

双侧

82

78

月收入

高收入

120

125

0.178

0.673

低收入

166

161

认知功能

正常

234

193

15.530

<0.001

障碍

52

93

卒中后抑郁

216

197

3.145

0.076

抑郁

70

89

伤残接受度

高水平

207

151

23.414

<0.001

低水平

79

135

健康自我管理水平

中高水平

222

182

13.484

<0.001

低水平

64

104

卒中后疲劳

191

115

40.590

<0.001

95

171

3.2. 累积生态风险与缺血性脑卒中患者社会功能缺陷的二元logistic回归分析

以社会功能为因变量,单因素分析有统计学意义的变量作为自变量纳入多因素logistic回归分析。赋值表见表2,结果显示,年龄 ≥ 60岁、文化程度初中及以下、认知功能障碍、伤残接受度低水平、健康自我管理低水平和卒中后疲劳风险与缺血性脑卒中患者社会功能缺陷相关,均有统计学意义,具体见表3

Table 2. Variable assignment table of multivariate logistic regression analysis

2. 多因素logistic回归分析变量赋值表

变量

编号

赋值

社会功能

Y

0 = 无障碍,1 = 有障碍

年龄

X1

0 = <60岁,1 = ≥60岁

文化程度

X2

0 = 高中及以上,1 = 初中及以下

婚姻状况

X3

0 = 已婚,1 = 未婚

认知功能

X4

0 = 正常,1 = 障碍

伤残接受度

X5

0 = 高水平,1 = 低水平

健康自我管理水平

X6

0 = 高水平,1 = 低水平

卒中后疲劳

X7

0 = 无风险,1 = 有风险

Table 3. Multivariate logistic regression analysis of social dysfunction in patients with mild ischemic stroke

3. 轻型缺血性脑卒中患者社会功能缺陷多因素logistic回归分析

项目

β值

标准误

Wald χ2

P值

OR值

95% CI

年龄

1.350

0.211

41.055

<0.001

3.856

2.552~5.827

文化程度

0.833

0.243

11.788

0.001

2.300

1.430~3.699

婚姻状况

0.243

0.252

0.929

0.335

1.275

0.778~2.092

认知功能

0.491

0.227

4.668

0.031

1.633

1.047~2.549

伤残接受度

0.870

0.201

18.815

<0.001

2.387

1.611~3.537

健康自我管理

0.529

0.214

6.085

0.014

1.697

1.115~2.584

卒中后疲劳

1.035

0.193

28.646

<0.001

2.815

1.927~4.112

常数

−2.192

0.234

87.826

<0.001

0.112

3.3. 随机森林模型的构建与评估

将数据以7:3的比例随机分为训练集和测试集,将多因素分析筛选出的有意义的变量纳入随机森林模型,即建立包含年龄、文化程度、认知功能、伤残接受度、健康自我管理能力和卒中后疲劳的随机森林预测模型。采用AUC、准确率、灵敏度、特异度和F1分数进行模型性能评估,该模型曲线下面积为0.785,准确率为0.721,灵敏度为0.744,特异度为0.698,F1分数为0.727,表明该模型在预测缺血性脑卒中患者社会功能缺陷时表现较好。该模型在测试集上的ROC曲线见图1,提示该模型的区分度较好。该模型在测试集上的混淆矩阵见图2,校准曲线见图3,提示该模型的预测结果与真实情况的吻合程度较好。本研究为了提升模型的可解释性,引入SHAP解释工具对预测模型进行解释,确定各个因素与模型预测结果之间的相关性,提供可视化的解释。SHAP重要性排名和SHAP蜂群图见图4。其中图4中的(a)为变量重要性排名图,(b)为SHAP蜂群图。重要性排名图表明,变量重要性由高到低依次为年龄、卒中后疲劳、伤残接受度、文化程度、健康自我管理能力和认知功能。蜂群图展示了每个特征变量的SHAP值,反映了特征变量对模型预测结果的影响,结果表明,年龄 ≥ 60岁、卒中后疲劳有风险、伤残接受度低水平、健康自我管理能力低水平、文化程度初中及以下、认知功能障碍对模型的贡献有正向影响,患者发生社会功能缺陷的风险高。

Figure 1. ROC curve of random forest model on test set

1. 随机森林模型在测试集上的ROC曲线

Figure 2. Confusion matrix of random forest model on test set

2. 随机森林模型在测试集上的混淆矩阵

Figure 3. Calibration curve of random forest model on test set

3. 随机森林模型在测试集上的校准曲线

Figure 4. SHAP analysis of stochastic forest prediction model

4. 随机森林预测模型的SHAP分析

4. 讨论

在全球范围内缺血性脑卒中是患者致残的重要原因[17],而缺血性脑卒中患者的社会功能恢复问题往往被忽视。社会功能缺陷不仅直接影响患者的生活质量与康复信心,也给其家庭和社会带来长期照护负担[18]。因此,识别影响社会功能的影响因素并建立有效的预测工具,对实现精准康复干预具有重要意义。本研究基于随机森林算法,探讨与轻型缺血性脑卒中患者社会功能缺陷相关的风险因素,并进一步构建预测模型,以期为早期识别与干预提供依据。

本研究显示,年龄、文化程度、认知功能、伤残接受度、卒中后疲劳、健康自我管理能力均与轻型缺血性脑卒中患者社会功能缺陷高风险显著相关。在多因素分析与随机森林模型中,年龄的变量重要性都居于首位,表明其对社会功能的影响较其他因素更高。可能的原因为:随着年龄增加,患者脑组织结构发生退行性改变,神经可塑性下降,血管病理变化及神经递质系统紊乱,共同导致认知功能、运动能力及情绪调节能力的衰退,从而显著影响其社会参与和适应能力[19]。除年龄外,文化程度、认知功能、伤残接受度、卒中后疲劳及健康自我管理能力与社会功能缺陷显著相关。文化程度较低可能导致患者对疾病知识的理解能力低,从而导致其康复指导的依从性及社会资源的获取能力降低,进而影响其重返社会[20]。认知功能障碍患者伴有的前额叶皮质损伤可能对社会功能存在负面影响机制,表现为执行功能障碍,导致患者处理复杂社交任务的能力显著下降,从而削弱患者处理复杂的社交情境和履行不同社会角色的能力[21]。伤残接受度反映患者对自身躯体功能限制的心理适应能力,接受度较低者更容易出现回避行为,从而减少社会参与的程度[22],进而限制患者的社会功能。卒中后疲劳作为脑卒中病人常见的恢复期症状,其存在的中枢炎症,如IL-6水平升高会导致能量代谢障碍和运动动机下降,进而显著降低患者的活动耐力和参与社交的意愿[23]。健康自我管理能力则贯穿康复全程,该能力不足可能导致整体康复效果不佳,从而制约社会功能的恢复[24]。这些因素可能通过影响患者的疾病认知、心理适应、活动耐力和康复行为,共同影响社会功能缺陷的发生发展[25]

准确简易且有效地预测缺血性脑卒中患者社会功能缺陷,从而对患者实施个体化的预防及干预至关重要。本研究使用随机森林算法构建缺血性脑卒中患者社会功能缺陷的预测模型,该模型的AUC值为0.785,表明该模型具有较好的预测性能,且该模型的校准曲线表明模型的预测结果与实际结果吻合程度较好,具有较高的准确度。本研究构建的基于随机森林的缺血性脑卒中患者社会功能缺陷预测模型有助于指导临床医务人员对患者社会功能缺陷的影响因素尽早识别和干预,从而降低社会功能缺陷的发生率,为改善卒中后社会功能结局提供便捷、可靠的决策支持。

NOTES

*通讯作者。

参考文献

[1] Fan, J., Li, X., Yu, X., Liu, Z., Jiang, Y., Fang, Y., et al. (2023) Global Burden, Risk Factor Analysis, and Prediction Study of Ischemic Stroke, 1990-2030. Neurology, 101, e137-e150. [Google Scholar] [CrossRef] [PubMed]
[2] Nagayoshi, M., Everson-Rose, S.A., Iso, H., Mosley, T.H., Rose, K.M. and Lutsey, P.L. (2014) Social Network, Social Support, and Risk of Incident Stroke: Atherosclerosis Risk in Communities Study. Stroke, 45, 2868-2873. [Google Scholar] [CrossRef] [PubMed]
[3] 赵新娜. 中青年PCI术后病人重返工作准备度及社会功能的现状及相关性分析[J]. 护理研究, 2022, 36(1): 118-121.
[4] 吴进纯, 肖明朝, 赵庆华, 等. 园艺疗法对抑郁症患者生活质量及社会功能的影响[J]. 中国护理管理, 2018, 18(1): 48-51.
[5] Ozkan, H., Ambler, G., Esmail, T., Banerjee, G., Simister, R.J. and Werring, D.J. (2025) Prevalence, Trajectory, and Factors Associated with Patient-Reported Nonmotor Outcomes after Stroke: A Systematic Review and Meta-Analysis. JAMA Network Open, 8, e2457447. [Google Scholar] [CrossRef] [PubMed]
[6] 江佳隆, 李贤. 老年脑卒中患者情绪和社会功能缺陷现况及其影响因素的调查研究[J]. 解放军护理杂志, 2020, 37(12): 47-50.
[7] Sreedharan, S.E., Unnikrishnan, J.P., Amal, M.G., Shibi, B.S., Sarma, S. and Sylaja, P.N. (2013) Employment Status, Social Function Decline and Caregiver Burden among Stroke Survivors. a South Indian Study. Journal of the Neurological Sciences, 332, 97-101. [Google Scholar] [CrossRef] [PubMed]
[8] 傅桑娅, 李正昕, 温清, 等. 心血管疾病风险预测的危险因素和模型构建的研究进展[J]. 中华高血压杂志(中英文), 2024, 32(11): 1020-1028.
[9] 李光硕, 赵性泉.《中国急性缺血性卒中诊治指南2023》解读[J]. 中国卒中杂志, 2024, 19(8): 956-961.
[10] Riley, R.D., Ensor, J., Snell, K.I.E., Harrell, F.E., Martin, G.P., Reitsma, J.B., et al. (2020) Calculating the Sample Size Required for Developing a Clinical Prediction Model. BMJ, 368, m441. [Google Scholar] [CrossRef] [PubMed]
[11] Taylor-Rowan, M., Cuthbertson, G., Keir, R., Shaw, R., Drozdowska, B., Elliott, E., et al. (2019) The Prevalence of Frailty among Acute Stroke Patients, and Evaluation of Method of Assessment. Clinical Rehabilitation, 33, 1688-1696. [Google Scholar] [CrossRef] [PubMed]
[12] Folstein, M.F., Folstein, S.E. and McHugh, P.R. (1975) “Mini-Mental State”. A Practical Method for Grading the Cognitive State of Patients for the Clinician. Journal of Psychiatric Research, 12, 189-198. [Google Scholar] [CrossRef] [PubMed]
[13] Lim, M.J.R., Tan, J., Neo, A.Y.Y., Ng, B.C.J. and Asano, M. (2024) Acceptance of Disability in Stroke: A Systematic Review. Annals of Physical and Rehabilitation Medicine, 67, Article 101790. [Google Scholar] [CrossRef] [PubMed]
[14] 赵秋利, 黄菲菲. 成年人健康自我管理能力测评量表的编制及信度和效度检验[J]. 中华现代护理杂志, 2011, 17(8): 869-872.
[15] Krupp, L.B., LaRocca, N.G., Muir-Nash, J., et al. (1989) The Fatigue Severity Scale. Application to Patients with Multiple Sclerosis and Systemic Lupus Erythematosus. Archives of Neurology, 46, Article 1121. [Google Scholar] [CrossRef] [PubMed]
[16] Zung, W.W.K. (1971) A Rating Instrument for Anxiety Disorders. Psychosomatics, 12, Article 361. [Google Scholar] [CrossRef
[17] 刘敏, 方向华. 脑卒中后残疾的研究进展[J]. 中华流行病学杂志, 2013, 34(11): 1146-1150.
[18] Shrivastav, S.R., Ciol, M.A. and Lee, D. (2022) Perceived Community Participation and Associated Factors in People with Stroke. Archives of Rehabilitation Research and Clinical Translation, 4, Article 100210. [Google Scholar] [CrossRef] [PubMed]
[19] Gonzales, M.M., Garbarino, V.R., Pollet, E., Palavicini, J.P., Kellogg, D.L., Kraig, E., et al. (2022) Biological Aging Processes Underlying Cognitive Decline and Neurodegenerative Disease. Journal of Clinical Investigation, 132, e158453. [Google Scholar] [CrossRef] [PubMed]
[20] 黎婉钰, 付强强, 金花, 等. 主动健康视角下慢性病患者健康素养水平及影响因素研究[J]. 中国全科医学, 2025, 28(11): 1315-1319.
[21] Kheyrkhah, H., Soltani Zangbar, H., Salimi, O., Shahabi, P. and Alaei, H. (2020) Prefrontal Dopaminergic System and Its Role in Working Memory and Cognition in Spinal Cord‐Injured Rats. Experimental Physiology, 105, 1579-1587. [Google Scholar] [CrossRef] [PubMed]
[22] Townend, E., Tinson, D., Kwan, J. and Sharpe, M. (2010) ‘Feeling Sad and Useless’: An Investigation into Personal Acceptance of Disability and Its Association with Depression Following Stroke. Clinical Rehabilitation, 24, 555-564. [Google Scholar] [CrossRef] [PubMed]
[23] Popko, K., Gorska, E., Stelmaszczyk-Emmel, A., Plywaczewski, R., Stoklosa, A., Gorecka, D., et al. (2010) Proinflammatory Cytokines IL-6 and TNF-α and the Development of Inflammation in Obese Subjects. European Journal of Medical Research, 15, Article No. 120. [Google Scholar] [CrossRef] [PubMed]
[24] Disler, R.T., Gallagher, R.D. and Davidson, P.M. (2012) Factors Influencing Self-Management in Chronic Obstructive Pulmonary Disease: An Integrative Review. International Journal of Nursing Studies, 49, 230-242. [Google Scholar] [CrossRef] [PubMed]
[25] Huang, Y., You, J., Wang, Q., Wen, W. and Yuan, C. (2024) Trajectory and Predictors of Post-Stroke Depression among Patients with Newly Diagnosed Stroke: A Prospective Longitudinal Study. Journal of Stroke and Cerebrovascular Diseases, 33, Article 108092. [Google Scholar] [CrossRef] [PubMed]