基于随机森林回归的寒区作业人群健康预测分析
Health Prediction Analysis of Personnel in Cold Regions Based on Random Forest Regression
DOI: 10.12677/orf.2025.155242, PDF, HTML, XML,   
作者: 沈帅康, 王伟忠:上海理工大学健康科学与工程学院,上海;海军军医大学(第二军医大学)海军特色医学中心,上海;王杨凯:海军军医大学(第二军医大学)海军特色医学中心,上海
关键词: 寒区随机森林影响因素健康Cold Regions Random Forest Impact Factors Health
摘要: 为了解决寒区作业人群因特殊环境暴露导致的健康风险预测与防控策略不足的问题,本研究采用横断面研究设计,选取我国寒区地区(西藏、东北高纬度)作业人员,共纳入255名健康受试者,探索寒区作业人群健康影响因素。系统收集人口学特征、生活方式指标、健康结局数据及寒区环境参数。本研究基于国际临床指南和寒区医学专家咨询,构建了一个综合性的临床风险指数(CRI)作为连续性健康结局指标,该指数整合了血压、血糖、尿酸、血脂、症状及自评健康等多维信息。采用基于随机森林回归模型的预测方法,通过数据预处理、模型构建及评估,预测了寒区作业人群的临床风险指数。其结果对于制定寒区作业人员的健康保障措施、提高作业效率和安全性、以及推动寒区医学发展具有重要的理论和实践意义。
Abstract: In order to address the issue of insufficient health risk prediction and prevention strategies for workers in cold regions exposed to unique environmental conditions, this study employed a cross-sectional research design, selecting workers from Xizang, China, and including a total of 255 healthy participants to explore the health influencing factors of the cold region workforce. Systematic data was collected on demographic characteristics, lifestyle indicators, health outcome data, and environmental parameters of the cold region. Based on international clinical guidelines and consultations with cold medicine experts, a comprehensive Clinical Risk Index (CRI) was developed as a continuous health outcome indicator, which integrates multi-dimensional information such as blood pressure, blood sugar, uric acid, blood lipids, symptoms, and self-rated health. Using a prediction method based on a random forest regression model, the clinical risk index for workers in cold regions was predicted through data preprocessing, model construction, and evaluation. The results are of significant theoretical and practical importance for formulating health protection measures for cold region workers, improving work efficiency and safety, and promoting the development of cold medicine.
文章引用:沈帅康, 王杨凯, 王伟忠. 基于随机森林回归的寒区作业人群健康预测分析[J]. 运筹与模糊学, 2025, 15(5): 195-206. https://doi.org/10.12677/orf.2025.155242

1. 引言

寒区环境作为全球特殊地理区域的重要组成部分,其极端低温、强风等恶劣气候条件对作业人群健康构成显著威胁。随着我国在寒区开发活动的持续深入,越来越多的作业人员长期暴露于此类极端环境中,面临严峻的健康风险挑战[1]。已有研究表明,寒冷暴露可导致心血管系统、呼吸系统等多系统生理功能紊乱,显著增加心肌梗死、脑卒中等急性事件风险[2]。特别是在缺乏集中供暖条件的区域,寒冷天气对健康的影响更为显著,老年人群和特定职业群体表现出更高的易感性[3]。寒冷环境对人体健康的影响呈现多维度特征,短期暴露可引发急性心血管事件,长期暴露则与代谢异常、免疫功能下降等慢性健康问题密切相关[4]。我国西藏、东北等寒区的研究显示,极端寒冷条件下全因死亡率可升高10% (95% CI: 7%~13%),而作业人群因职业暴露特点,其健康风险较普通人群更为突出。值得注意的是,寒冷环境中的空气污染物(如PM)与低温存在协同效应,进一步加剧了心血管和呼吸系统疾病风险[5]。此外,特殊环境下的心理健康问题也不容忽视,长期隔离和极端气候可导致认知功能障碍和情绪障碍[6]

当前寒区健康风险预测面临三大瓶颈:一是现有预测模型多基于温带地区数据开发,在寒区环境下的适用性有限[7];二是传统方法难以整合多维度的环境暴露与个体健康数据[8];三是缺乏针对作业人群的特异性评估工具。虽然机器学习等方法在环境健康领域已展现出预测优势,但针对寒区作业人群的系统性健康风险评估体系仍待建立。为有效保障寒区作业人员身体健康、制定精准的预防与治疗策略,并增强其在极端环境下的适应能力,系统探究寒区作业人群健康影响因素具有重要现实意义。本研究旨在基于多源数据,利用机器学习方法构建寒区作业人群健康风险预测模型。通过系统收集极端环境参数、人口学特征、生活方式指标及心血管与呼吸系统疾病史等多维度数据,采用随机森林回归算法,对构建的综合健康指标——临床风险指数(CRI)进行预测建模,识别关键健康风险因素。研究成果可为寒区作业人员针对性健康保护措施的制定提供科学依据,从而降低健康风险,保障我国寒区科考任务的顺利实施。

2. 数据来源

2.1. 研究对象

本研究采用横断面研究设计,选取西藏、东北地区工作的人群作为研究对象,以全面探讨寒区作业人群的健康影响因素。该群体冬季暴露于极寒(−20℃以下)、极风(风速大于17.2 m∙s1)等极端环境,面临低氧极端恶劣的气候条件,是研究寒区环境对人体健康影响的理想样本。其数据对于分析寒区环境对人体的影响具有重要价值。最终,本研究共纳入255名健康受试者,所有受试者在参与研究前均经过严格的健康筛查,排除了患有严重慢性疾病或急性传染病的个体,以确保研究结果的准确性和可靠性。

共发放调查问卷265份,回收问卷255份,有效问卷255份,问卷回收率96.2%,有效率100%。人员纳入标准为在西藏、东北地区作业人员;意识清楚,具有完全的认知和行为能力;是自愿参与本研究,并签署知情同意书。人员排除标准为中途退出人员和患有严重疾病者。

2.2. 研究对象

本研究通过问卷调查的方式收集数据。问卷的设计基于研究目的,确保能够准确、全面地收集所需信息。问卷内容涵盖了人口统计学变量、生活方式变量、环境因素变量、生理指标变量、疾病史和症状变量以及主观评价变量等多个方面。

问卷内容包括人口统计学信息:年龄、性别、婚姻状况、独生子女情况、学历;生活方式:工作时间、久坐时间、每周运动时间、足量饮水、饮食习惯、吸烟史、饮酒史、睡眠情况;环境因素:极寒、紫外线、海拔、风速、磁场强度;生理指标:身高、体重、腰围、收缩压、舒张压、心率、尿酸、血糖、血脂;疾病史和症状:胸闷、气急、头晕、哮喘病史、高血压史、糖尿病史;主观评价:您觉得自己的健康状况怎么样。

本研究基于国际临床指南和寒区医学专家咨询,构建表1临床风险指数(CRI)作为综合健康结局指标,将问卷中的生理指标(包括血压、心率、血糖、尿酸、血脂)、主观症状(胸闷/气急/头晕)和被调查人员的自评健康(您觉得自己的健康状况怎么样?)纳入临床风险指数(CRI)。将临床风险指数(Clinical Risk Index, CRI)作为因变量。

Table 1. Classification of health indicators and abnormal ranges

1. 健康指标分类及异常范围

变量

权重

处理方式

赋值规则

血压

3

根据WHO血压标准

正常 = 1,异常 = 0

心率

3

参照美国心脏协会研究

正常 = 1,异常 = 0

血糖

2

按糖尿病诊断标准

正常 = 1,异常 = 0

尿酸

2

参照高尿酸血症定义

正常 = 1,异常 = 0

血脂异常

2

参照血脂定义

正常 = 1,异常 = 0

胸闷/气急/头晕

2

参照专家定义

正常 = 1,异常 = 0

主观健康自评

1

参照专家定义

一般/好/极好 = 1,差/极差 = 0

临床风险指数(CRI)计算公式:

CRI=3×+3×+2×+2×尿+2×+2×+2×

CRI值总分为15分,CRI值越高,表明作业人员健康状况越好。

2.3. 质量控制

问卷编制过程中采取文献研究、专题小组讨论等方法编制寒区健康调查问卷,确保调查问卷符合问卷编制的系统性、科学性、实用性和简便性。实施正式调查前将调查对象集合至1个地点,现场发放回收调查问卷,填写前讲解知情同意书和填写规范,填写过程中现场解答调查对象疑问,回收问卷时检查问卷是否填写完毕。

问卷回收完毕后,及时检查所有调查问卷质量,剔除因漏填、错填等原因造成的无效条目。单份问卷缺失条目比例 > 20%则整卷作废;单个条目缺失率 > 20%时删除该变量,缺失率 ≤ 20%则采用众数填补。随后使用Epidata3.1进行双人独立录入,对不一致数据核对原始纸质问卷确认正确数值。

3. 调查对象基本情况

本研究纳入寒区工作人员,基本情况如下。

3.1. 社会人口学特征

调查对象社会人口学特征见表2。58.4%的被调查人员年龄在30~40岁;97.2%的被调查寒区工作人员为男性。调查人员中70.2%的人已婚,60.7%的被调查寒区工作人员不是独生子女,62.8%的被调查工作人员是本科以上学历。

Table 2. Sociodemographic characteristics of respondents

2. 调查对象社会人口学特征

变量

分类

例数/人

构成比/%

年龄/岁

≤30

49

19.3

性别

30⁓40

149

58.4

≥40

57

22.3

248

97.2

7

2.8

婚姻状况

已婚

179

70.2

未婚或其他

76

29.8

是否为独生子女

100

39.3

155

60.7

学历

大专及以下

95

37.2

本科及以上

160

62.8

3.2. 健康状况情况

调查对象健康状况见表3。80%以上被调查寒区工作人员健康状况良好,有10%~20%的队员出现胸闷、气急、头晕、哮喘症状,同时血脂、血糖、尿酸也存在异常。

3.3. 行为生活方式

调查对象行为生活方式见表4。89.1%被调查寒区工作人员工作时间大于8小时;68.6%被调查寒区工作人员久坐时间大于6小时;74.2%被调查寒区工作人员每周运动的时间小于150分钟;78.5%寒区

Table 3. Health status of respondents

3. 调查对象健康状况

变量

分类

例数/人

构成比/%

是否胸闷

44

17.3

211

82.7

是否气急

44

17.3

211

82.7

是否头晕

51

20

204

80

血脂

正常

230

90.2

异常

25

9.8

血糖

正常

250

98

异常

5

2

尿酸

正常

224

87.8

异常

31

12.2

Table 4. Respondents’ behavioural lifestyles

4. 调查对象行为生活方式

变量

分类

例数/人

构成比/%

工作时间

<8

28

10.9

8~9

125

49.1

>9

102

40

久坐时间

≤6小时

80

31.4

>6小时

175

68.6

每周运动时间

<150分钟

189

74.2

≥150分钟

66

25.8

是否足量饮水

55

21.5

200

78.5

饮食习惯

偏甜(咸)

76

29.8

其他

179

70.2

吸烟史

不吸烟

82

32.2

吸烟或已戒烟

173

67.8

饮酒史

不饮酒

158

61.9

饮酒或已戒酒

97

38.1

睡眠

150

58.8

105

41.2

工作人员没有足量饮水;67.8%的作业人员有吸烟史;77.6%的作业人员无饮酒史;58.8%的寒区工作人员睡眠质量较好。数据显示,寒区工作人员在工作时间、久坐时间、运动习惯和饮水习惯方面存在一些不健康的生活方式,这可能对他们的长期健康产生影响。同时,他们在饮酒和睡眠方面表现出一些较为健康的行为。

3.4. 作业环境

调查对象作业环境见表5。50%以上的被调查寒区工作人员工作环境处于极寒、高风速、强紫外线和高海拔地区。

Table 5. Survey respondent’s work environment

5. 调查对象作业环境

变量

分类

例数/人

构成比/%

作业是否极寒

198

77.6

57

22.4

作业是否极风

153

60

102

40

作业是否强紫外线

208

81.5

47

18.5

作业是否高磁场强度

153

60

102

40

作业是否高海拔

150

58.8

105

41.2

3.5. 体格检查

调查对象行为生活方式见表6。68.3%的被调查寒区工作人员的腰围在85 cm以上;49%的作业人员BMI指数在23~27范围,BMI大于27和小于23的调查人员各占29%,6%的调查人员收缩压异常;13.6%的调查人员舒张压异常;寒区作业人员中有5.3%的人心率低于60次/分钟,2.7%的人心率高于100次/分钟。少数寒区工作人员在腰围、BMI指数、血压和心率方面存在一定的健康风险,其中血压和心率可能由于寒区自然环境导致。

Table 6. Physical examination of the respondents

6. 调查对象体格检查

变量

分类

例数/人

构成比/%

腰围

<85 cm

174

68.3

≥85 cm

81

31.7

BMI

<23

74

29.1

23~27

125

49

>27

56

21.9

收缩压

≤90

3

1.1

90~140

240

94.1

≥140

12

4.8

舒张压

≤60

7

2.9

60~90

218

85.4

≥90

30

11.7

心率

≤60次/分钟

13

5.3

60~79次/分钟

65

25.4

80~100次/分钟

170

66.6

≥100次/分钟

7

2.7

3.6. 疾病史

调查对象行为生活方式见表7。12.2%的调查人员有高血压史;3.9%的人有糖尿病史;20%的人有哮喘史。

Table 7. Disease history of the survey subjects (N = 255)

7. 调查对象疾病史(N = 255)

变量

分类

例数/人

构成比/%

高血压史

31

12.2

224

87.8

糖尿病史

10

3.9

245

96.1

哮喘史

51

20

204

80

4. 建模

4.1. 数据预处理

本研究采用Python 3.9作为数据分析平台,使用pandas、numpy、scikit-learn和matplotlib等库进行数据处理和建模分析。首先对收集的255份有效问卷数据进行预处理,包括缺失值处理和特征编码。对于单份问卷缺失条目比例 > 20%的整卷作废;单个条目缺失率 > 20%时删除该变量,缺失率 ≤ 20%则采用众数填补。连续变量临床风险指数(CRI)作为目标变量,其计算公式为:

CRI=3×+3×+2×+2×尿+2×+2×+2×

CRI值总分为15分,CRI值越高,表明作业人员健康状况越好。计算得到的目标变量CRI的最小值为0.0000,最大值为14.0000,平均值为6.0510,标准差为2.8756,表明数据具有一定的变异性,适合进行回归建模。

4.2. 随机森林回归模型构建

本研究采用随机森林回归算法构建寒区作业人群健康风险预测模型。随机森林是一种集成学习方法,通过构建多棵决策树并进行聚合预测,具有处理高维数据、避免过拟合和评估特征重要性等优势。

将预处理后的数据按8:2的比例随机分为训练集(204个样本)和测试集(51个样本)。使用训练集构建模型,测试集评估模型性能。

首先通过网格搜索确定最优的max-features参数(每棵决策树考虑的最大特征数)。遍历所有可能的max-features值(从1到特征总数23),发现当max-features = 13时,模型在测试集上的R²分数最高,达到0.92 (图1)。确定最佳max-features参数后,进一步优化n-estimators参数(森林中决策树的数量)。测试n-estimators从50到500的范围,发现当n-estimators = 130时,模型性能达到最优(图2)。

Figure 1. The relationship between goodness of fit and the number of maximum features

1. 拟合优度与最大特征数量关系

Figure 2. The relationship between goodness of fit and decision trees

2. 拟合优度与决策树的关系

最终确定随机森林回归模型的最优参数为:n-estimators = 130, max-features = 13, random-state = 10。

4.3. 模型性能评估

使用最优参数训练最终模型,并在测试集上评估性能。模型在测试集上的R2分数为0.9251,表明模型能够解释目标变量92.51%的方差,具有极高的预测精度。均方误差(MSE)为0.7995,平均绝对误差(MAE)为0.6003。相对于目标变量的取值范围(0~14)和标准差(2.8756),这些误差指标都非常小,表明模型的预测值与真实值之间的差异很小。为了直观展示模型的拟合效果,绘制了测试集上预测值与真实值的对比曲线(图3)。可以看出,预测值(绿色曲线)与真实值(红色曲线)高度吻合,进一步验证了模型的优异性能。

Figure 3. The fitting effect of the random forest model on the test set

3. 随机森林模型在测试集上的拟合效果

4.4. 特征重要性分析

通过随机森林模型的内置特征重要性评估和SHAP分析,识别影响寒区作业人群健康的关键因素。基于特征重要性排序(图4),发现影响CRI的最重要因素包括BMI、是否高海拔环境、腰围、是否极风环境、是否高磁场强度环境、是否有紫外线环境等。

SHAP分析进一步揭示了各特征对预测结果的影响方向和程度(图5)。例如,较高的BMI和腰围值与较低的CRI分数相关,表明肥胖是寒区作业人群健康的重要风险因素。适量的运动时间和良好的睡眠质量则与较高的CRI分数相关,表明健康生活方式对抵御寒区环境压力的保护作用。环境因素方面,极寒环境、高海拔暴露、极风环境与较低的CRI分数相关,证实了极端环境对健康的负面影响。

5. 结论与建议

本研究基于255名寒区作业人员的多维度健康数据,采用随机森林回归算法构建了寒区作业人群健康风险预测模型。研究结果显示,通过参数优化确定的模型组合(n_estimators = 130, max_features = 13)表现出较好的预测性能,测试集R2分数为0.9251,表明该模型能够较好地反映寒区作业人员的临床风险指数。通过SHAP分析和特征重要性评估发现,高海拔暴露与寒区作业人员健康状态呈现显著关联,其次为BMI、腰围等身体指标参数以及极风、极寒等环境因素,这些发现与寒区环境的特殊性相吻合。研究

Figure 4. Feature importance ranking based on random forests

4. 基于随机森林的特征重要性排序

Figure 5. Feature importance ranking based on SHAP

5. 基于SHAP的特征重要性排序

还观察到各特征指标之间存在一定的交互关系,环境因素与个体健康状况共同构成了寒区作业人员健康风险评估的多维度指标体系。

基于研究结果,首先可考虑改善高海拔作业环境的基础设施条件,配备相应的环境适应设备,为作业人员提供必要的防护装备,建立环境健康监测机制;其次可建立寒区作业人员健康筛查标准,将BMI、腰围、血压等指标纳入评估体系,对相关指标异常的人员提供健康指导;同时需要提供必要的心理支持服务;还可考虑建立健康数据监测系统,应用本研究开发的预测模型,建立个人健康档案管理平台,开发健康风险评估工具。需要指出的是,本研究存在若干局限性,包括样本数量和代表性的限制、缺乏纵向观测数据、机制探讨不够深入等,未来研究可考虑扩大样本规模,开展长期追踪调查,结合多学科方法探索内在机制,并在更多样的寒区环境中验证模型适用性,同时整合多源数据提升预测模型的准确性。寒区健康研究是我国寒区事业的重要组成部分,本研究成果为认识寒区作业人员健康状况提供了数据参考,对促进寒区科研活动具有积极意义。

参考文献

[1] Wan, K., Feng, Z., Hajat, S. and Doherty, R.M. (2022) Temperature-Related Mortality and Associated Vulnerabilities: Evidence from Scotland Using Extended Time-Series Datasets. Environmental Health, 21, Article No. 99. [Google Scholar] [CrossRef] [PubMed]
[2] Jiang, Y., Yi, S., Gao, C., Chen, Y., Chen, J., Fu, X., et al. (2023) Cold Spells and the Onset of Acute Myocardial Infarction: A Nationwide Case-Crossover Study in 323 Chinese Cities. Environmental Health Perspectives, 131, Article 87016. [Google Scholar] [CrossRef] [PubMed]
[3] Yu, G., Yang, L., Liu, M., Wang, C., Shen, X., Fan, L., et al. (2023) Extreme Temperature Exposure and Risks of Preterm Birth Subtypes Based on a Nationwide Survey in China. Environmental Health Perspectives, 131, Article 87009. [Google Scholar] [CrossRef] [PubMed]
[4] Boulares, A., Jdidi, H. and Douzi, W. (2025) Cold and Longevity: Can Cold Exposure Counteract Aging? Life Sciences, 364, Article 123431. [Google Scholar] [CrossRef] [PubMed]
[5] Yasunari, T.J., Wakabayashi, S., Matsumi, Y. and Matoba, S. (2022) Developing an Insulation Box with Automatic Temperature Control for PM2.5 Measurements in Cold Regions. Journal of Environmental Management, 311, Article 114784. [Google Scholar] [CrossRef] [PubMed]
[6] Wang, J., Kharrat, F.G.Z., Gariépy, G., Gagné, C., Pelletier, J., Massamba, V.K., et al. (2024) Predicting the Population Risk of Suicide Using Routinely Collected Health Administrative Data in Quebec, Canada: Model-Based Synthetic Estimation Study. JMIR Public Health and Surveillance, 10, e52773. [Google Scholar] [CrossRef] [PubMed]
[7] Yang, S., Ding, Y., Yu, C., Guo, Y., Pang, Y., Sun, D., et al. (2023) WHO Cardiovascular Disease Risk Prediction Model Performance in 10 Regions, China. Bulletin of the World Health Organization, 101, 238-247. [Google Scholar] [CrossRef] [PubMed]
[8] Ebrahimi-Khusfi, Z., Taghizadeh-Mehrjardi, R. and Nafarzadegan, A.R. (2020) Accuracy, Uncertainty, and Interpretability Assessments of ANFIS Models to Predict Dust Concentration in Semi-Arid Regions. Environmental Science and Pollution Research, 28, 6796-6810. [Google Scholar] [CrossRef] [PubMed]