1. 引言
随着社会经济发展与生活方式变革,高血压、血脂异常、肥胖及糖尿病这四种慢性疾病(以下简称“四病”)的发病率持续攀升,已成为威胁公众健康的重要公共卫生问题。四病不仅会给患者家庭带来沉重医疗负担,更会消耗大量社会医疗资源;更为关键的是,现有临床观察与初步研究提示,这四种疾病并非孤立存在,其发病机制、病理进程之间可能存在复杂的交互关联,若这种关联若未被充分认识,将影响慢性病防控策略的精准性与有效性,因此,系统探究四病之间的关联模式与内在规律,对于提升慢性病防控效率、减轻疾病总体负担具有重要的现实意义与临床价值。
关于四病影响因素已有许多学者进行了相关研究,如Masaki Mogi [1]、Hoyoun Won [2]等学者聚焦单一疾病影响因素进行研究,指出不良生活习惯、不合理饮食结构是诱发四病的主要可控因素。国内学者亦在该领域开展了针对性研究,如胡佳琪等人基于评价内脏型肥胖的LAP、TyG以及联合指数均与钢铁工人“三高”共病密切相关[3]-[5]。学界对单一慢性病的机制与风险因素研究已较为深入,但针对四病整体关联的系统性分析仍存在不足。因此本研究将同步评估四病的交叉风险因素,全面揭示四病之间的内在逻辑,以此补充学术界对研究高血压、血脂异常、肥胖和糖尿病相关性研究。
为科学剖析疾病间关联,一些学者已探索出多种慢性病关联研究的统计模型,例如随机森林[6]、logistic回归模型[7]-[8]、多重线性回归[9]等。这些模型为本文的方法选择提供了有力支撑。基于现有方法的优势与本研究的核心目标,本文最终选择皮尔逊相关系数与Logistic回归模型作为核心分析工具。其中,皮尔逊相关系数模型[10]可用于量化变量间的线性关联强度,通过计算两两疾病指标的相关系数,直观呈现四病之间的基础关联趋势,该模型的优势在于能快速捕捉变量间的基础关联趋势,为后续深入分析奠定基础;Logistic回归模型则用于探究各疾病指标对目标疾病(糖尿病)的影响效应,通过将糖尿病设为二分类因变量、其余三种疾病设为自变量,构建回归方程,分析各自变量异常时对糖尿病患病概率的影响方向与程度,该模型不仅适用于二分类因变量的分析场景,其结果也更易结合临床实践进行解读,为防控策略的制定提供可操作的依据。
鉴于此,本研究聚焦高血压、血脂异常、肥胖与糖尿病四种疾病的关联性,结合上述两种模型从线性关联强度和疾病影响效应两方面展开系统分析,旨在明确四病之间的关联强度与影响规律,进而为临床实践中制定更具针对性、系统性的慢性病综合防控方案提供科学依据。
2. 数据收集与处理
本研究采用回顾性截断面研究设计,分别收集来自A地区、B地区共600例数据,说明肥胖(以下简称BMI)、糖尿病(以下简称DM)、高血压(以下简称SBP)与血脂异常(以下简称HLP)患病情况。疾病诊断均参照临床指南[11]-[13],例如确诊为高血压即收缩压140 mmHg或舒张压90 mmHg。
2.1. 统计性分析
对本次研究所有数据进行异常值、缺失值排查,采取同组平均值填补,将连续指标转为0-1二分类变量(1为患病,0为不患病)。使用GraphPad Prism对A地区、B地区四种慢性病进行研究。
基于A、B两地区各慢性病患病人数与对应地区的总样本量,计算各疾病在不同地区的患病率,同时输出患病率的95%置信区间,以反映该患病率的统计波动范围,为疾病分布特征的描述提供量化依据。
2.2. 卡方检验分析
为明确BMI、SBP、DM、HLP四种慢性病的患病分布是否存在显著差异,本研究采用卡方检验分析“疾病类型”与“患病状态”之间的关联,即比较四种慢性病在同一地区中的患病频数分布是否存在统计学差异。为保证分析过程的清晰性与可重复性,以下详细说明适配本研究的卡方检验流程[14] [15]:
(1) 假设构建
原假设(H0):四种慢性病的患病频数分布服从均匀分布,即四种慢性病的患病率无显著差异。
备择假设(H1):四种慢性病的患病频数分布不服从均匀分布,即至少有两种慢性病的患病率存在显著差异。
(2) 数据准备和列联表构建
分别整理A、B地区所有研究对象的四种慢性病患者数据,构建4 × 2列联表,明确每种慢性病“患病”与“未患病”观察频数。
(3) 计算期望频数
假设原假设成立(即四种慢性病患病率无差异),采用以下公式计算列联表中每个单元格的期望频数,反映“各慢性病患病率均匀”假设下的理论频数分布:
,
其中,
为第
行第
列单元格的期望频数,
为对应行的总频数(患病或未患病总人数),
为对应列的总频数(某一慢性病的总研究人数),
为该地区总样本量。
(4) 计算卡方统计量
通过对比每个单元格的观察频数(
)与期望频数(
),采用以下公式计算卡方统计量,量化实际分布与理论分布的偏差程度:
其中,
,表示患病/未患病;
,为慢性病种类;
为观察频数,
为期望频数。若频数
的单元格数超过总格数的20%,则采用 Fisher 确切概率法或合并相邻列,以避免偏倚。
(5) 确定P值并做出决策
通过Prism软件获取P值,本研究检验水准设定为α = 0.05,P ≤ 0.01则拒绝原假设,接受备择假设,表明其之间存在显著性差异。
2.3. 结果与解释
通过以上分析,所得结果如下表1所示。
Table 1. Prevalence and P-values of the four chronic diseases by region
表1. 不同地区四病患病率与P值
|
A地区 |
B地区 |
是否具有显著性 |
患病率 |
P值 |
患病率 |
P值 |
BMI |
9.42% |
<0.01 |
3.00% |
<0.01 |
Yes |
DM |
8.67% |
<0.01 |
1.67% |
<0.01 |
Yes |
SBP |
20.08% |
<0.01 |
5.08% |
<0.01 |
Yes |
HLP |
34.75% |
<0.01 |
3.25% |
<0.01 |
Yes |
从地区差异来看,四种慢性病在A、B两地的患病率均呈现极显著差异(P均<0.01):A地区各疾病患病率均显著高于B地区。这一差异并非偶然结果,而是通过双地区样本的对比,避免了单一地区研究的“地域偏倚”,使得慢性病的患病特征分析更具普适性。
从疾病间分布差异来看,四种慢性病的整体患病分布存在显著差异(
,
,
):A地区以高血脂(34.75%)、高血压(20.08%)的患病率较为突出,而B地区各疾病患病率均处于较低水平。这一结果揭示了该研究人群中慢性病的“非均匀分布”特征,说明不同慢性病的流行强度存在本质差异,也提示后续分析可针对高患病率疾病(如高血脂)重点关注。
综上,进行统计分析与卡方检验所验证的“疾病间双重显著差异”,既验证了研究双地区样本设计的合理性,也明确了后续研究的核心方向:一方面可通过相关性分析挖掘四种慢性病在不同地区的共病关联规律;另一方面可通过Logistic回归模型进一步量化地区、疾病类型等因素对患病风险的影响权重,为慢性病的精准防控提供更深入的证据支持[16]。
3. 异常指标的关联分析与Logistic模型构建
3.1. 关联性分析
在前文已经完成对数据的基本探索,本部分通过量化分析明确BMI、DM、SBP、HLP四种慢性患病状态的关联强度,揭示慢性病的共病关联特征,为后续构建Logistic模型提供关联依据,同时为临床“多病共防”策略制定提供统计意义。
3.1.1. Pearson相关系数
为探究这两两之间的线性相关性,相关系数的计算公式如下:
其中
表示第
种病和第
种病之间的相关系数,
表示第
个人在第
种病上的取值,
表示第
个人在第
种病上的取值,
表示第
种病的总体患病率,
表示第
种病的总体患病率,
为该地区总样本量。
当
时,绝对值越接近1,相关性越强;当
时,表示正相关;反之,当
时,表示负相关。其中
表示样本均值。
3.1.2. 结果分析
图1展示了BMI、DM、SBP、HLP四种慢性病两两之间的相关热力图。由图1不难看出,BMI、DM、SBP及HLP四种慢性病之间的相关系数介于0.105~0.258,呈弱相关,无负相关关系。SBP与BMI、DM以及HLP之间的相关系数分别为0.201、0.238和0.258,表明SBP与这三种疾病存在轻微线性关联,其中BMI对SBP的潜在影响相对更明显(系数稍高)。从统计角度看,样本量达1200例,表明这些弱关联均具有统计学显著性;从实际意义看,关联强度弱说明四个代谢异常存在轻度共病趋势,但并非强绑定(比如肥胖者未必一定患糖尿病),提示患病是受多因素影响,临床干预需针对多指标综合。
Figure 1. Heatmap of pairwise correlations among the four chronic diseases
图1. 四种慢性病两两相关热力图
3.2. Logistic模型的建立
为系统解析BMI、DM、SBP、HLP四种慢性病的共病关联机制,本文进一步以每种慢性病为因变量、其余三种慢性病为自变量,分别构建Logistic回归模型,量化不同慢性病间的风险关联强度与预测效能。
3.2.1. 模型建立过程
Logistic回归是分析二分类因变量与多自变量关联的经典方法,其核心是通过对数几率(Logit)变换将0-1映射到实数域,模型形式为:
其中
为第
个模型的因变量(依次是BMI、DM、SBP、HLP),
表示个体患有该慢性病的概率,
为模型截距项,
为自变量
的回归系数。
3.2.2. 模型的参数估计与风险关联分析
分别以四种慢性病为因变量的Logistic回归参数向量、拟合精度以及关键关联指标(OR值)如表2所示。
Table 2. Key statistics for each dependent variable
表2. 不同因变量下关键性数据
因变量 |
系数向量 |
准确度(%) |
比值比(OR)及95%置信区间 |
P值 |
BMI |
[−2.56 0.38 1.01 0.47] |
87.58 |
SBP:OR = 2.74 (CI: [1.87 4.0]) |
<0.01 |
DM |
[−3.01 0.41 1.28 0.64] |
89.67 |
SBP:OR = 3.60 (CI: [2.41 5.4]) |
<0.01 |
SBP |
[−1.88 1.00 1.28 1.04] |
76.58 |
DM:OR = 3.58 (CI: [2.4 5.37]) |
<0.01 |
HLP |
[−0.89 0.47 0.63 1.04] |
66.33 |
SBP:OR = 2.84 (CI: [2.15 3.77]) |
<0.01 |
从表2可见,各模型中核心自变量的OR值与置信区间均未包含1,表明这些慢性病间的关联具有统计学意义。当DM为因变量时,SBP的OR值达3.6,是所有关联中强度最高的,提示SBP是DM的强风险因素。以DM为因变量的模型准确度最高(89.67%),说明糖尿病的患病状态可通过其他3种慢性病更精准地预测;而以HLP为因变量的模型准确度最低(66.33%),可能与高血脂的发病机制更复杂有关,这与文献[17] [18]中的结论几乎一致。
3.2.3. 模型区分能力验证
Figure 2. 95% confidence intervals and AUC curves for the four chronic disease models
图2. 四种慢性病模型的95%置信区间与AUC曲线
模型的“区分能力”是指其对“患病个体”与“未患病个体”的识别效能,通常采用受试者工作特征曲线下面积(Area Under the Curve, AUC)进行量化[19],其中AUC = 0.5表示模型无区分能力(与随机猜测等价),AUC越接近1.0表示模型的区分能力越强;一般认为
为“中等区分能力”,
为“中等偏优区分能力”,
为“优秀区分能力”。本研究通过AUC评估各模型的区分能力,结果如图2所示。
结果显示,所有模型的AUC值均高于0.63,且置信区间均未包含0.5,表明模型具备统计学可靠的中等及以上区分能力,以DM为因变量的模型AUC (0.7152)最优,达到“中等偏优”等级,与该模型的高拟合准确度一致,进一步验证了糖尿病与其他慢性病的关联更稳定,这与文献[20]中的结论一致;以HLP为因变量的模型AUC (0.6435)相对较低,但仍高于0.6的临界值,说明其对高血脂患病状态的区分能力仍具有实际参考价值。
4. 总结与推广
本文以BMI、DM、SBP、HLP为核心变量,构建了一个多因素逻辑回归模型,系统解析了这四种慢性病之间的共病关联。结果揭示了四种慢性病的双向关联规律:
首先,卡方检验与相关性分析显示,BMI、DM、SBP、HLP之间存在弱至中等程度的正相关(相关系数0.105~0.258),其中SBP与HLP的关联强度相对最高。
其次,Logistic回归分析进一步量化了这种关联的风险效应:以DM为因变量时,SBP对应的比值比达3.6 (95%置信区间[2.41 5.4]),提示高血压是糖尿病的强风险因素;而以DM为因变量的模型表现最优,拟合准确度达89.67%,特征曲线下面积(AUC)为0.7152,表明糖尿病在四种慢性病的共病网络中具有“中心节点”作用。首先,卡方检验与相关性分析显示,BMI、DM、SBP、HLP之间存在弱至中等程度的正相关(相关系数0.105~0.258),其中SBP与HLP的关联强度较其他因素相对较高。这一“弱相关”特征与部分现有研究中代谢相关指标间的关联强度分布趋势一致,例如杨玉婷等人在[20]报道血压与血脂指标的相关性普遍高于体重指数与单一代谢疾病的关联强度,但本研究中整体相关系数处于较低区间,可能与样本特征异质性、标准化程度差异等因素有关。
其次,Logistic回归分析进一步量化了这种关联的风险效应:以DM为因变量时,SBP对应的比值比达3.6 (95%置信区间[2.41 5.4]),提示高血压对糖尿病的存在强风险效应;而以DM为因变量的模型表现最优,拟合准确度达89.67%,特征曲线下面积(AUC)为0.7152,表明糖尿病在四种慢性病的共病网络中可能具有“中心节点”作用。
这些发现明确了四种慢性病的共病聚集性,也凸显了不同变量在代谢相关慢性病发病过程中的差异化影响。
本模型整合了四种慢性病的相互关联特征,为相关慢性病的共病风险评估提供了实用工具。通过该模型识别共病高危个体,可推动早期医疗干预的实施,进而有望延缓慢性病的进展,降低冠心病、心血管疾病等并发症的发生风险。在慢性病防控与临床管理中还具有直接的应用价值,例如在社区卫生服务场景中,可基于模型揭示的关联规律优化筛查,针对高血脂患者强化高血压的同步检测,针对糖尿病患者重点监测BMI、血压等指标。
需要特别说明的是,本研究采用横断面研究设计,仅能反映各变量在特定时间点的关联特征,无法确定因果关系;且未纳入性别、年龄、吸烟状况等潜在混杂因素,可能对结果解读产生影响相关结论需结合更多研究进一步验证。
基金项目
湖南省教育厅教学改革研究项目(202502001451),湖南人文科技学院科学计算与数据分析创新创业教育中心。
NOTES
*通讯作者。