摘要: 目的:构建基于Balthazar评分、C反应蛋白(C-reactive protein, CRP)和年龄的急性胰腺炎(acute pancreatitis, AP)入院早期预测复合重症结局风险的列线图模型,并评估其在早期风险分层中的临床应用价值。资料与方法:回顾性纳入2024年1月1日至12月31日安徽医科大学附属六安医院住院并确诊为AP的患者。所有患者入院72小时内完成腹部CT扫描,24小时内完成相关实验室检查。研究主要终点为复合重症结局,包括重症监护病房(ICU)收治、多器官功能衰竭及院内死亡。基于Balthazar评分、年龄和CRP构建仅含Balthazar评分的模型M0、加入年龄的模型M1及三指标联合的模型M2,采用受试者工作特征曲线下面积(area under the curve, AUC)、Bootstrap校准曲线及决策曲线分析评价模型性能,并基于最佳模型构建列线图。结果:共纳入193例AP患者,其中非重症组175例、重症组18例。重症组的Balthazar评分和CRP水平明显高于非重症组(P < 0.001)。多变量Logistic回归分析显示,Balthazar评分(OR = 3.108, P < 0.001)和CRP (OR = 5.841, P = 0.009)与复合重症结局发生相关,而年龄未达统计学显著。M2的AUC为0.888 (95% CI: 0.814~0.962),优于M0 (ΔAUC = 0.107, P = 0.002)和M1 (ΔAUC = 0.080, P = 0.017),且通过Bootstrap校准曲线验证了列线图预测模型的预测值与实际观察值吻合较好。决策曲线分析显示,M2模型在阈值概率为0.10~0.30时具有较高的净获益。结论:基于Balthazar评分、年龄及CRP构成的联合模型能够在入院早期较为有效地预测AP复合重症结局,简便易用,适用于临床推广,有望为监护等级安排及治疗决策提供参考。
Abstract: Objective: To develop a nomogram model for early prediction of composite severe outcomes in acute pancreatitis (AP) patients based on Balthazar score, C-reactive protein (CRP), and age, and to evaluate its clinical application value in early risk stratification. Methods: This retrospective study included patients diagnosed with AP who were admitted to Lu’an Hospital of Anhui Medical University between January 1 and December 31, 2024. All patients underwent abdominal CT scanning within 72 hours of admission and relevant laboratory tests within 24 hours. The primary endpoint was the composite severe outcome, including admission to the intensive care unit (ICU), multiple organ failure, and in-hospital mortality. A Logistic regression model was constructed based on Balthazar score, age, and CRP, including M0 (Balthazar score only), M1 (Balthazar score and age), and M2 (Balthazar score, age, and CRP). The model performance was evaluated using the area under the receiver operating characteristic curve (AUC), Bootstrap calibration curve, and decision curve analysis (DCA), and a nomogram was constructed based on the best model. Results: A total of 193 AP patients were included, with 175 in the non-severe group and 18 in the severe group. The Balthazar score and CRP levels were significantly higher in the severe group compared to the non-severe group (P < 0.001). Multivariable Logistic regression analysis showed that Balthazar score (OR = 3.108, P < 0.001) and CRP (OR = 5.841, P = 0.009) were associated with the occurrence of composite severe outcomes, while age did not reach statistical significance. The AUC of M2 was 0.888 (95% CI: 0.814~0.962), which was superior to M0 (ΔAUC = 0.107, P = 0.002) and M1 (ΔAUC = 0.080, P = 0.017), and the Bootstrap calibration curve validated a good agreement between the predicted values of the nomogram model and the actual observed values. Decision curve analysis showed that the M2 model provided higher net benefit within the threshold probability range of 0.10~0.30. Conclusion: The combined model based on Balthazar score, age, and CRP can effectively predict the composite severe outcomes in AP patients early in the admission process. It is simple, easy to use, and suitable for clinical application, providing a reference for monitoring intensity and treatment decision-making.
1. 引言
急性胰腺炎(acute pancreatitis, AP)是常见的急腹症,约20%的患者在早期即进展为中重度,并伴器官功能障碍,ICU收治率和病死风险明显升高[1]。临床实践亟需在入院最初24~48 h内完成快速、准确的风险分层[2],以指导监护强度和资源配置。现有Ranson评分和APACHE Ⅱ指标繁多,部分参数需发病48 h后才能获得,不利于早期评估[3];BISAP虽较简便,但含意识状态等主观因素,稳定性有限。影像学的改良CT严重程度指数(modified CT severity index, MCTSI)可量化胰腺及胰周炎症负荷和局部并发症[4],然而发病早期坏死征象往往不典型,敏感性下降。总体来看,仅依赖单一临床或影像学指标难以全面反映AP的全身炎症状态和疾病负荷,目前尚缺乏一种在早期即可获得、变量精炼且便于床旁应用的综合预测工具[5]。基于上述背景,本研究整合Balthazar评分、C反应蛋白(C-reactive protein, CRP)和年龄,构建入院早期预测AP复合重症结局风险的列线图模型,并通过受试者工作特征曲线下面积(area under the curve, AUC)、自助法(Bootstrap)校准曲线及决策曲线分析(decision curve analysis, DCA)系统评价模型的判别力、校准度及临床净获益,旨在为AP患者的个体化风险分层和治疗决策提供一种简便且易于推广的工具。
2. 资料与方法
2.1. 研究设计与对象
回顾性收集了2024年1月1日至12月31日期间在安徽医科大学附属六安医院住院并确诊为AP的患者资料。本研究的纳入标准为:1) 年龄 > 18岁;2) 入院72小时内完成腹部CT扫描;3) 入院24小时内完成其他相关实验室检查。排除标准为:1) 从腹痛发作到就诊时间超过72小时;2) 存在胰腺肿瘤或既往有胰腺手术史;3) 入院24小时内生化检查不完整或CT图像质量不佳;4) 妊娠患者;5) 其他活动性恶性肿瘤患者。本研究经六安市人民医院医学伦理审查委员会批准(批件号2025LLKS-KY-073),豁免知情同意。
2.2. 检查方法与临床数据收集
腹部CT检查时,所有患者均取仰卧位,双上肢举过头顶。采用联影CT扫描仪进行,成像参数设置如下:管电压120 kV,自动管电流调制(ATCM),螺距0.992,探测器宽度80 mm,层厚5 mm,层间距5 mm,视野500 mm × 500 mm,矩阵大小512 × 512。所有CT图像均从影像归档和通信系统(PACS)中回顾性获取。由两名具有6年与10年工作经验的放射科医师在不知主要终点的前提下独立阅片,分歧通过讨论一致后确定最终分值。
临床资料包括年龄、CRP (mg/L)等均从患者入院后24 h内的病历和检验系统中提取。为保证数据准确性和完整性,由两名医师独立收集并相互核对后录入数据库。
2.3. 评价标准
1) AP的诊断符合修订版Atlanta分级及《中国急性胰腺炎诊治指南(2021)》[6] [7]:典型腹痛、血清淀粉酶/脂肪酶 ≥ 正常上限3倍、影像学提示AP三项中满足≥2项。2) 多器官功能衰竭的定义依据修订版Marshall评分[8]。3) Balthazar评分依据1985年Balthazar等提出的CT分级标准[9]按A~E执行,并转换为0~4分用于统计分析(A = 0, B = 1, C = 2, D = 3, E = 4)。评分基于CT平扫可见的胰腺及胰周炎性改变与积液表现,不评估胰腺坏死。
2.4. 变量与模型设定
本研究的主要终点为复合重症结局,观察时间为本次因AP住院期间。复合重症结局的组成事件包括:1) 入住重症监护病房(ICU),指因AP相关病情需要强化生命支持或严密监护而收治ICU;2) 多器官功能衰竭;3) 院内死亡。住院期间出现上述任一事件者定义为重症组(Severe组),其余患者归为非重症组(Non-severe组)。
结合既往研究及临床经验,预先选定Balthazar评分、年龄和CRP为候选预测因子:Balthazar评分反映局部炎症负荷及并发症程度,年龄代表机体基础状况与器官储备,CRP反映全身炎症反应强度。考虑到复合重症事件相对少见,为降低过拟合风险并兼顾模型简洁性,预测因子数量控制在3个以内。基于上述自变量预先设定3个嵌套Logistic回归模型:仅含Balthazar评分的模型M0,在M0基础上加入年龄的模型M1,以及同时纳入Balthazar评分、年龄和CRP的联合模型M2,用于评估逐步纳入变量对模型性能的影响。
2.5. 统计学分析
采用SPSS (27.0.1版本)和R软件(4.5.1版本)进行统计分析。计量资料首先进行正态性检验;近似正态分布的变量以
表示,组间比较采用独立样本t检验;偏态分布的计量资料以M (Q1, Q3)表示,组间比较采用Mann-Whitney U秩和检验。计数资料以n (%)表示,组间比较采用χ2检验或Fisher确切概率法。所有检验均为双侧检验,P < 0.05为差异有统计学意义。
为降低偏态对回归分析的影响,对CRP进行自然对数转换log1p(CRP),并将Balthazar评分、年龄及log1p(CRP)按各自均值和标准差进行Z值标准化处理,多变量Logistic回归中比值比(odds ratio, OR)均表示相应变量每增加1个标准差时复合重症风险的变化倍数。以复合重症结局为因变量,分别建立M0、M1和M2模型,计算各模型的回归系数、OR及95%置信区间。模型区分度采用AUC评价,并用DeLong检验比较模型间AUC差异;采用Bootstrap重抽样(B = 1000)绘制校准曲线评估模型校准度,并利用DCA比较M0、M1和M2在不同阈值概率下的临床净获益。基于表现最佳的模型构建列线图,用于个体化预测复合重症风险。
3. 结果
3.1. 研究总体与基线特征
Table 1. Group analysis of clinical, biochemical, and imaging characteristics in acute pancreatitis patients
表1. 急性胰腺炎患者的临床、生化与影像学特征分组分析
特征 |
|
总人数 (n = 193) |
非重症组 (n = 175) |
重症组(n = 18) |
P值 |
年龄(岁) |
平均年龄 |
52.5 ± 16.1 |
52.0 ± 15.6 |
57.6 ± 20.7 |
0.285 |
年龄范围 |
19~90 |
19~89 |
25~90 |
|
性别(例) |
男 |
128 (66.3%) |
116 (66.3%) |
12 (66.7%) |
0.974 |
女 |
65 (33.7%) |
59 (33.7%) |
6 (33.3%) |
合并胆石症(例) |
有 |
70 (36.3%) |
65 (37.1%) |
5 (27.8%) |
0.431 |
无 |
123 (63.7%) |
110 (62.9%) |
13 (72.2%) |
饮酒史(例) |
有 |
22 (11.4%) |
20 (11.4%) |
2 (11.1%) |
1.000 |
无 |
171 (88.6%) |
155 (88.6%) |
16 (88.9%) |
合并糖尿病(例) |
有 |
7 (3.6%) |
5 (2.9%) |
2 (11.1%) |
0.130 |
无 |
186 (96.4%) |
170 (97.1%) |
16 (88.9%) |
合并高脂血症(例) |
有 |
22 (11.4%) |
19 (10.9%) |
3 (16.7%) |
0.438 |
无 |
171 (88.6%) |
156 (89.1%) |
15 (83.3%) |
Balthazar评分 |
|
1.0 (1.0, 1.0) |
1.0 (1.0, 1.0) |
2.0 (1.0, 2.0) |
<0.001 |
CRP (mg/L) |
|
107.1 (33.5, 183.6) |
99.8 (29.3, 171.7) |
204.1 (144.0, 269.0) |
<0.001 |
注:重症组为发生复合重症结局的患者。年龄以
表示,Balthazar评分及CRP以M (Q1, Q3)表示,计数资料以n (%)表示;组间比较分别采用t检验、Mann-Whitney U检验及χ2检验或Fisher精确检验。
本研究共纳入AP患者193例,其中非重症组175例、重症组18例。两组年龄与性别分布差异均无统计学意义(P > 0.05),合并胆石症、饮酒史、糖尿病及高脂血症等危险因素在两组间差异亦无统计学意义(P > 0.05)。与非重症组相比,重症组Balthazar评分更高,中位数为2.0 (范围1.0~2.0)分,而对照组中位数为1.0 (范围1.0~1.0)分,P < 0.001,CRP水平亦更高,中位数为204.1 (范围144.0~269.0) mg/L,对照组中位数99.8 (范围29.3~171.7) mg/L,P < 0.001 (表1)。
复合重症结局发生率为18/193 (9.3%);组成事件为ICU收治11/193 (5.7%)、多器官功能衰竭13/193 (6.7%)及院内死亡2/193 (1.0%)。在重症组(n = 18)中,上述事件分别为11/18 (61.1%)、13/18 (72.2%)和2/18 (11.1%)。上述组成事件在同一患者中可同时发生。
3.2. AP复合重症预测模型的建立与评价
3.2.1. 多变量回归结果
多变量Logistic回归结果见表2。Balthazar评分(OR = 3.108, 95% CI: 1.820~5.307, P < 0.001)和CRP(log1p) (OR = 5.841, 95% CI: 1.558~21.894, P = 0.009)与复合重症结局发生相关;年龄未达统计学显著(OR = 1.487, 95% CI: 0.851~2.599, P = 0.164)。
Table 2. Logistic regression results of model M2 for predicting composite severe outcomes in acute pancreatitis
表2. 模型M2预测急性胰腺炎复合重症结局的Logistic回归结果
变量(模型M2) |
OR |
95% CI下限 |
95% CI上限 |
P值 |
Balthazar评分 |
3.108 |
1.820 |
5.307 |
<0.001 |
年龄 |
1.487 |
0.851 |
2.599 |
0.164 |
CRP (log1p) |
5.841 |
1.558 |
21.894 |
0.009 |
注:OR为变量按1 SD标准化后的比值比,表示每增加1个标准差的风险变化。
3.2.2. 模型效能与病因影响分析
主模型M2的AUC为0.888 (95% CI: 0.814~0.962)。基于Youden指数确定的预测概率阈值约为0.078,对应敏感度0.83、特异度0.79。与M0相比,M2的AUC增加0.107 (P = 0.002);与M1相比增加0.080 (P = 0.017);M1与M0的AUC差异无统计学意义(P = 0.395) (见图1、表3)。Bootstrap重抽样1000次校正后的校准曲线显示,列线图预测模型的预测值与实际观察值吻合较好。见图2。
表4展示了不同病因急性胰腺炎患者的复合重症结局发生率与模型预测效能的对比。在本研究队列中,仅胆源性急性胰腺炎患者68例(35.2%),仅脂源性急性胰腺炎患者37例(19.2%),胆脂源性急性胰腺炎患者2例(1.0%),非胆脂源性急性胰腺炎患者86例(44.6%)。四类病因急性胰腺炎患者复合重症结局发生率分别为5.9% (4/68)、8.1% (3/37)、50.0% (1/2)与11.6% (10/86),组间差异无统计学意义(P = 0.140)。鉴于胆脂合并组样本量有限(n = 2),其发生率可能存在较大不确定性,结果仅供参考。在Balthazar评分和CRP水平方面,各组差异也无统计学意义(P = 0.813和P = 0.689)。所有病因组的Balthazar评分中位数均为1.0。
Table 3. Discriminatory performance and gain analysis of different predictive models based on Balthazar score, age, and CRP
表3. 基于Balthazar评分、年龄及CRP的不同预测模型判别性能及增益分析
模型 |
AUC (95% CI) |
ΔAUC |
P值 |
模型比较 |
M0 |
0.780 (0.669~0.892) |
- |
- |
|
M1 |
0.808 (0.695~0.920) |
+0.027 |
0.395 |
M1 vs M0 |
M2 |
0.888 (0.814~0.962) |
+0.080 |
0.017 |
M2 vs M1 |
|
|
+0.107 |
0.002 |
M2 vs M0 |
注:P值为DeLong检验。
Figure 1. ROC curves of three models for predicting composite severe outcomes of acute pancreatitis (AP)
图1. 三种模型预测AP复合重症结局的ROC曲线
Figure 2. Apparent calibration curve and Bootstrap calibration curve of model M2
图2. 模型M2的表观校准曲线与Bootstrap校正校准曲线
Table 4. Comparison of composite severe outcome incidence and model predictive performance in acute pancreatitis patients with different etiologies
表4. 不同病因急性胰腺炎患者复合重症结局发生率与模型预测效能的对比
类别 |
仅胆源性(n = 68) |
仅脂源性(n = 37) |
胆脂合并(n = 2) |
非胆脂源性(n = 86) |
P值 |
发生率(例) |
4 (5.9%) |
3 (8.1%) |
1 (50.0%) |
10 (11.6%) |
0.140 |
Balthazar评分 |
1.0 (1.0, 1.0) |
1.0 (1.0, 1.0) |
1.0 |
1.0 (1.0, 2.0) |
0.813 |
CRP (mg/L) |
99.6 (29.3, 171.7) |
119.1 (20.4, 187.4) |
184.1 |
110.8 (34.4, 189.4) |
0.689 |
模型AUC |
0.867 |
- |
- |
0.868 |
- |
注:%为组内发生率。Balthazar评分及CRP以M (Q1, Q3)表示,计数资料以n (%)表示;组间比较采用卡方检验或单因素方差分析(ANOVA)。表中“-”表示部分类别数据量过少,无法分析。
3.2.3. 决策曲线分析(DCA)与列线图
决策曲线见图3。在阈值概率约0.10~0.30范围内,M2曲线整体高于treat-all (全干预)与treat-none (不干预)策略,且高于M0与M1。基于M2回归系数构建列线图(图4),包含Balthazar评分、年龄及CRP。图5与图6为列线图预测的应用示例(仅用于展示列线图的计算与使用方法,不用于模型性能评估或校准解释)。
Figure 3. Decision curve analysis of three predictive models
图3. 三个预测模型的决策曲线分析
Figure 4. Nomogram of M2 prediction model based on Balthazar score, age, and CRP
图4. 基于Balthazar评分、年龄及CRP的M2预测模型列线图
Figure 5. A 29-year-old male with a Balthazar score of 2 and CRP of 9.96 mg/L upon admission. Abdominal CT axial scan shows slight enlargement of the pancreas, increased fat density around the pancreas with striped and reticular patterns, and no obvious fluid accumulation. The nomogram predicts a 4% risk of composite severe outcomes. The patient did not develop composite severe outcomes during hospitalization and was discharged after symptomatic treatment
图5. 男,29岁,入院时Balthazar评分2分,CRP 9.96 mg/L;上腹部CT轴位平扫示:胰腺体积稍增大,胰周脂肪密度增高并见条纹状、网状影,无明显积液。列线图预测复合重症风险约4%,住院期间未发生复合重症结局,患者对症治疗后出院
Figure 6. An 85-year-old female with a Balthazar score of 4 and CRP of 70.54 mg/L upon admission. Abdominal CT axial scan shows unclear morphology and blurred boundaries of the pancreas, with multiple fluid collections in the peripancreatic and retroperitoneal spaces. The nomogram predicts a 97% risk of composite severe outcomes. The patient developed composite severe outcomes during hospitalization and was subsequently admitted to the ICU for treatment
图6. 女,85岁,入院时Balthazar评分4分,CRP 70.54 mg/L;上腹部CT轴位平扫示:胰腺形态欠清、边界模糊,胰周及腹膜后间隙多发积液表现。列线图预测复合重症风险约97%,住院期间发生复合重症结局,患者随后收治ICU并接受相应治疗
4. 讨论
本研究基于入院早期可获得的Balthazar评分、CRP与年龄建立急性胰腺炎复合重症结局预测模型,并完成内部验证。队列中复合重症发生率为9.3%。基线比较显示,重症组Balthazar评分及CRP水平均高于非重症组,提示局部炎症负荷与全身炎症反应强度与复合重症结局发生相关。Mikó等[10]的荟萃分析提示,CT严重度相关指标在预测重症与死亡方面具有一定准确性;同时,Wu等[11]对CRP的系统评价亦支持其对严重程度的预测价值。本研究观察到的关联方向与上述证据一致。
既往研究多从影像学严重度或炎症标志物单一维度进行风险评估,但临床实践中二者并不等同。Balthazar评分主要反映胰腺及胰周炎症范围与液体积聚等改变,分值升高通常对应局部炎症程度增加[9];既往研究提示影像学严重度指数与临床结局相关性较好,可用于反映疾病负荷与预后风险[12]。CRP作为急性期反应蛋白,可反映系统性炎症反应强度,但其单独使用时易受采血时点与个体差异影响[11]。年龄在一定程度上反映机体基础状况和器官储备能力,老年患者总体结局更差的现象在临床研究中较为一致[13]。因此,本研究将影像负荷、炎症活性与宿主条件三个维度纳入同一框架,旨在使变量精炼的前提下提高早期分层的可用性。
多变量分析显示,Balthazar评分与CRP(log1p)与复合重症结局发生具有显著相关性,而年龄未达统计学显著。该结果可能与重症事件数较少导致统计效能不足有关;同时,年龄的影响可能在影像负荷与炎症强度进入模型后被部分解释,从而降低了其独立效应的检出能力[13]。鉴于年龄在既往风险分层工具中应用广泛,且具有明确的临床解释意义,本研究仍将其保留为结构变量,以利于后续外部验证及与既有工具的同框比较[14]。
本研究更关注入院早期的可用信息组合。在平扫CT主导的流程下,模型将局部影像负荷与炎症指标合并,能够在信息尚不完整时形成初步分层。相较传统需要更多变量或更晚时间点信息的评分体系,本模型的输入更少、计算更直接,适合作为入院早期的初筛与风险警戒工具,用于提示可能需要更密切监护或更频繁复评的人群[15]。在不同病因亚组中,Balthazar评分与CRP水平均与复合重症结局呈相同方向的关联。联合模型在胆源性与非胆脂源性亚组中的预测效能保持稳定,提示模型在不同病因背景下具有一定的适用性。其在不同病因构成、不同医疗资源条件下的最优使用场景,仍需在外部队列中以统一终点和一致比较框架进一步验证[16]。
从临床应用角度看,决策曲线分析显示,在阈值概率约0.10~0.30范围内,联合模型具有更高的净获益。提示其可用于入院早期的风险分层场景,如监护强度与复查频率的初步安排,以及对潜在高危患者的早期警戒[16]。此外,列线图对回归模型进行了可视化呈现,便于床旁快速估算个体风险。若进一步开发为电子计算器并嵌入信息系统,可减少人工计算误差并提高执行一致性,同时也有利于后续在实际应用中持续积累数据与再校准[17]。近年来,亦有研究尝试使用机器学习或更复杂的算法来预测重症或死亡[18],但其在不同中心的推广往往受变量选择、缺失数据与系统部署成本影响。相比之下,本研究采用少量常规变量,解释路径相对清晰,可作为临床流程中可落地的早期分层方案,也便于与更复杂模型进行对照验证与迭代更新。
本研究仍存在一定局限。首先,本研究为单中心回顾性研究,样本量有限,且复合重症事件例数较少,可能影响模型系数估计的精确性和稳定性。其次,未进行外部验证,模型在其他地区、不同级别医院及不同病因构成人群中的适用性仍有待进一步检验。此外,本研究仅纳入三项指标,未将早期器官功能评分[19]、电解质紊乱等可能相关因素纳入模型[20],可能存在部分信息遗漏。未来可在多中心、大样本前瞻性队列及不同时间窗内开展外部验证,在保持模型简洁性的前提下尝试引入其他关键变量,并与传统评分工具进行系统比较,对模型进行更新和优化。
总体来看,基于Balthazar评分、CRP与年龄建立的联合模型能够在入院早期对AP复合重症结局进行较为有效的风险识别,变量获取方便、模型结构相对简洁,具有一定的临床推广价值,仍需在更大样本和多中心研究中进一步验证与优化。
基金项目
本研究由2023年度安徽省卫生健康科研项目资助,2023年度安徽省卫生健康科研项目(一般项目,项目编号:AHWJ2023BAb20009)。
NOTES
*通讯作者。