1. 背景
胰胆系统疾病在全球发病率逐年攀升,根据《Lancet Oncol》2024年报告,全球胆道疾病年发病率达58.3/10万,其中中国高达76.5/10万[1]。胰腺导管腺癌(PDAC)作为胰胆系统恶性肿瘤代表,2022年全球新增约49.6万例,中国新增10.4万例,5年存活率仅为11.5% [2]。尤其值得关注的是,胆道阻塞性疾病患者中约15.3%最终确诊为PDAC,而良性胰胆疾病与PDAC的临床表现高度重叠,导致26.7%的患者初诊结果存在误差[3]。
本研究构建的五维预测模型整合了关键生物标志物:CA19-9是一种唾液粘蛋白相关lewis血型抗原,在胰胆系统恶性肿瘤中高表达(敏感度78.2%,特异性82.5%) [4];CEA对肝转移PDAC具有特异性预测价值[5];DBIL是胆红素代谢中间产物,在胰头部肿瘤引起的梗阻性黄疸中升高显著[6];CONUT评分基于血清白蛋白、总淋巴细胞计数和总胆固醇,客观评估PDAC患者的营养状态,研究显示营养不良与PDAC患者预后不良显著相关[7];CYS-C作为肾小球滤过率标志物,在PDAC患者中水平异常提示肾小管功能受损,与生存期显著相关[8]。Meta分析显示,联合标志物比单一指标能将诊断准确率提高23.6% [3]。
目前PDAC的确诊路径依赖“临床症状–血清学检查–影像评估–组织学验证”的多步骤流程。虽然CA19-9是公认的血清学标志物,但其在胆道炎症和肝硬化患者中也会升高,特异性仅为65.7%。影像学方法如增强CT和MRI/MRCP可提供形态学证据,但对<2 cm病灶的检出率有限(68.3%) [9]。最终确诊仍依赖EUS-FNA等侵入性操作,但受取材位置和技术限制,假阴性率达12.8%~18.6%。这种多模态诊断流程不仅增加医疗负担,还可能延误治疗时机[10]。因此,建立简便高效的非侵入性诊断模型已成为临床亟需。
2. 资料与方法
2.1. 研究人群与分组
本研究为回顾性病例对照研究,于2018年6月至2024年3月在青岛大学附属医院开展。共纳入677例胰胆系统疾病患者,其中PDAC组210例,良性壶腹周围疾病组467例。研究数据来源于医院电子病历系统、临床实验室信息系统及放射科PACS系统。纳入标准:(1) 年龄 ≥ 18岁;(2) 首次因胰胆系统疾病就诊;(3) 具备完整的临床资料及实验室检查结果;(4) 最终诊断明确。PDAC诊断基于WHO消化系统肿瘤分类标准(2019版),通过超声内镜引导下细针穿刺活检(EUS-FNA)或手术切除标本的组织病理学证实。良性壶腹周围疾病包括良性中央胆总管狭窄、胆管炎、慢性胰腺炎、胰腺囊肿及胰腺脂肪瘤,均基于组织病理学确诊。排除标准:(1) 既往接受胰腺或胆道手术;(2) 合并先天性胆囊炎、肝炎、肝硬化、神经内分泌肿瘤或硬化性胆囊炎;(3) 恶性肿瘤病史;(4) 免疫功能障碍或长期使用免疫抑制剂;(5) 临床资料不完整或关键数据缺失。为减少选择偏倚,良性疾病对照组来源与PDAC组相同时间段和医疗单位,且初始临床表现和影像学特征相似,均表现为胰胆系统症状。本研究经青岛大学附属医院伦理委员会(批准文号QYFY WZLL 29856)批准。
2.2. 变量的收集
收集的变量均为术前变量,包括:(1) 人口学特征:年龄(连续变量)、性别(男/女)、身高、体重、BMI (体重kg/身高m2);(2) 实验室检查:血细胞计数和分类(WBC、HB、PLT、NE、LYM、MONO)、肝功能(ALT、AST、ALB、GLB、PA、TBIL、DBIL、IBIL、ALP、r-GT)、肾功能(Cr、CYS-C)、纤维蛋白原(FIB)检测结果,肿瘤标志物(糖类抗原19-9 (CA19-9)、癌胚抗原(CEA)、甲胎蛋白(AFP))、血脂(TG、TC、apoA1、apoB、HDL、LDL);(3) 影像学特征:病灶位置(胰头/胰体/胰尾/壶腹);(4) 炎症相关指标:PLT与LYM比值(PLR)、NE与LYM比值(NLR)、FIB与ALB比值(FAR)、FIB与PA比值(FPR)、全身免疫炎症指数(SII;其中SII = PLT × NE/LYM);(5) 营养评估指标:预后营养指数PNI (ALB + 5*LYM)、营养控制状况评分(COUNT,基于血清白蛋白、总淋巴细胞计数、总胆固醇的评分)、尼泊尔评分(NPS,基于血清白蛋白、总胆固醇、NE/LYM、LYM/MONO评分)。选择这些变量基于:年龄和性别为PDAC已知危险因素;肝肾功能指标反映胆道梗阻及全身状况;影像学特征协助鉴别诊断;营养评估指标反映患者整体状态。
2.3. 统计学方法
采用SPSS 22.0、R 4.1.2和Zstats软件进行统计分析。连续变量采用均数 ± 标准差(正态分布)或中位数(四分位数范围)表示,分类变量以频数或百分比表示。组间差异比较采用卡方检验(分类变量)、Student t检验(正态分布连续变量)或Mann-Whitney U检验(偏态分布连续变量)。采用1:1倾向性评分匹配(propensity score matching,PSM)平衡组间基线特征的差异,卡钳值为两组间倾向性评分绝对差值的0.05倍。采用单因素分析 + Lasso回归筛选变量,构建胰腺癌的列线图预测模型。用受试者工作特征(receiver operating characteristic, ROC)曲线的曲线下面积(area under curve, AUC)评价列线图模型预测准确性,用一致性曲线图评估模型的预测概率与实际观测概率之间的拟合度。用决策曲线(DCA)验证模型的临床有效性。以p < 0.05为差异有统计学意义。
3. 结果
3.1. PSM前后基线特征
本研究共纳入677名研究对象(胰腺癌组210名,良性组467名)。匹配前两组在年龄(62.42 ± 14.23岁 vs 61.96 ± 9.12岁,p = 0.609)和体重(65.48 ± 12.03 kg vs 64.41 ± 9.86 kg,p = 0.224)无显著差异,但在身高(165.13 ± 8.48 cm vs 166.67 ± 7.93 cm,p = 0.027)和性别分布(男性比例:53.75% vs 64.76%,p = 0.007)存在统计学差异。
为减少基线差异带来的偏倚,我们采用1:1倾向性评分匹配(PSM)方法,匹配后获得410名研究对象(每组205名)。匹配后两组人口统计学特征达到理想平衡,所有变量的标准化均数差(SMD)均小于0.2,证实匹配效果良好,为后续生物标志物与胰腺癌关联分析提供了可靠基础(见表1)。
Table 1. Baseline characteristics of patients before and after propensity score matching
表1. 倾向性评分匹配前后患者基线特征
变量 |
PSM前 |
PSM后 |
Total
(n = 677) |
0 (n = 467) |
1 (n = 210) |
Statistic |
P |
SMD |
Total
(n = 410) |
0 (n = 205) |
1 (n = 205) |
Statistic |
p |
SMD |
年龄,
[岁Mean ± SD] |
62.28 ± 12.86 |
62.42 ± 14.23 |
61.96 ± 9.12 |
t = 0.512 |
0.609 |
−0.051 |
62.69 ± 11.59 |
63.47 ± 13.62 |
61.92 ± 9.10 |
t = 1.356 |
0.176 |
−0.170 |
身高,
[cm, Mean ± SD] |
165.61 ± 8.33 |
165.13 ± 8.48 |
166.67 ± 7.93 |
t = −2.221 |
0.027 |
0.194 |
166.31 ± 7.77 |
166.09 ± 7.64 |
166.54 ± 7.91 |
t = −0.578 |
0.563 |
0.056 |
体重,
[Kg, Mean ± SD] |
65.15 ± 11.41 |
65.48 ± 12.03 |
64.41 ± 9.86 |
t = 1.217 |
0.224 |
−0.108 |
64.16 ± 10.51 |
63.83 ± 11.12 |
64.48 ± 9.87 |
t = −0.629 |
0.529 |
0.066 |
性别,
[例(%)] |
|
|
|
χ2 = 7.177 |
0.007 |
|
|
|
|
χ2 = 0.000 |
1.000 |
|
1 |
387 (57.16) |
251 (53.75) |
136 (64.76) |
|
|
0.231 |
262 (63.9) |
131 (63.90) |
131 (63.90) |
|
|
0.000 |
2 |
290 (42.84) |
216 (46.25) |
74 (35.24) |
|
|
−0.231 |
148 (36.1) |
74 (36.10) |
74 (36.10) |
|
|
0.000 |
3.2. 训练集和验证集的均衡性检验
本研究采用分层抽样法将410例患者随机划分为训练集(n = 287, 70%)和测试集(n = 123, 30%)。基线特征分析显示两组在所有关键变量上均达到统计学均衡。所有42项指标的组间比较p值均>0.05 (t检验用于正态分布变量,Mann-Whitney U检验用于偏态变量,χ2/Fisher检验用于分类变量),证实数据分层的合理性。
3.3. 训练集的基本特征与差异性分析
训练集中287名研究对象被分为对照组(n = 142)和胰腺癌组(n = 145)。两组人口统计学特征比较显示,年龄(62.94 ± 13.55岁 vs 61.74 ± 9.70岁,t = 0.86,p = 0.390)、BMI (23.11 ± 3.20 vs 23.26 ± 2.72, t = −0.42, p = 0.674)、身高(165.70 ± 6.88 cm vs 166.79 ± 8.09 cm, t = −1.22, p = 0.223)和体重(63.61 ± 10.55 kg vs 64.83 ± 9.52 kg, t = −1.03, p = 0.304)均无统计学差异。性别分布两组相似,男性比例分别为67.61%和64.14% (χ2 = 0.38, p = 0.536)。
肿瘤标志物分析显示,胰腺癌组CA199 [167.50 (48.70~384.00) vs 24.22 (10.51~68.37) U/mL, Z = −7.45, p < 0.001]、CEA [3.26 (2.12~5.17) vs 2.09 (1.23~2.96) ng/mL, Z = −5.74, p < 0.001]和AFP [3.18 (2.22~4.15) vs 2.62 (1.95~3.56) ng/mL, Z = −2.95, p = 0.003]水平均显著高于对照组。
胰腺癌组肝胆功能指标明显异常,表现为TBIL [75.50 (14.40~192.36) vs 22.85 (15.06~42.81) μmol/L, Z = −4.04, p < 0.001]、DBIL [54.51 (5.01~144.03) vs 9.06 (5.44~24.97) μmol/L, Z = −3.94, p < 0.001]和IBIL [19.05 (9.50~38.30) vs 12.15 (7.61~19.98) μmol/L, Z = −3.54, p < 0.001]均显著高于对照组。ALP [182.00 (79.00~333.00) vs 123.60 (81.00~210.38) U/L, Z = −2.35, p = 0.019]和ALT (158.01 ± 158.27 vs 122.31 ± 141.13 U/L, t = −2.02, p = 0.045)也显著升高。
炎症标志物分析表明,胰腺癌组系统性炎症反应更为显著,PLR [164.80 (121.23~218.38) vs 141.32 (107.28~193.79), Z = −2.09, p = 0.037]、NLR [2.55 (1.83~3.40) vs 2.18 (1.39~3.75), Z = −2.06, p = 0.040]和SII [588.55 (400.47~801.84) vs 475.30 (284.09~783.53), Z = −2.15, p = 0.032]均显著升高,纤维蛋白原水平也相应增高[3.46 (3.03~3.94) vs 3.18 (2.68~3.83) g/L, Z = −2.86, p = 0.004]。
胰腺癌组血红蛋白水平略低[129.00 (116.00~140.00) vs 132.50 (122.00~141.75) g/L, Z = −1.98, p = 0.047],而肌酐水平显著降低[57.00 (45.00~69.80) vs 71.25 (57.33~84.00) μmol/L, Z = −5.29, p < 0.001]。
临床营养评分系统分析显示,COUNT评分(Fisher精确检验,p = 0.038)和NPS评分(χ2 = 13.77, p = 0.008)在两组间分布差异显著。胰腺癌组COUNT评分2~3级比例为10.35% (对照组17.78%),NPS评分3~4级比例为46.21% (对照组45.19%),其中高分级(3分)患者比例(37.24%)显著高于对照组(25.19%),提示营养代谢状态可能较差(见表2)。
Table 2. Comparison of clinical data between benign group and pancreatic cancer group
表2. 良性组和胰腺癌组的临床数据比较
变量 |
训练集总共(n = 287) |
良性组(n = 142) |
胰腺癌(n = 145) |
统计值 |
p值 |
年龄,[岁,Mean ± SD] |
62.34 ± 11.76 |
62.94 ± 13.55 |
61.74 ± 9.70 |
t = 0.86 |
0.390 |
性别,[例(%)] |
|
|
|
χ2 = 0.38 |
0.536 |
男 |
189 (65.85) |
96 (67.61) |
93 (64.14) |
|
|
女 |
98 (34.15) |
46 (32.39) |
52 (35.86) |
|
|
身高,[cm, Mean ± SD] |
166.25 ± 7.52 |
165.70 ± 6.88 |
166.79 ± 8.09 |
t = −1.22 |
0.223 |
体重,[kg, Mean ± SD] |
64.22 ± 10.04 |
63.61 ± 10.55 |
64.83 ± 9.52 |
t = −1.03 |
0.304 |
体质指数,[kg/m2, Mean ± SD] |
23.19 ± 2.97 |
23.11 ± 3.20 |
23.26 ± 2.72 |
t = −0.42 |
0.674 |
WBC, [×109/L, M (Q1, Q3)] |
5.57 (4.70, 6.73) |
5.69 (4.70, 6.89) |
5.54 (4.70, 6.46) |
Z = −0.47 |
0.640 |
NE, [×109/L, M (Q1, Q3)] |
3.39 (2.73, 4.29) |
3.37 (2.62, 4.38) |
3.44 (2.88, 4.23) |
Z = −1.22 |
0.221 |
L, [×109/L, M (Q1, Q3)] |
1.41 (1.06, 1.85) |
1.46 (1.05, 2.00) |
1.36 (1.08, 1.75) |
Z = −1.19 |
0.234 |
M, [×109/L, M (Q1, Q3)] |
0.42 (0.33, 0.53) |
0.41 (0.32, 0.54) |
0.44 (0.34, 0.52) |
Z = −0.89 |
0.375 |
HB, [g/L, M (Q1, Q3)] |
131.00 (118.00, 141.00) |
132.50 (122.00, 141.75) |
129.00 (116.00, 140.00) |
Z = −1.98 |
0.047 |
PLT, [×109/L, M (Q1, Q3)] |
213.00 (175.00, 268.00) |
213.00 (166.00, 270.75) |
215.00 (188.00, 266.00) |
Z = −1.14 |
0.253 |
CRP, [mg/L, M (Q1, Q3)] |
4.12 (1.18, 8.45) |
3.23 (0.98, 13.94) |
4.20 (1.63, 6.37) |
Z = −0.12 |
0.907 |
CA199, [U/mL, M (Q1, Q3)] |
59.52 (16.87, 211.40) |
24.22 (10.51, 68.37) |
167.50 (48.70, 384.00) |
Z = −7.45 |
<0.001 |
CEA, [ng/mL, M (Q1, Q3)] |
2.60 (1.59, 4.15) |
2.09 (1.23, 2.96) |
3.26 (2.12, 5.17) |
Z = −5.74 |
<0.001 |
AFP, [ng/mL, M (Q1, Q3)] |
2.87 (2.11, 3.87) |
2.62 (1.95, 3.56) |
3.18 (2.22, 4.15) |
Z = −2.95 |
0.003 |
ALB, [g/L, Mean ± SD] |
38.10 ± 4.94 |
37.94 ± 4.78 |
38.27 ± 5.11 |
t = −0.56 |
0.574 |
PA, [mg/L, Mean ± SD] |
205.27 ± 67.90 |
209.62 ± 71.30 |
201.08 ± 64.42 |
t = 1.06 |
0.289 |
GLB, [g/L, M (Q1, Q3)] |
24.43 (21.40, 28.75) |
24.77 (21.28, 28.80) |
24.33 (21.40, 28.20) |
Z = −0.69 |
0.487 |
AGR, [M (Q1, Q3)] |
1.55 (1.33, 1.79) |
1.55 (1.30, 1.79) |
1.56 (1.34, 1.79) |
Z = −0.61 |
0.544 |
ALT, [U/L, Mean ± SD] |
140.34 ± 150.84 |
122.31 ± 141.13 |
158.01 ± 158.27 |
t = −2.02 |
0.045 |
AST, [U/L, M (Q1, Q3)] |
45.00 (19.65, 117.35) |
34.15 (20.25, 74.97) |
60.00 (19.00, 143.00) |
Z = −2.40 |
0.016 |
γ-GT, [U/L, Mean ± SD] |
351.93 ± 465.54 |
275.94 ± 327.19 |
426.36 ± 560.66 |
t = −2.78 |
0.006 |
ALP, [U/L, M (Q1, Q3)] |
137.20 (80.90, 258.85) |
123.60 (81.00, 210.38) |
182.00 (79.00, 333.00) |
Z = −2.35 |
0.019 |
TBIL, [umol/L, M (Q1, Q3)] |
28.30 (14.66, 113.48) |
22.85 (15.06, 42.81) |
75.50 (14.40, 192.36) |
Z = −4.04 |
<0.001 |
DBIL, [umol/L, M (Q1, Q3)] |
13.29 (5.11, 83.05) |
9.06 (5.44, 24.97) |
54.51 (5.01, 144.03) |
Z = −3.94 |
<0.001 |
IBIL, [umol/L, M (Q1, Q3)] |
14.84 (8.60, 28.99) |
12.15 (7.61, 19.98) |
19.05 (9.50, 38.30) |
Z = −3.54 |
<0.001 |
TG, [mmol/L, M (Q1, Q3)] |
1.24 (0.83, 1.88) |
1.07 (0.79, 1.55) |
1.49 (0.93, 2.11) |
Z = −3.77 |
<0.001 |
TC, [mmol/L, M (Q1, Q3)] |
4.62 (3.87, 5.52) |
4.34 (3.77, 5.15) |
4.86 (4.23, 5.81) |
Z = −3.57 |
<0.001 |
Apoa1, [g/L, Mean ± SD] |
1.06 ± 0.42 |
1.11 ± 0.41 |
1.02 ± 0.42 |
t = 1.63 |
0.103 |
Apob, [g/L, M (Q1, Q3)] |
0.88 (0.69, 1.10) |
0.85 (0.65, 0.96) |
0.95 (0.71, 1.19) |
Z = −2.99 |
0.003 |
HDL, [mmol/L, M (Q1, Q3)] |
1.06 (0.77, 1.43) |
1.22 (0.93, 1.54) |
0.94 (0.58, 1.29) |
Z = −4.05 |
<0.001 |
LDL, [mmol/L, M (Q1, Q3)] |
2.96 (2.28, 3.61) |
2.90 (2.26, 3.49) |
3.00 (2.34, 3.76) |
Z = −1.32 |
0.186 |
Cr, [mol/L, M (Q1, Q3)] |
64.12 (51.00, 79.00) |
71.25 (57.33, 84.00) |
57.00 (45.00, 69.80) |
Z = −5.29 |
<0.001 |
CYSC, [mg/L, M (Q1, Q3)] |
0.92 (0.80, 1.02) |
0.94 (0.84, 1.08) |
0.88 (0.79, 1.01) |
Z = −2.72 |
0.007 |
FIB, [g/L, M (Q1, Q3)] |
3.36 (2.86, 3.90) |
3.18 (2.68, 3.83) |
3.46 (3.03, 3.94) |
Z = −2.86 |
0.004 |
LCR, M (Q1, Q3) |
0.38 (0.15, 1.19) |
0.45 (0.08, 1.68) |
0.34 (0.21, 0.83) |
Z = −0.68 |
0.494 |
PLR, M (Q1, Q3) |
154.23 (113.07, 207.18) |
141.32 (107.28, 193.79) |
164.80 (121.23, 218.38) |
Z = −2.09 |
0.037 |
NLR, M (Q1, Q3) |
2.42 (1.63, 3.51) |
2.18 (1.39, 3.75) |
2.55 (1.83, 3.40) |
Z = −2.06 |
0.040 |
FAR, M (Q1, Q3) |
0.09 (0.07, 0.11) |
0.08 (0.07, 0.11) |
0.09 (0.08, 0.11) |
Z = −2.15 |
0.031 |
FPR, M (Q1, Q3) |
0.02 (0.01, 0.02) |
0.01 (0.01, 0.02) |
0.02 (0.01, 0.02) |
Z = −2.78 |
0.006 |
SII, M (Q1, Q3) |
539.13 (342.65, 794.77) |
475.30 (284.09, 783.53) |
588.55 (400.47, 801.84) |
Z = −2.15 |
0.032 |
PNI, M (Q1, Q3) |
45.50 (42.11, 50.04) |
46.00 (41.88, 50.14) |
45.20 (42.20, 49.96) |
Z = −0.49 |
0.627 |
COUNT,例(%) |
|
|
|
- |
0.038 |
0 |
104 (37.14) |
49 (36.30) |
55 (37.93) |
|
|
1 |
137 (48.93) |
62 (45.93) |
75 (51.72) |
|
|
2 |
36 (12.86) |
24 (17.78) |
12 (8.28) |
|
|
3 |
3 (1.07) |
0 (0.00) |
3 (2.07) |
|
|
NPS,例(%) |
|
|
|
χ2 = 13.77 |
0.008 |
0 |
22 (7.86) |
13 (9.63) |
9 (6.21) |
|
|
1 |
57 (20.36) |
32 (23.70) |
25 (17.24) |
|
|
2 |
73 (26.07) |
29 (21.48) |
44 (30.34) |
|
|
3 |
88 (31.43) |
34 (25.19) |
54 (37.24) |
|
|
4 |
40 (14.29) |
27 (20.00) |
13 (8.97) |
|
|
t:t检验(t-test);Z:Mann-Whitney检验(Mann-Whitney test);χ2:卡方检验(Chi-square test);-:Fisher精确检验 (Fisher exact test);SD:标准差(standard deviation);M:中位数(Median);Q1:第一四分位数(1st Quartile);Q3:第三四分位数 (3rd Quartile)。
3.4. LASSO回归筛选变量
经过单因素logistic回归分析(表3),将p < 0.05的变量纳入Lasso回归进行筛选,在19个变量中共筛出5个变量,分别为CA19-9、直接胆红素(DBIL)、癌胚抗原(CEA)、胱抑素-C (CYS-C)、COUNT评分。Lasso模型的最佳参数(λ)选择,根据最小标准的10重交叉验证,取lambda = 0.051610,筛选得到最终变量,Lasso交叉验证图及路径图(见图1)。
3.5. 列线图模型的建立和验证
以筛选的5个变量构建胰腺癌的列线图模型(图2)。模型在训练集上展现出良好的判别能力,受试者工作特征曲线(ROC)下面积(AUC)达到0.86 (95%CI: 0.82~0.90)。采用优化的截断阈值0.434,模型实现了77% (95%CI: 0.72~0.82)的总体准确率,为临床应用提供了可靠基础(图3、表4)。
Table 3. Univariate logistic regression analysis
表3. 单因素logistic回归分析
变量 |
β |
S.E |
Z |
p |
OR (95%CI) |
CA199 |
0.01 |
0.00 |
2.00 |
0.046 |
1.01 (1.00~1.00) |
CEA |
0.21 |
0.06 |
3.52 |
<0.001 |
1.24 (1.10~1.39) |
AFP |
0.22 |
0.08 |
2.83 |
0.005 |
1.25 (1.07~1.45) |
HB |
−0.02 |
0.01 |
−2.18 |
0.029 |
0.98 (0.97~0.99) |
TBIL |
0.01 |
0.00 |
5.07 |
<0.001 |
1.01 (1.01~1.01) |
DBIL |
0.01 |
0.00 |
5.50 |
<0.001 |
1.01 (1.01~1.02) |
IBIL |
0.02 |
0.01 |
3.05 |
0.002 |
1.02 (1.01~1.03) |
ALT |
0.01 |
0.00 |
1.99 |
0.047 |
1.01 (1.01~1.01) |
AST |
0.01 |
0.00 |
2.59 |
0.010 |
1.01 (1.01~1.01) |
ALP |
0.01 |
0.00 |
3.21 |
0.001 |
1.01 (1.01~1.01) |
γ-GT |
0.01 |
0.00 |
2.63 |
0.009 |
1.01 (1.01~1.01) |
TG |
0.49 |
0.16 |
3.12 |
0.002 |
1.63 (1.20~2.21) |
TC |
0.31 |
0.09 |
3.41 |
<0.001 |
1.37 (1.14~1.64) |
apoB |
0.97 |
0.39 |
2.46 |
0.014 |
2.65 (1.22~5.74) |
HDL |
−0.73 |
0.23 |
−3.15 |
0.002 |
0.48 (0.31~0.76) |
Cr |
−0.04 |
0.01 |
−5.06 |
<0.001 |
0.96 (0.95~0.98) |
CYSC |
−1.98 |
0.74 |
−2.68 |
0.007 |
0.14 (0.03~0.59) |
FIB |
0.35 |
0.15 |
2.32 |
0.020 |
1.42 (1.06~1.91) |
PLR |
0.00 |
0.00 |
0.84 |
0.399 |
1.00 (1.00~1.00) |
NLR |
0.00 |
0.03 |
0.01 |
0.990 |
1.00 (0.95~1.05) |
FAR |
8.16 |
4.64 |
1.76 |
0.079 |
3491.56 (0.39~31114247.14) |
FPR |
2.58 |
8.22 |
0.31 |
0.754 |
13.16 (0.00~130482925.17) |
SII |
0.00 |
0.00 |
0.30 |
0.761 |
1.00 (1.00~1.00) |
COUNT |
|
|
|
|
|
0 |
|
|
|
|
1.00 (Reference) |
1 |
0.07 |
0.26 |
0.29 |
0.774 |
1.08 (0.65~1.80) |
2 |
−0.81 |
0.40 |
−2.00 |
0.046 |
0.45 (0.20~0.98) |
3 |
15.45 |
840.27 |
0.02 |
0.985 |
5129687.82 (0.00~Inf) |
NPS |
|
|
|
|
|
0 |
|
|
|
|
1.00 (Reference) |
1 |
0.12 |
0.51 |
0.24 |
0.812 |
1.13 (0.42~3.06) |
2 |
0.78 |
0.50 |
1.58 |
0.113 |
2.19 (0.83~5.78) |
3 |
0.83 |
0.49 |
1.71 |
0.087 |
2.29 (0.89~5.94) |
4 |
−0.36 |
0.55 |
−0.66 |
0.509 |
0.70 (0.24~2.04) |
OR:比值比,CI:置信区间。
(a)
(b)
Figure 1. (a) Lasso regression coefficient path plot and (b) Cross-validation plot
图1. (a) Lasso回归系数路径图与(b) 交叉验证图
Figure 2. Nomogram model for predicting pancreatic cancer
图2. 预测胰腺癌的列线图模型
注:Sensitivity为敏感度;1-Specificity为假阳性率;训练集AUC为0.86;验证集AUC为0.83。
Figure 3. ROC curves and AUC values for the training set and validation set
图3. 训练集和验证集的ROC曲线及AUC面积
Table 4. Confusion matrices for the training set and validation set
表4. 训练集和验证集混淆矩阵
Data |
AUC (95%CI) |
Accuracy (95%CI) |
Sensitivity (95%CI) |
Specificity (95%CI) |
PPV (95%CI) |
NPV (95%CI) |
cut off |
训练集 |
0.86 (0.82~0.90) |
0.77 (0.72~0.82) |
0.75 (0.68~0.82) |
0.80 (0.73~0.86) |
0.79 (0.72~0.86) |
0.76 (0.69~0.83) |
0.434 |
验证集 |
0.83 (0.75~0.90) |
0.73 (0.64~0.81) |
0.74 (0.63~0.85) |
0.72 (0.61~0.84) |
0.74 (0.63~0.85) |
0.72 (0.61~0.84) |
0.451 |
诊断性能分析显示,该模型在特异性方面略优于敏感性,分别为80% (95%CI: 0.73~0.86)和75% (95%CI: 0.68~0.82)。这种特性使其在确认诊断方面表现优异,可有效减少假阳性结果,从而降低不必要的医疗资源消耗和患者负担。同时,75%的敏感性也确保了模型在初筛环节具有足够的检出能力,仅有25%的真实阳性病例可能被漏诊。
进一步分析预测价值指标,我们观察到模型具有相对平衡的阳性预测值(PPV)和阴性预测值(NPV),分别为79% (95%CI: 0.72~0.86)和76% (95%CI: 0.69~0.83)。较高的PPV表明,当模型预测结果为阳性时,约79%的病例确实为阳性,这为临床决策提供了较高的可信度。而76%的NPV则提示在解释阴性结果时需保持适度谨慎,尤其是针对高风险人群。
在胰腺癌预测中,该预测模型具有良好的临床决策价值,特别是在中高风险阈值区间(0.4~0.9) (图4)。
校准曲线图证明了该胰腺癌预测模型不仅具有良好的区分能力(之前提到的AUC = 0.86),还具有出色的校准性能(图5)。
3.6. 确立独立危险因素
多因素Logistic回归分析显示(表5),CA19-9 (OR = 1.01, 95%CI: 1.01~1.01, p = 0.024)、CEA (OR = 1.16, 95%CI: 1.02~1.32, p = 0.025)和DBIL (OR = 1.02, 95%CI: 1.01~1.02, p < 0.001)均为PDAC的独立危险因素。尤其值得注意的是,CA19-9在多因素分析中达到了统计学显著性,表明其在控制其他因素后的独立预测价值。胱抑素C在多因素分析中保持强保护作用,且效应增强(OR = 0.06, 95%CI: 0.01~0.36, p = 0.002),表明每单位增加与PDAC风险降低94%相关。
Figure 4. Decision curve analysis for the training set (left) and validation set (right)
图4. 训练集(左)和验证集(右)的决策曲线分析
Figure 5. Calibration curves for the training set (left) and validation set (right)
图5. 训练集(左)和验证集(右)的校准曲线
Table 5. Multivariate Logistic regression analysis
表5. 多因素Logistic回归分析
变量 |
多因素Logistic回归分析 |
β |
S.E |
Z |
p |
OR (95%CI) |
CA199 |
0.01 |
0.00 |
2.26 |
0.024 |
1.01 (1.01~1.01) |
CEA |
0.15 |
0.07 |
2.24 |
0.025 |
1.16 (1.02~1.32) |
DBIL |
0.02 |
0.00 |
5.30 |
<0.001 |
1.02 (1.01~1.02) |
CYSC |
−2.74 |
0.87 |
−3.14 |
0.002 |
0.06 (0.01~0.36) |
COUNT |
|
|
|
|
|
0 |
|
|
|
|
1.00 (Reference) |
1 |
−0.20 |
0.30 |
−0.67 |
0.500 |
0.82 (0.45~1.47) |
2 |
−1.58 |
0.51 |
−3.09 |
0.002 |
0.21 (0.08~0.56) |
3 |
14.98 |
1264.15 |
0.01 |
0.991 |
3215656.77 (0.00~Inf) |
4. 讨论
本研究检验了五种常规血液标志物(CA19-9、CEA、直接胆红素、胱抑素C和COUNT评分)对胰腺导管腺癌(PDAC)诊断的预测价值。这项纳入677例胰胆系统疾病患者的回顾性病例对照研究采用1:1倾向性评分匹配消除基线差异,并通过LASSO回归筛选出最具预测价值的变量组合。结果表明,基于这五项血液指标构建的列线图模型在鉴别PDAC方面表现优异,曲线下面积达0.86 (95%CI: 0.82~0.90),在最佳阈值0.434处总体准确率为77% (95%CI: 0.72~0.82)。
本研究结果与既往文献高度一致,同时呈现独特发现:CA19-9方面,Yang等对胰胆系统疾病患者的研究[4],与我们的模型(AUC = 0.86)相近。Mason等通过队列研究证实CEA对胰腺癌具有显著预测价值[5],与本研究结果(OR = 1.16, 95%CI: 1.02~1.32)基本一致。Boyd等人的研究证实直接胆红素是胰腺癌的独立危险因素[6],与我们的发现(OR = 1.02, 95%CI: 1.01~1.02)高度吻合。在胱抑素C作用上,本研究与既往报道存在差异。Kleeman等在胰腺癌患者的研究中发现胱抑素C升高与不良预后相关[8],而我们的研究显示胱抑素C是胰腺癌诊断的保护因素(OR = 0.06, 95%CI: 0.01~0.36)。这种差异可能源于研究设计和目的的不同——Kleeman等主要关注预后而非诊断,且未对肾功能等关键混杂因素进行充分调整。
从机制上看,CEA作为细胞黏附分子可促进肿瘤细胞扩散和转移[5],胆红素升高反映了肿瘤导致的胆道梗阻及肝细胞损伤[6],而胱抑素C作为肾功能标志物,其保护作用可能反映了早期胰腺癌患者肾小管功能的代偿性改变。COUNT评分是通过白蛋白、总淋巴细胞计数和总胆固醇计算得出的营养–炎症综合评分,本研究首次发现COUNT = 2评分对胰腺癌具有保护作用(OR = 0.21, 95%CI: 0.08~0.56)。轻度COUNT异常可能代表一种“适度应激状态”,在此状态下机体免疫系统处于警觉但未过度消耗的平衡点。适度的营养应激可激活细胞自噬机制,促进受损细胞清除,防止异常细胞累积和肿瘤发生[11]。在《Nat Rev Gastroenterol Hepatol》发表的研究表明,胰腺微环境中的适度代谢压力可诱导组织驻留巨噬细胞向M1型极化,增强对早期恶变细胞的监视和清除能力[12]。
本研究构建的五维整合预测模型展现出显著的临床转化价值。当前PDAC确诊路径需要多步骤流程,平均周期达18.5天,而本模型仅通过常规血液检查即可实现77%的准确率,有望缩短诊断时间并降低医疗成本。与传统单一标志物相比,本模型特异性(80%)明显高于单一CA19-9 (65.7%),有效解决了良恶性胰胆疾病鉴别诊断的关键挑战。该模型整合了肿瘤标志物(CA19-9、CEA)、肝功能(DBIL)、肾功能(CYS-C)及营养状态(COUNT评分),全面反映胰腺癌患者的多维生理改变。在实际应用中,该模型可作为筛查高风险人群的辅助工具,尤其适用于影像学检查前的风险分层,帮助临床医生识别需优先进行侵入性确诊的患者。根据决策曲线分析,当风险阈值设定在0.4~0.9区间时,模型提供最大净获益,这正是临床怀疑PDAC患者的常见高风险区间。
本研究方法学优势确保了结果的可靠性:1:1 PSM策略有效消除基线差异(SMD < 0.2),显著减少选择偏倚;严格入选标准和多中心数据采集确保研究对象代表性和数据质量;分层抽样(7:3)进行集划分,确保基线特征无统计学差异(p > 0.05);单因素分析联合LASSO回归控制多重共线性,同时保留最具预测价值的标志物;模型验证采用ROC曲线、校准曲线和决策曲线分析三重评估体系。尽管如此,本研究仍存在局限性:首先,尽管采用了倾向性评分匹配,但仍存在潜在未测量混杂因素;其次,单中心研究限制了结果普适性,需多中心验证;第三,研究主要针对中国汉族人群,推广至其他种族时应谨慎;第四,回顾性设计仅能确立相关性而非因果;最后,模型缺乏前瞻性外部验证,临床实用性有待评估。
NOTES
*第一作者。
#通讯作者。