1. 引言
随着人工智能与统计建模方法在医学、金融及社会科学等领域的迅速发展,复杂预测模型尤其是深度学习模型在多项任务中有良好表现。然而,在医学等高风险决策场景中,模型的“黑箱”特性带来了严重挑战。以临床诊断为例,错误预测可能导致严重后果,使得仅依赖单点预测结果远远不够。虽然深度学习等模型具备强大的拟合能力和预测性能,但其可解释性不足、不确定性难以量化等问题,制约了其在实际医疗决策中的广泛应用。因此,如何在保证预测表现的同时,为黑箱模型提供可靠的不确定性度量工具,成为当前统计建模与人工智能交叉研究的重要方向。一方面,不确定性度量有助于识别预测结果的可信程度,为医疗人员提供额外判断依据;另一方面,它也是实现风险控制、保障模型安全使用的关键机制。
共形预测(Conformal Prediction)作为一种形式化、模型不可知的框架,正为这一问题提供了新的解决思路。它是一种与所选模型无关的方法,为分类与回归任务提供了形式化的预测区间,并在有限样本设定下提供可控置信水平的统计保障。该方法通过对模型预测结果进行校准,构建满足覆盖率要求的预测集合,为评估个体级别的预测不确定性提供了一种通用而严谨的手段。因此,近年来共形预测在学术界受到高度关注,金璋等人[1]认为多数学者主要围绕其自身理论性质展开研究,或是致力于探索各种统计模型与共形预测的融合,并把该方法用于各学科的具体问题研究。与此同时,还有一部分学者在此基础上对共形预测方法进行理论拓展和创新。2021年Jung等人就提出了基于共形预测框架的新型聚类方法[2];2022年Angelopoulos等人[3]通过控制单调损失函数的期望值来对共形预测进行拓展,使其能够应用于更广泛的场景;2023年Barber等人[4]使用加权残差分布来修改共形预测,使其在数据不可交换的情况下,仍能提供有效预测;同年,Hu等人[5]尝试用共形预测来检验超出可交换性之外的统计假设,Zaffran等人[6]研究了协变量缺失情况下的共形预测并证明了共形预测的边际覆盖保证对任何缺失值都成立;为使预测结果提供更可靠的置信区间Yang等人在2024年提出了效率优先共形预测和有效性优先共形预测[7]。然而,现有文献多聚焦于连续型或多分类响应变量,对于医学问题中常见的二值响应下如何构建预测集合及度量预测不确定性的问题研究仍相对较少。
选择性共形预测(Selective Conformal Prediction, SCOP)是共形预测的拓展,通过动态筛选高置信度样本进行预测,在保证统计可靠性的前提下提升效率。因其可优先输出高确定性结果、避免对模糊病例误判,该方法常用于医学风险预测中。在以往的研究中,Zhu等人利用符合p值进行个体选择来对罕见病进行更好的预测[8],Feng等人将选择性共形预测方法用于预测病人死亡率和ICU住院时间[9],Bao等人将该方法用于识别与特定靶点具有高亲和力的药物[10]。
本文围绕二值响应变量的预测任务,提出一种基于共形预测的不确定性度量方法,并进一步发展出适用于高风险人群的选择性共形预测方法。具体而言,本文的主要贡献包括:首先,针对二值响应变量,构建基于共形预测的预测集合,并引入最大置信度(maximum confidence)与预测可信度(credibility)两个指标,对单点预测结果的不确定性进行量化,提升模型解释性与临床可用性;第二,本文使用选择性共形预测方法,使模型在高风险子集上的预测准确性显著提升;第三,将所提出方法应用于乳腺癌风险预测问题中,通过对威斯康星州乳腺癌数据的实证分析,验证方法在高风险人群医疗干预中的实用价值。
2. 理论基础
2.1. 分裂共形预测
共形预测是一种模型无关方法框架,能够在保持有限样本可覆盖性(finite-sample validity)的前提下,为分类任务构建具有置信保障的预测集合。设有输入变量
和二值响应变量
,共形预测的目标是针对给定的
,构造一个预测集合
,使得在置信水平
下满足
。其也属于共形预测中的一种,近年来在医学风险控制领域展现出重要应用价值。这种方法能够为机器学习模型的预测生成具有理论保证的置信区间或预测集。核心思想是将数据分为训练集和校准集,利用校准集来量化预测的不确定性,确保覆盖率满足预设要求。因仅需一次模型训练,故该方法在运算速度上具有显著优势,适合处理大规模数据。
给定样本量为2n的数据集D,样本空间为
,其中Y表示标签,
,
。将数据集D分成两个互不相交的子集—校准集
和训练集
。此时,校准集
对应的样本数为n,训练集
对应的样本数也为n。在
上使用适当的机器学习的方法训练出模型
,并将
代型
中,计算其不一致分数
:
,
其中,
是
针对
的预测误差。对新数据
其可按如下方式预测:确定显著性水平
,接下来将每个可能的预测值
代入
得到不一致分数
并计算
:
.
最后得到预测区域
。若样本
独立同分布则该预测区域满足覆盖概率不等式[11]:
,
且当残差
具有连续的联合分布时,覆盖概率的上界为:
.
由此可见,这一方法不仅计算高效,而且在内存需求上也具有优势,尤其是当模型
涉及变量选择时,仅需存储选中的变量即可完成新数据点的预测和残差计算。此外,预测区域
还提供了近似样本内覆盖保证,便于基于现有数据直观解释和验证其有效性。根据以上定义与计算,图1系统阐述了分裂共形预测的实施流程。
Figure 1. Flowchart of split conformal prediction
图1. 分裂共形预测流程图
2.2. 选择性共形预测
选择性共形预测是一种扩展的共形预测,其在保证统计覆盖率的同时,允许模型在某些情况下选择性地放弃预测,以提高预测集的精确度或效率。其具有计算高效,灵活性、精确度较高的优势,在高风险决策等应用领域中展现出良好的适用性。
已有数据集
和测试集
其中
未知。将
分成大小相等的训练集
和校准集
,并将
视为固定值同时在其上拟合预测模型
。接下来指定一个得分函数
,计算得分
,并确定置信水平
和阈值
,阈值
可以被归纳为三种类型:(1) 由用户指定或仅依赖于训练集
获得:(2) 仅取决于得分
即选择测试集中得分最小的一定比例个体:(3) 完全或部分依赖于校准集
。获得新校准集
和新测试集
。最后计算:
,
,
其中
表示
中从小到大排序后第
个值。进而得到预测区间
。根据以上定义与计算,图2系统地阐述了选择性共形预测的实施流程。
Figure 2. Flowchart of selective conformal prediction
图2. 选择性共形预测流程图
若样本
独立同分布且
关于
可交换则其条件错误覆盖率满足:
.
当
几乎必然取不同值,且
时,条件错误覆盖率的下界为:
.
如果不满足
可交换的条件,可以适当调整新校准集和新测试集,比如选定排序阈值
,将新测试集重写为
,其中
表示
从小到大排序后第k个值并将新校准集重写为
。
2.3. 针对二值响应变量的风险预测模型
本研究采用核密度估计方法建立针对二值响应变量的风险预测模型。给定训练集
其中
表示经过降维后的主成分特征(PC1和PC2),
为类别标签(0表示良性,1表示恶性)。对于每个类别都有
作为该类别的样本量,则其核密度估计函数表达式为:
,
其中高斯核函数
和带宽参数
分别表示为
和
其中
为初始带宽。在预测阶段,类别的条件概率为
其中类别权重
。对于新样本
的预测集为:
,
其中
为校准残差
的
分位数。
2.4. 基于最大置信度和可信度的不确定性度量
在共形预测的框架下,应确保真值不取任意一个候选预测值的概率较低。给定数据集
(
),其中特征用X表示,二分类标签用Y表示(y = 0或y = 1)和新样本
时,我们需要确定预测值
的可能取值范围。在此情境下,候选预测值共有4种,分别为
、
、
、
。当预测集仅包含1个元素时,便将该元素确定为本次预测的结果
。为了精准衡量此次预测的效果,需使用最大置信度和预测可信度来量化此次预测的不确定性。接下来,运用不一致性度量公式
,分别计算当情况
和
时的不一致性分数
和
。然后计算:
,
.
Figure 3. Conformal prediction process for binary outcome
图3. 针对二值响应变量的共形预测过程
当置信水平
时,
落在预测区间中。如果置信水平
,则
落在预测区间中。具体计算步骤如图3所示。
假设经过图3中计算得到
、
。则说明当
时,
处于预测区域,当
时,
处于预测区域。在
的情况下,若预测集呈现为空集,这表明把置信度下调至11%时,预测集合将会是空集;在
的情况下,若预测集为
,则意味着有96%的信心预测
会落在预测区间中;在
的情况下,若预测集为
,则说明如果将置信度升至97%,那么预测集中将会既包含0也包含1。
定义预测的可信度为使得预测集为空集的最小
,最大置信度为使得预测集为单指标的最大
。因此,在上述
、
的情况下,预测
的最大置信度为96%而可信度为89%。在医学常见的二分类问题中,如若预测的可信度较低,则说明没有足够的信息支持这个预测需结合其它手段进行综合诊断。而当最大置信度和可信度均较高时则说明该预测很有可能是准确的,可以使用该结果进行后续诊断治疗。因此,在二分类问题中引入最大置信度和可信度,本质是通过量化不确定性来实现更精细的风险控制,提升预测的可靠性。
3. 实证分析
本文采用康斯星州乳腺癌数据集[12]进行研究,该数据集汇聚了699例样本信息,详尽涵盖了9个标准化处理的病理特征:肿块厚度、细胞大小均匀性、细胞形态均匀性、边缘粘连、单上皮细胞大小、裸核、乏味染色体、正常核和有丝分裂,同时附有相应的诊断结果(分为良性和恶性)。因其数据质量高、特征解释性强常被用于机器学习和医学统计领域。早在2010年Basu等人就开始使用加权似然估计法对该数据集的诊断结果进行预测,旨在提升恶性病例的识别准确率[13]。随后,2017年Barrett等人利用该数据集验证了选择性招募设计在提高统计功效、得出更可靠结论方面的有效性[14],这项研究充分展示了在数据集中寻找合适子集进行预测的重要性。因此,本次研究选取高风险人群作为预测对象,分别使用分裂共形预测和选择性共形预测对其进行预测,通过对比二者的预测成效,选择更适合高风险人群的预测方法,从而确保获得更为稳健、可靠的预测结果。在之前的研究中,我们研究了分裂共形预测[15]发现其在高风险人群的预测中表现一般,因此进一步研究选择性共形预测是否在高风险人群中表现良好。
数据集中的699例样本有458例为良性,其余241例为恶性。针对数据中16个缺失样本,采用删除策略,最终保留683个完整数据进行模型训练。本研究对683个有效样本构建KDE模型并进行PCA降维,以便可视化及提取关键特征。按照诊断结果将数据分为良性组和恶性组。从良性样本中随机抽取70例,从恶性样本中随机抽取30例将两者合并构成100例测试集
。将剩余样本按6:4的比例划分为训练集
和校准集
。按照诊断结果
时为良性,
时为恶性,选取肿块厚度(
),边缘粘连(
),裸核(
)和乏味染体(
)作为风险预测因子,使用logistic回归来构建风险预测模型:
,
转换该函数得到概率
,将
个体的集合称为高风险人群,并构建新测试集
和新校准集
。此时,
对应的样本数为
,
对应的样本数为
,
对应的样本数为
。
3.1. 分裂共形预测在高风险人群乳腺癌患病预测中的应用
设类别
,其中0为良性,1为恶性。对训练集
选定机器学习训练模型,生成KDE核密度估计模型作为预测器。因此,类别k的核密度估计函数为
,其中带宽h设定为0.35、高斯核函数
表示为
。计算校准集的不一致性分数
,
。在
(90%置信水平)下,
表示校准集不一致性分数的(
)分位数。对于
中的任意样本
构建的预测集为:
.
之后,进行实际覆盖率的计算
。其中
为样本
的真实类别,
为指示函数即括号中的条件为真则为1,否则为0。
Figure 4. Classification and results of split conformal prediction (90% confidence) in high-risk populations
图4. 分裂共形预测(90%置信度)在高风险人群中的分类及结果
散点图图4呈现了高风险人群中的良性样本(以蓝点标识)和恶性样本(以红点标识)在主成分分析空间中的分布情况。图中蓝色区域代表高风险人群在90%置信水平下预测为良性的置信区域:红色区域代表高风险人群在90%置信水平下预测为恶性的置信区域:重叠区域表示无法明确分类的区域:白色区域为不确定区域表示无法做出可靠性预测的区域。经过计算可得分裂共形预测在高风险人群中预测的实际覆盖率为74.2%。
3.2. 选择性共形预测在高风险人群乳腺癌患病预测中的应用
对于已有的类别标签集
,其中0为良性,1为恶性,类别k的核密度估计函数表达式为
,其中带宽h设定为0.35、高斯核函数
表示为
。计算校准集残差
,其中类别概率
,类别权重
。对于新样本
构建的预测集
。其中
表示在
(90%置信水平)下的校准集残差
的
分位数。经计算得选择性共形预测在高风险人群中预测的实际覆盖率为90.3%。
Figure 5. Classification and results of selective conformal prediction (90% confidence) in high-risk group
图5. 选择性共形预测(90%置信度)在高风险人群中的分类及结果
针对已有结果,我们可以发现在高风险人群中,选择性共形预测的实际覆盖率(图5)相比分裂共形预测的实际覆盖率(图4)提升16.1个百分点。这在乳腺癌早期诊断中尤为关键,可降低漏诊风险。进一步与完全共形预测方法对比显示,选择性共形预测在高风险人群中的覆盖率仍高出19.3个百分点。在高风险人群上的实际覆盖率提升19.3个百分点。完全共形预测方法的计算效率较低,在本数据集中的运行结果相较于分裂共形预测没有显著提升。本研究也将类别条件共形预测作为基线方法进行了对比,试验结果表明,其在恶性样本上的覆盖率相较于分裂共形预测有所提升,但该方法没有聚焦高风险样本,划分依据为诊断标签,在真实数据分析中,我们往往需要对高风险人群进行进一步检查和医疗干预,因此本文采用选择性共形预测方法。下面,我们将对分裂共形预测与选择性共形预测在高风险人群中的预测结果进行对比,举例说明预测结果不同的样本点,从而更直观地观测两者之间的区别。
表1中的结果显示,在两种预测方法于高风险人群中预测结果存在差异的样本点中,对于大部分恶性样本,分裂共形预测的输出结果为空集,说明该方法在该情境下失效,这表明分裂共形预测对高风险人群中恶性样本识别能力有限,存在漏诊的潜在风险。而选择性共形预测能够成功识别出分裂共形预测无法识别的恶性样本,进而提升了预测结果的准确性,为高风险人群的疾病预测提供更可靠的依据。因此,在疾病的风险预测中选择性共形预测能够更好地适应高风险人群数据的复杂性和不确定性,减少误判和漏判的情况,从而为后续的决策提供更为可靠的依据。在疾病早期筛查方面,它可以帮助医生更准确地识别出高风险患者,提高筛查的效率和准确性,使患者能够尽早接受进一步的诊断和治疗,从而提升治疗效果和患者的生存率。
Table 1. Differences in prediction results between split conformal prediction and selective conformal prediction in high-risk populations
表1. 分裂共形预测与选择性共形预测于高风险人群中预测结果存在差异的样本点举例
序号 |
PC1 |
PC2 |
真实标签 |
分裂共形预测结果 |
选择性共形预测结果 |
1 |
−3.7706 |
2.3425 |
1 |
空集 |
1 |
2 |
−1.0639 |
−0.2172 |
1 |
0和1 |
空集 |
3 |
−1.0229 |
−0.2362 |
1 |
0和1 |
空集 |
4 |
−3.7815 |
2.4727 |
1 |
空集 |
1 |
5 |
−5.5563 |
2.5064 |
1 |
空集 |
1 |
6 |
−4.5273 |
4.4832 |
1 |
空集 |
1 |
7 |
−3.6589 |
2.4470 |
1 |
空集 |
1 |
8 |
−4.9971 |
2.2071 |
1 |
空集 |
1 |
3.3. 选择性共形预测的乳腺癌风险预测不确定性度量
对于测试集
中的任意样本
其真实标签未知,则该样本属于真实标签“1”的预测概率为
。其中核密度估计函数
,带宽h取值为0.35、类别权重
的具体表达式为
。针对该预测概率定义不一致性度量
(I = 1或0),同时比较其与校准集残差
的大小并计算:
,
其中
为指示函数。通过比较置信度
(
)与
、
的大小生成预测集并得到预测可信度
。下面我们以威斯康星州乳腺癌数据集为例,从预先定义的高风险人群中抽取10个样本,来对比运用分裂共形预测和选择性共形预测方法,计算所得的90%置信度下的预测集、预测单指标集的具体信息以及预测可信度。
由表2可看出,选择性共形预测和分裂共形预测给出了单指标预测集的最大置信度和预测可信度。其中,样本1在两种预测方法中均出现预测错误,但可以看出其在两种预测中的可信度较低分别为44%和32%,则说明对于该患者没有足够的信息来进行预测需结合其他手段进行诊断。而样本6在两种预测方法中得到的预测是准确的,而且单指标预测集的最大置信度均为96%,预测可信度分别为70%和64%,因此我们可以将该患者判定为高风险患者并采取相应的医疗干预。除此之外,在多数情况下,选择性共形预测的预测可信度要高于分裂共形预测的预测可信度,这说明选择性共形预测在对高风险人群进行预测时具备更高的准确性。对于分裂共形预测中预测错误的样本,选择性共形预测可给出较为灵活的预测
(样本1和样本8),甚至是正确的预测(样本3),这说明与分裂共形预测相比,选择性共形预测的选择性机制可以动态调整预测灵活性与可信度。
Table 2. Application of selective conformal prediction (SCOP) and split conformal prediction (SCP) in Wisconsin breast cancer dataset
表2. 选择性共形预测(SCOP)与分裂共形预测(SCP)在康斯星州乳腺癌肿瘤预测数据中的应用
序号 |
PC1 |
PC2 |
SCOP-90%置信度下预测集 |
SC0P单指标预测集(最大置信度) |
SCOP预测可信度 |
SCP-90%置信度下预测集 |
SCP单指标预测集(最大置信度) |
SCP预测可信度 |
真值 |
1 |
−0.0472 |
−0.1782 |
0和1 |
1 (81%) |
44% |
1 |
1 (96%) |
32% |
0 |
2 |
0.8521 |
0.1389 |
0 |
0 (96%) |
85% |
0 |
0 (96%) |
56% |
0 |
3 |
−3.7706 |
2.3425 |
1 |
1 (99%) |
96% |
空集 |
0 (96%) |
20% |
1 |
4 |
−1.5077 |
−1.2140 |
1 |
1 (96%) |
74% |
1 |
1 (96%) |
60% |
1 |
5 |
1.1206 |
−0.1588 |
0 |
0 (96%) |
89% |
0 |
0 (96%) |
92% |
0 |
6 |
−2.5978 |
−0.8346 |
1 |
1 (96%) |
70% |
1 |
1 (96%) |
64% |
1 |
7 |
−1.9052 |
−0.5472 |
1 |
1 (93%) |
67% |
1 |
1 (96%) |
56% |
1 |
8 |
−1.2880 |
0.2060 |
0和1 |
0 (81%) |
41% |
1 |
1 (96%) |
40% |
0 |
9 |
−1.0928 |
−0.9376 |
1 |
1 (96%) |
67% |
1 |
1 (96%) |
56% |
1 |
10 |
−2.1814 |
−0.9608 |
1 |
1 (96%) |
74% |
1 |
1 (96%) |
56% |
1 |
4. 结论与展望
4.1. 研究总结
本文提出了选择性共形预测方法并研究了选择性共形预测在乳腺癌高风险人群风险评估中的应用。通过与分裂共形预测相比,选择性共形预测在高风险人群中预测的实际覆盖率从74.2%显著提升至90.3%,进一步比对两种方法预测结果存在差异的样本点,发现选择性共形预测能够更好地识别恶性样本点,提升高风险人群的预测可靠性。同时,通过对比两种预测方法的最大置信度和预测可信度,发现对于分裂共形预测预测错误的边界病例,选择性共形预测可给出更为灵活、准确的结果。综上所述,与分裂共形预测相比,选择性共形预测在高风险人群的预测中具有更高的准确性,可用于癌症早期筛查确保高风险患者获得更及时的治疗。
4.2. 局限性与未来工作
尽管本研究取得了有意义的成果,但仍存在一些局限性。本研究基于威斯康星州乳腺癌单一数据集进行方法验证,虽然该数据集质量较高且解释性强,但未来研究仍需要在更多样化的医疗数据集上验证该方法的一般性和稳健性。另外,本研究主要基于logistic回归模型给出的风险评分进行样本选择,未来工作可以探索更复杂的选择性策略,如基于多模态数据的整合选择机制,或者开发自适应阈值选择方法,以进一步提升预测性能。
共形预测的其他方法也可以应用于针对高风险人群的医疗干预和预测不确定性度量中,比如类别条件共形预测方法通过对于不同诊断类别构造预测集合,能够针对每个类别有一定的覆盖率保证,后续研究可以将分类扩展至基于传统模型的不同风险等级。未来研究需要进一步优化算法计算复杂度,开发更高效的实现方案,同时加强与临床应用的结合。当前研究主要针对二分类问题,未来可以扩展至多分类或生存分析等更复杂的医疗预测场景,探究选择性共形预测在这些领域的应用潜力。通过这些后续研究的深入开展,选择性共形预测方法将在医疗风险预测领域发挥更大的价值。
基金项目
国家自然科学基金青年项目(No. 12301369),中央民族大学理学院URTP项目(URTP2025110352)。
NOTES
*通讯作者。