1. 引言
乳腺癌作为全球女性中最常见的恶性肿瘤,对女性健康构成了重大威胁。其中,浸润性导管癌占据了所有乳腺癌病例的约80%,而导管内癌和小叶癌分别占非浸润性原位癌的80%和10% [1]。深入研究乳腺癌的发病机制、危险因素及分子生物学特性,对于制定有效的预防措施和早期筛查方法至关重要[2]。准确的乳腺癌组织分类能够为诊断和预后提供关键信息,提升诊断精确度,并为治疗方案的制定提供指导[3]。近年来,结合计算机辅助诊断系统和深度学习技术,已在乳腺癌组织分类中展现出显著效果,有效降低了诊断成本并提高了效率[4]。
然而,病理图像的高分辨率特性使得自然图像领域的技术难以直接应用于病理图像。早期的乳腺癌病理图像识别研究主要集中在癌症与非癌症的二分类上,或正常、原位癌和浸润性癌的三分类问题上[5]。这些研究多采用传统机器学习方法,通过分析图像的纹理、形状和结构特征来进行分类。目前,显微镜下的乳腺癌组织样本通常通过H&E染色观察,以便于区分细胞核与实质,从而观察组织结构和细胞类型[6]。
现有方法往往忽视了图像中区域间的相互关系,而这种关系在乳腺组织的实际诊断中极为重要。为了更准确地进行病理判断,需要利用图模型来挖掘图像内部的复杂关系[7]。通过将病理区域视为节点,基于像素或区域间的相似性确定节点间的边,可以学习到有助于乳腺癌识别的深层信息[8]。
为了精确区分乳腺癌的不同病变阶段,本研究提出了一种新的策略——因果发现注意力图神经网络(CA-GAT)模型。该模型通过强化因果特征与预测之间的因果关系,采用因果干预策略增强注意模块,以实现更好的泛化性能[9]。通过优化目标函数散列因果特征与标签之间的互信息,有效区分因果和琐碎特征[2]。在乳腺癌数据集上的试验结果证明了CDA-GNN模型的有效性。
2. 方法
下面,本文提出了一种基于乳腺癌图像的因果图神经网络(CA-GAT)模型。首先,从因果关系的角度,识别图神经网络学习中存在的问题,特别是快捷特征与因果特征和预测之间的混杂关系。为了削弱这种混杂效应并提高模型的泛化能力,提出CA-GAT模型框架。这个框架主要由三个部分组成:1) 估计软掩模,这部分将为节点和边缘的表示提供基础。2) 解开混杂,通过引入两个损失函数,得到因果图和琐碎图,这两者都将有助于更好地理解数据。3) 进行因果干预,通过后门调整公式得到因果干预图,这将进一步提高模型的准确性。
1. 从因果视角分析GNN
结构因果模型(Structural Causal Model, SCM) [10]是一种采用因果关系描述变量之间相互作用的理论构造,其主要任务是揭示变量间的因果连接。SCM展现了其作为一种顺序性、有序性和预测性强的模型的独特优势,能够准确、直观地展现各个变量间的因果路径,为因果关系的理解和描述提供了清晰的思路。在GNN中,SCM在明确节点和边的因果信息传递对其他节点变量影响方面发挥着关键作用。
分析GNN的有效性和可解释性,需要从因果视角出发。因果关系是数据变量之间的根本联系,它决定了数据之间的流动和转变,对理解模型内部的运行机制,以及改善模型的表现有重要价值。在乳腺癌图像分类的研究中,因果视角提供了一种新的分析和理解图像数据的方法。
图神经网络模型框架中,本文将图像通过超像素方法转化为图数据G,同时,定义了两类特征:因果特征C和快捷特征S。其中,因果特征C反映了图像的本质属性,即真正与乳腺癌关联的特征;而快捷特征S则是由数据的偏差或简单模式产生的特征,它不反映图像的本质属性。根据变量之间的关系构建结构因果模型,如图1所示。
Figure 1. Structural causal model for classification
图1. 图分类的结构因果模型
此模型揭示了五个重要变量在图数据G、因果特征C、快捷特征D、图表示R以及预测Y之间的因果关系。
然而,在GNN模型中,因果特征C和快捷特征D是同时存在的,这导致了在C和预测结果Y之间存在一个后门路径
。这条路径对于模型分析结果产生了混淆,即使C与Y没有直接关系,由于D的参与,也会使C与Y产生假的相关性。
为解决这个问题,策略主张阻断这个后门路径。精确地说,试图训练模型更多地关注和利用反映图像本质属性的因果特征C,而不是依赖于偏差的快捷特征D。这样,即使存在后门路径,模型也能更加准确地对乳腺癌图像进行分类。
2. 后门路径及调整
研究表明,当前的注意力机制[11]学习方法容易利用快捷特征做出决策。因此,快捷特征可以理解为混杂因素,因为它们在模型训练中可能会与真正的因果特征混淆。有研究者提出了一种针对混杂因素的解决方案,即使用因果干预来消除混淆效应[12]。由于混杂因素本身通常是无法直接被观察到或测量到的,因果理论提供了可能的解决方案,即通过对变量C进行do-calculus,来估计
,从而消除后门路径,以实现图的表示学习。
通过对特定的变量进行干预,可以理解它对其他变量的影响。利用边际概率
的不变性,因为它不会因为切断后门路径而受影响,所以有
。同时条件概率
也是不变的,因为Y对C和D的反应与C和D之间的因果关系无关,所以有
。显然,在因果干预下,C和D是独立的,有
。
根据以上条件,可以得到如下公式:
(1)
其中,
代表混杂变量集,
表示在给定因果特征C和混淆因素d的条件下的概率;而
则是表示混淆者的先验概率。公式(1)称为“后门调整”,这是一种强大的工具,有助于消除混淆效应。
3. 因果–平凡注意力图
给定一个图
,为图结构和节点特性制定软掩码,分别为
和
。在它们中,每一项代表对感兴趣的任务所相关的注意力分值,通常在
范围内。对于任意的掩码M,定义它的互补掩码为
,在此情况下,1是全一矩阵。因此,可以将完整图G分解为两个被关注的图:
和
。
现有研究[13]支持,对于图的分类标签,通常是由图中的因果部分决定的。比如乳腺癌数据集中的一个例子,样本的恶性或良性特性可能取决于特定基因的存在与否。给定一个图G,将收集所有因果特征的被关注图定义为因果被关注图
,同时,其他部分构成了非因果被关注图
。然而,在真实世界的应用场景中,通常无法获得确切的因果关系图。
4. 因果图注意力机制(CA-GAT)
为了实现上述的后门调整,本文提出了一种基于乳腺癌数据集的因果发现注意力图神经网络(CA-GAT),这个网络的总体框架如图2所示。
Figure 2. CA-GAT framework diagram
图2. CA-GAT框架图
(1) 软掩膜的计算
CA-GAT模型通过软掩码估计模块,为每个节点和边分配注意力得分,这些得分反映了节点或边对分类任务的重要性。具体来说,高注意力权重表示模型对该节点或边在因果特征提取中的强关注,低权重则表示其贡献较小。通过这种方式,软掩码不仅实现了因果特征与快捷特征的分离,还为分析模型的决策过程提供了直观依据。要进行有效的因果干预,首先需要从完整的图中分离出因果和快捷特征。为此,本文使用了注意力模块,它产生了因果部分和琐碎部分两个分支。给定一个基于GNN的编码器
和一个图
,由此可以获得节点表示:
(2)
然后采用两个多层感知器(MLPs):
和
来从两个正交视角:节点级别和边级别来估计注意力得分。对于节点
和边
可以得到:
(3)
(4)
其中
是softmax函数,
表示拼接操作;
,
表示节点级注意力得分,对应因果注意图的节点
和边
;类似地,
,
是对琐碎注意图的表示。请注意
和
。这些注意力得分表明了模型在对应的注意力图中对每个节点或边的关注程度。现在可以基于注意力得分
,
,
和
来构造软掩膜
,
,
和
。最后将原始图G分解为初始的因果注意力图和琐碎注意力图:
和
。
在图像分类任务中,因果特征是那些与分类目标存在因果关系的关键属性,反映了图像的本质属性;而快捷特征是由数据偏差或简单模式产生的非本质特征。为了实现对两类特征的有效分离,CA-GAT模型引入软掩模估计模块,通过注意力机制对节点和边赋予权重,生成两种注意力图——因果关注图和快捷关注图。节点和边的注意力权重分布被设计为:高权重部分对应因果特征,低权重部分对应快捷特征。
(2) 解纠缠
为进一步确保因果特征和快捷特征的有效分离,CA-GAT模型设计了基于KL散度的损失函数。KL散度损失将快捷关注图的注意力分布约束为均匀分布,从而避免快捷特征主导分类任务。同时,因果关注图的损失函数被设计为基于监督标签的分类损失,以确保模型对因果特征的高效学习。这种双重优化策略实现了因果特征与快捷特征的解纠缠,增强了模型的分类能力和泛化性能。这一阶段的目标是通过计算初始的软掩模,建立初始参与图。为了构建因果图和琐碎关注图,可以分别借助GNN模块来获取参与图的表示。然后用读出函数及分类器来预测输入图的类别。
(5)
(6)
其中,因果参与图主要用途是估计因果特征,其表示可以被分类为真实标签。因此,监督损失在图分类问题上的定义可以为:
(7)
与此同时,琐碎参与图被设计为尽可能地接近非因果特性。因此,对于所有已知的分类,都可以激发琐碎参与图的预测,并在图分类问题上定义统一损失为:
(8)
其中,KL代表KL散度,
代表均匀分布。通过优化上述两个目标,可以实现因果特征与琐碎特征的分离。然而,现实世界的图数据存在噪声,使得因果部分和标签之间的相关性要比完整图和标签之间的相关性更为突出。此外,由于琐碎模式的存在,通过上述解纠缠方法所得到的因果关注图可能不会最终收敛到完整图。
(3) 因果干预
在考虑因果图神经网络中因果干预的处理方式时,本文专注于后门调整的应用策略。后门调整是将混杂因素进行分层处理,并将目标因果关注图与琐碎关注图的每一层配对,形成“干预图”,进而有效削弱混杂效应。
然而,面临的主要挑战是图数据的不规则性,这阻止了我们在数据层面进行直接干预。因此,本文引入了一种新颖的后门调整策略用于解决这一问题,即隐式地在表示层面进行干预。
隐式干预通过以下式子实现:
(9)
它定义了隐式干预图
在分类器
中的预测值;
是由目标因果关注图
得到的表示;
是指琐碎关注图每一层的表征(也就是每一层在网络中的位置和状态),而这一层被称为分层
。
当构建了隐式干预图后,就可以计算出所谓的因果干预损失,它被定义为:
(10)
在这个公式中,
代表琐碎关注图的估计分层集合。
可以看出,采取了将每个层级的因果关注图、
与琐碎关注图
相加的方式进行隐式干预,这种方法同时也确保了在不同层级做出的预测保持稳定。这主要归功于因果特征的共享性。
最后,将总损失定义为监督损失、统一分类损失和因果干预损失的加权和。其中,权重
和
是超参数,可以调整以控制解缠和因果干预的程度。总损失为:
(11)
这样的设置为网络提供了有效的学习目标,从而可以有效地解缠因果特征和琐碎特征。
3. 实验
3.1. 数据集
BreaKHis (Breast Cancer Histopathological Image Dataset)数据集[14]是一个广泛用于乳腺癌图像分类研究的数据集,特别适用于深度学习和计算机视觉领域。该数据集由巴西的医学研究团队收集和提供,旨在为乳腺癌的自动化诊断提供支持。BreaKHis数据集包含了多种乳腺肿瘤的组织学切片图像,涵盖了不同类型的癌症组织,从良性肿瘤到恶性肿瘤,包括不同的组织学特征。BreaKHis数据集包括了约7000张乳腺癌组织学图像,分辨率为700 × 460像素。这些图像来自于多种不同类型的肿瘤,且每种类型的肿瘤都有多张样本图像。其中每张图像都被标注为良性或恶性肿瘤,并细分为多种亚型。这些图像通过显微镜拍摄,并经过病理学专家的标注和分类。在本研究中,BreaKHis数据集将作为乳腺癌图像分类任务的基准数据集,以评估提出的方法在肿瘤分类准确性和效率方面的表现。
3.2. 数据预处理
在本研究中,为了提高模型的计算效率并有效降低维度,采用了超像素分割算法对BreaKHis数据集中的乳腺癌图像进行预处理。超像素方法[15]将图像划分为一组具有一致颜色和纹理的区域,每个区域包含若干个像素,这样既能减少冗余信息,又能保留图像的结构特征。具体的预处理过程如下所述:
1) 超像素分割
本研究使用SLIC (Simple Linear Iterative Clustering)算法[16]对每张原始图像进行超像素分割。该算法通过聚类将图像划分为多个小区域(即超像素),每个超像素区域包含一定数量的像素,通常为几十到几百个像素。SLIC算法能够根据图像的颜色和空间信息进行聚类,保证每个超像素具有较高的空间一致性和视觉连贯性。
2) 像素强度归约
对每个超像素区域,通过计算该区域内所有像素的平均强度值,对图像进行像素强度的归约处理。具体来说,对于每个超像素,取其内部所有像素的强度进行加权平均,从而得到该超像素的代表性像素值。此步骤相当于池化操作,既能减少图像的分辨率,又能保留图像的关键视觉特征。
3) 图结构转化
完成超像素分割和像素强度归约后,将每张图像转化为图结构数据。每个超像素被视为图中的一个节点,节点之间的连接关系依据其空间邻接性建立。具体来说,相邻的超像素节点通过边连接,边的权重则基于节点间的相似度来计算。通过这种方法,图像中的空间关系和局部特征得以有效地转化为图结构,进而为后续的图神经网络处理提供了有效的输入。
通过上述数据预处理步骤,原始图像被转化为图结构数据,如图3所示,能够更好地适应因果图注意力机制进行高效的特征学习和分类任务。颜色较深的节点表示注意力分数较高,它进一步表明,所提出的模型可以有效地捕捉因果特征。为了验证CA-GAT模型在分类任务中的可解释性,我们对高注意力得分的节点和边进行了统计分析,并结合乳腺癌病理学领域知识进行了验证。实验发现,以下因果特征对分类结果影响最大:肿瘤细胞核的密度。肿瘤细胞核分布密集的区域往往被赋予了较高的注意力权重,这是由于该特征反映了病变区域的活跃程度,与分类标签密切相关。
Figure 3. Example of super pixel image corresponding to breast cancer image transformation
图3. 乳腺癌图像转化对应超像素图示例
3.3. 基线方法
在本实验中比较了四种不同的图神经网络模型的分类性能,包括:
a) GAT (Graph Attention Network):图注意力网络[17],通过自注意力机制对节点之间的关系进行加权,能够有效捕捉图中的重要连接信息。
b) GCN (Graph Convolutional Network):图卷积网络[18],通过卷积操作在图结构数据上进行特征传播,已广泛应用于图分类任务。
c) GIN (Graph Isomorphism Network):图同构网络[19],通过优化图卷积过程,能够更好地捕捉图结构的同构性质。
d) CA-GAT (Causal Attention Graph Attention Network):在GAT的基础上引入了因果图注意力机制,能够基于节点之间的因果关系进行更精确的特征学习。
3.4. 实验指标
a) 精确度(Accuracy)
精确度是最常用的分类模型评估指标之一,表示模型在所有样本中正确分类的比例。对于二分类问题,公式为:
精确度越高,表示模型越好。但在数据不平衡的情况下,精确度可能不能完全反映模型的真实表现,因为即使模型大多数预测为某个类别,也可能达到较高的精确度。
b) 混淆矩阵(Confusion Matrix)
混淆矩阵是一种常用于分类任务中评估模型表现的工具,它通过对比模型的预测结果与真实标签来呈现分类性能。对于二分类问题,混淆矩阵通常由四个部分组成,如表1所示:
True Positive (TP):真实标签为正类,且预测为正类的样本数。
True Negative (TN):真实标签为负类,且预测为负类的样本数。
False Positive (FP):真实标签为负类,且预测为正类的样本数(假阳性)。
False Negative (FN):真实标签为正类,且预测为负类的样本数(假阴性)。
Table 1. Binary classification confusion matrix
表1. 二分类混淆矩阵
|
预测正类 |
预测负类 |
实际正类 |
TP |
FN |
实际负类 |
FP |
TN |
c) ROC曲线(Receiver Operating Characteristic Curve)
ROC曲线是评估二分类模型表现的图形工具,它通过计算不同阈值下的真阳性率(TPR)和假阳性率(FPR)来展示模型的分类能力。
TPR (True Positive Rate,真阳性率):也称为召回率,表示真实为正的样本中,预测为正的比例。
FPR (False Positive Rate,假阳性率):表示真实为负的样本中,预测为正的比例。
ROC曲线的X轴为FPR,Y轴为TPR。理想的分类器应该在(0, 1)的坐标上接近左上角。
d) F1分数(F1 Score)
F1分数是精确度(Precision)和召回率(Recall)的调和平均,用于综合衡量模型在正类上的表现。F1分数在样本类别不均衡时尤为重要,因为它考虑了假阳性和假阴性的影响。
精确度(Precision):表示所有预测为正类的样本中,真实为正类的比例。
召回率(Recall):表示所有真实为正类的样本中,预测为正类的比例。
F1分数:是精确度和召回率的调和平均,公式为:
F1分数的取值范围是0到1,1表示最好的分类性能,0表示最差。
3.5. 参数敏感性分析
Figure 4. Parameter sensitivity of loss function
图4. 损失函数的参数敏感性
损失系数和可以调整以控制解缠和因果干预的程度,我们固定一个系数为0.5,改变另一个系数,步长为0.1。实验结果如图4所示。可以发现,在0.4~0.8的范围内取得了较好的性能,过小或过大的值都会造成性能下降,而且不稳定。最后综合考虑,将λ1设置为0.8,将λ2设置为0.5。
3.6. 实验结果
表2展示了不同模型在BreaKHis数据集上的分类精度表现。传统模型如GAT和GCN分别取得了77.5%和79.5%的分类精度,而基于深度学习的Inception-v3 CNN模型表现显著优于前者,达到了93%的精度。相比之下,GIN和结合传统机器学习方法的CNN + SVM模型表现得相对逊色,其精度分别为73.5%和83.3%。实验结果表明,CA-GAT模型在BreaKHis数据集上取得了93.8%的分类精度,显著优于其他传统GNN模型。这种性能提升主要得益于模型能够有效分离因果特征与快捷特征,从而减少了后者对分类任务的干扰。注意力机制的引入使模型更关注图像中的关键区域,这些区域通常反映了乳腺癌病变的本质特性。
Table 2. Breast cancer image classification model accuracy comparison
表2. 乳腺癌图像分类模型精确度对比
模型 |
精确度(%) |
GAT |
77.5 |
GCN |
79.5 |
GIN |
73.5 |
CNN + SVM [14] |
83.3 |
Inception-v3 CNN [20] |
93 |
CA-GAT |
93.8 |
Figure 5. Comparison of normalized confusion matrices for various model classifications
图5. 各模型分类的归一化混淆矩阵比较
图5展示了四个模型在乳腺癌二分类任务上的混淆矩阵结果。在CA-GAT模型中,真实为Benign的样本有96%被正确预测为Benign,而真实为Malignant的样本有91%被正确预测为Malignant,显示了CA-GAT模型的出色分类性能。通过对比可知,CA-GAT在分类精度和误分类率方面均优于其他模型,表明其在BreaKHis数据集上的乳腺癌分类任务中具有明显的性能优势。
图6中的每条曲线代表了相应模型的真正例率与假正例率之间的关系。曲线越接近左上角,表示模型的性能越好。从图中可以看出,CA-GAT模型的ROC曲线最为突出,它在所有模型中具有最高的AUC值,达到了0.9863,显示出其在区分良性和恶性乳腺癌图像方面具有最佳性能。结果表明,CA-GAT模型通过结合注意力机制和改进的图结构表示,显著提高了模型的判别能力,这对于提高乳腺癌图像分类的准确性具有重要意义。
Figure 6. Comparison of ROC curves
图6. ROC曲线比较
Figure 7. Comparison of F1 scores
图7. F1分数比较
随着训练过程的推进,模型在测试集上的表现也会发生变化。为了检验这一过程,记录了模型在测试集上的F1分数,并观察它们的变化。F1分数是衡量模型分类准确性的重要指标之一。图7展示了Micro F1分数和Macro F1分数的结果。这种趋势反映了模型性能的逐步优化和最终稳定。图6(b)中的Macro F1分数变化趋势与Micro F1分数相似,但各模型之间的分数差异更为明显。CA-GAT模型依然保持领先,而GAT模型的Macro F1分数相对较低。这可能意味着不同模型在不同类别上的平衡性能存在差异,Macro F1分数更注重类别间的平衡,因此对于不平衡数据集更为敏感。
4. 结论
本研究提出了一种基于因果图注意力机制的乳腺癌图像分类模型CA-GAT。通过在BreaKHis数据集上的广泛实验,验证了CA-GAT模型在乳腺癌图像分类任务中的优越性能。与现有的图神经网络(GNN)模型相比,CA-GAT在处理快捷特征与因果特征的混杂关系方面表现出显著优势,这主要得益于其创新的软掩模估计、混杂解开和因果干预机制。实验结果表明,CA-GAT模型达到了93.8%的分类精度,这一结果明显优于其他传统GNN模型和深度学习模型。此外,Micro F1分数和Macro F1分数的评估进一步证明了CA-GAT在分类准确性和类别间平衡性能上的卓越表现。本研究提出的CA-GAT模型通过因果干预策略有效分离了因果特征和快捷特征。在乳腺癌图像分类任务中,这种分离机制使模型能够更专注于与病变相关的关键区域,避免了因快捷特征引发的分类偏差。这一方法不仅显著提高了分类准确性,还验证了因果干预在复杂图像分类任务中的潜在应用价值。
NOTES
*通讯作者。