基于跨模态注意力的皮肤病图像分割增强方法

doi:10.12677/mos.2025.144355

期刊菜单

基于跨模态注意力的皮肤病图像分割增强方法
Skin Lesion Image Segmentation Enhancement Method Based on Cross-Modal Attention

DOI: 10.12677/mos.2025.144355, PDF, HTML, XML,
作者: 苏凡军^*, 孟祥臣：上海理工大学光电信息与计算机工程学院，上海
关键词: 医学图像分割；Transformer；U-Net；跨模态学习；Medical Image Segmentation； Transformer； U-Net； Cross-Modal Learning

摘要: 精确的皮肤病灶分割在临床精准诊疗中至关重要。然而，现有方法主要依赖单模态影像数据，难以有效应对皮肤病灶形态的多样性和复杂病例中的语义模糊性问题。为此，本研究提出跨模态注意力引导的皮肤病灶分割网络(CMG-Net)，通过跨模态信息融合突破传统方法的性能瓶颈。该网络构建了跨模态数据协同机制，整合临床文本描述(包括病灶颜色、边界特征等语义信息)与视觉特征，实现跨模态信息的深度融合。并设计基于Transformer架构的跨模态特征融合模块(CMFM)，该模块通过双流交叉注意力机制实现视觉–语义特征的高效对齐与互补性交互。其中文本分支采用预训练语言模型提取深层语义表征，视觉分支通过动态参数共享策略实现模态特异性特征提取。在公开皮肤影像数据集ISIC2017上的实验结果表明，CMG-Net在复杂病例分割任务中显著优于现有单模态方法，尤其在形态相似病灶的鉴别任务中，IoU与Dice系数分别提升4.2%和4.3%。

Abstract: Accurate segmentation of skin lesions is crucial for clinical precision diagnosis and treatment. However, existing methods primarily rely on single-modal imaging data, which struggle to effectively address the diversity of skin lesion morphology and the semantic ambiguity in complex cases. To overcome these limitations, this study proposes a Cross-Modal Attention-Guided Skin Lesion Segmentation Network (CMG-Net), which breaks through the performance bottleneck of traditional methods by leveraging cross-modal information fusion. The network constructs a cross-modal data collaboration mechanism, integrating clinical textual descriptions (including semantic information such as lesion color and boundary features) with visual features to achieve deep fusion of cross-modal information. Additionally, a Transformer-based Cross-Modal Feature Fusion Module (CMFM) is designed, which utilizes a dual-stream cross-attention mechanism to enable efficient alignment and complementary interaction between visual and semantic features. In this module, the text branch employs a pre-trained language model to extract deep semantic representations, while the visual branch adopts a dynamic parameter-sharing strategy to achieve modality-specific feature extraction. Experimental results on the public skin imaging dataset ISIC2017 demonstrate that CMG-Net significantly outperforms existing single-modal methods in complex lesion segmentation tasks, particularly in distinguishing morphologically similar lesions, with improvements of 4.2% in IoU and 4.3% in Dice coefficient.

文章引用：苏凡军, 孟祥臣. 基于跨模态注意力的皮肤病图像分割增强方法[J]. 建模与仿真, 2025, 14(4): 1072-1084. https://doi.org/10.12677/mos.2025.144355

1. 引言

皮肤病已成为第四大非致死性全球健康威胁，每年影响超过9亿人，其中恶性黑色素瘤因其高侵袭性特征尤其值得关注。流行病学数据显示，恶性黑色素瘤的五年生存率呈现显著分期差异：早期诊断可达99%，而晚期病例骤降至25%以下[1]，这凸显了早期精准诊断的临床紧迫性。皮肤镜图像的形态学分析是主要诊断手段，但其准确性受到病灶边界模糊、颜色异质性等复杂特征的严重制约。多项研究[2]表明，传统人工标注存在显著局限性：不同医师的轮廓标注差异可达像素级误差15%~20%，而早期不典型病变的漏诊率高达30%。在此背景下，基于深度学习的自动分割技术通过量化病灶几何特征(如边缘锐利度、形态不对称指数)和纹理属性(如色素网络分布密度)，为建立标准化诊断体系提供了新范式。该技术不仅能实现病灶特征的客观量化，更可基于纵向分割数据构建疾病进展预测模型，对个性化治疗决策具有重要价值[3]。

以U-Net为代表的编码器–解码器架构推动了医学图像分割的首次突破，在ISIC2018数据集上实现了Dice系数0.91的里程碑性能[4] [5]。然而，传统卷积神经网络(CNN)受限于局部感受野特性，在建模病灶与正常组织间长程空间依赖关系时存在固有缺陷，导致其对弥散性病变(如边界模糊或浸润性生长类型)的分割精度下降12%~15% [6]。Transformer架构的引入开启了全局特征建模的新纪元：Vision Transformer (ViT)通过自注意力机制建立像素级全局关联，将黑色素瘤边界定位误差降至3.2像素，较U-Net提升41% [7]。Swin-Unet等混合架构创新性地融合分层窗口注意力机制，在保持计算效率的同时，将小病灶(直径 < 5 mm)检测灵敏度提升至93.7% [8]，标志着医学图像分割进入全局–局部特征协同优化阶段。

尽管单模态分割技术取得了显著进展，但其与实际临床应用之间仍存在差距。临床诊断实践表明，皮肤科医师的决策过程本质上是多模态信息整合过程：皮肤镜图像提供65%的诊断依据，病理描述文本贡献20% (如“非典型核分裂象”等关键表述)，而实验室指标则占据15% [9]。因此，跨模态医学图像分割得到了广泛关注，并取得了显著进展。现有方法主要聚焦于：1) 联合训练框架：Xie等人[10]通过图像–文本联合嵌入空间构建，提升皮肤病变检测精度；2) 动态融合机制：Li等人[11]设计自适应特征加权策略，增强模型鲁棒性；3) Transformer融合架构：Wang等人[12]利用跨模态自注意力实现异构数据对齐；4) 知识增强方法：Zhang等人[13]结合电子病历先验知识优化特征表示。尽管如此，该领域仍面临三重挑战：首先，医学文本存在语义稀疏性和冗余描述问题，Xu等人[14]发现冗余信息会导致分割精度下降；其次，图像–文本的异构性导致传统拼接方法产生显著的模态对齐误差[15]；最后，静态融合策略无法适应不同病例的模态贡献度变化，造成关键信息衰减[16]。

针对上述挑战，本文提出了一种基于Transformer的跨模态医学图像分割网络(CMG-Net)。该网络通过有效整合医学图像和文本信息，提升了医学图像分割的精度和泛化能力。主要包括：构建了跨模态医学图像分割网络，结合Transformer与CNN提取跨模态特征，增强了模型的表征能力；设计了高效的跨模态融合策略，利用自注意力机制对图像和文本特征进行动态加权，从而充分发挥医学文本在分割任务中的辅助作用；在多个公开医学数据集上进行实验，全面评估了所提出网络的有效性。

本文的主要贡献如下：

1) 提出了CMG-Net：一种基于Transformer的跨模态医学图像分割网络，能够充分融合图像和文本信息，提升分割精度；

2) 设计了跨模态特征融合模块(CMFM)：通过多头自注意力机制，在视觉和文本特征之间建立动态关联，实现更高效的信息交互；

3) 进行了实验验证：在多个公开医学影像数据集上的实验结果表明，CMG-Net相比现有网络在分割任务中取得了更优的性能。

2. 相关工作

与单模态的学习方法相比，跨模态学习能够更好地利用不同模态之间的互补性，进而提高任务的准确性和鲁棒性。近年来，跨模态学习在计算机视觉和自然语言处理领域取得了显著进展，尤其是在图像–文本联合建模任务中表现突出。例如，CLIP (Contrastive Language-Image Pretraining)通过对比学习策略，将图像和文本映射到同一语义空间，实现了高效的跨模态匹配[17]。类似地，ALIGN和BLIP等方法也在跨模态任务中取得了显著成果[18] [19]。

在医学领域，为了解决图像与文本信息的有效融合，研究者们提出了多种方法。例如，Jiang等人提出了一种跨模态联合训练方法，将图像和文本输入共享编码器，并通过跨模态协同优化进一步提高了病灶分割的准确性[20]。Zhang等人则探索了基于图像与电子病历文本联合训练的医学图像分割方法，利用医学领域的先验知识增强了特征表示的学习能力[13]。这些研究为跨模态医学图像分割方法的进一步发展提供了有力的支持。Xu等人提出了一种新的模态对齐方法，改进的自注意力机制增强了模态对齐精度，减少了文本描述中的语义误差对图像分割的影响[14]。同时，Yang等人通过跨模态特征融合与互信息最大化，成功解决了图像和文本信息在高维空间中的对齐问题，从而进一步提升了模型的性能[21]。此外，Chen等人提出了一个基于多模态图神经网络的跨模态融合框架，通过图结构建模图像与文本之间的关系，显著提高了多模态任务的处理能力[22]。这种方法为医学图像分割提供了新的思路，将图像和文本的信息通过图结构进行关联，进而提升了病变区域的识别精度。为了进一步提升图像和文本模态之间的交互效果，Li等人提出了一种基于双向注意力机制的跨模态融合方法，通过双向信息传递加强了图像和文本之间的关联性，显著提升了医学图像分割任务中的性能[11]。这种方法可以有效缓解传统单向注意力机制中信息传递不对称的问题，进一步改善分割精度。Huang等人则探索了基于生成对抗网络(GAN)的跨模态融合策略，通过生成模型增强了文本描述的图像生成能力，从而在低质量图像的情况下提供了更加准确的分割结果[23]。生成对抗网络的引入为处理不完整或噪声较多的医学图像提供了一种新途径，有效提高了分割的鲁棒性。

这些研究表明，跨模态融合方法在医学图像分割中取得了显著进展，但仍然面临着诸如模态对齐误差、文本信息冗余等挑战。尽管已有多种方法取得了初步成果，但如何更加精确地对齐图像和文本特征，减少冗余信息的干扰，如何设计动态的融合策略，根据具体任务需求灵活调整模态之间的贡献度，仍是跨模态医学图像分割中亟待解决的重要问题。

3. 方法

3.1. CMG-Net网络架构

CMG-Net (Cross-Modal Guided Network)的整体架构如图1所示，主要包括三个核心模块：

图像特征提取模块(U-Net + MASA)：基于U-Net架构，集成多轴自注意力机制(MASA)，通过卷积、池化和MASA处理逐步提取图像的多尺度特征，增强全局信息捕捉能力。

文本特征提取模块(BERT)：将元数据(如诊断类别、患者年龄等)转化为标准化文本描述，利用预训练BERT模型编码为固定维度的文本特征，为图像分割提供语义辅助。

跨模态特征融合模块(CMFM)：基于跨模态Transformer架构，通过自适应加权策略动态融合图像和文本特征，利用跨模态注意力机制计算模态间权重，提升分割精度。

Figure 1. Diagram of CMG-Net network architecture

图1. CMG-Net 网络架构图

3.2. 图像特征提取：U-Net + MASA

在图像特征提取阶段，本文采用了U-Net架构，并在编码器部分集成了多轴自注意力机制(Multi-Axis Self-Attention, MASA)，以增强模型对复杂病变区域的感知能力。如图2所示，编码器包括两层卷积操作，每层卷积核为3 × 3，并使用批归一化(BN)和ReLU激活函数进行处理。通过池化层进行下采样，逐步减少空间维度，提取更深层的语义特征。编码器部分进行四次下采样，以捕捉图像的多尺度特征。在最底层，使用MASA模块来增强模型的全局信息建模能力。

MASA的核心思想是通过在多个轴向上计算自注意力，捕捉图像中的多尺度特征信息。具体来说，MASA在水平、垂直和通道三个维度上分别计算自注意力，从而实现对图像特征的全局建模。其计算过程可以分为以下步骤：

MASA首先在水平、垂直和通道三个维度上分别计算自注意力。对于每个轴向，输入特征图被分解为对应的查询(Query, Q)、键(Key, K)和值(Value, V)，并通过点积计算注意力权重。具体公式如下：

$\begin{matrix} \begin{array}{l} {Attention}_{multi-axis} (Q, K, V) \\ = Concat ({Attention}_{horizontal} (Q, K, V), {Attention}_{vertical} (Q, K, V), {Attention}_{channel} (Q, K, V)) \end{array} \end{matrix}$ (1)

其中，Q、K和V分别表示查询(Query)、键(Key)和值(Value)。MASA通过这种方式从不同轴向捕捉图像的特征。

为了进一步优化注意力权重的分配，MASA引入了动态加权机制。该机制通过可训练权重矩阵对查询(Q)和键(K)进行线性变换，并利用Softmax函数生成动态权重。具体公式如下：

$\begin{matrix} {Attention}_{dynamic} = Softmax (\frac{(W_{1} Q) {(W_{2} Q)}^{T}}{\sqrt{d}}) \end{matrix}$ (2)

其中， $W_{1}$ 和 $W_{2}$ 为可训练权重矩阵，分别对查询(Query)和键(Key)进行线性变换，以动态调整不同轴向的注意力分配，d为缩放因子，通常用于平衡计算稳定性。通过动态加权机制，MASA能够根据输入特征自适应地调整不同轴向的注意力权重，从而更有效地捕捉图像中的关键信息。

最终，MASA将水平、垂直和通道三个维度上的注意力输出进行拼接(Concat)，并通过一个线性变换层融合多轴向的特征信息。这种多轴向的注意力机制不仅能够捕捉图像中的局部细节，还能建模远程依赖关系，从而提升模型对复杂病变区域的感知能力。

解码器部分进行四次上采样，逐步恢复图像的空间分辨率，并结合编码器的跳跃连接以恢复细节，最终输出图像特征 $F_{I}$ 。

通过结合U-Net和MASA，本文的图像特征提取模块不仅能够有效提取图像的多尺度特征，还能通过全局建模能力处理图像中的远程依赖关系，从而提升皮肤病灶的分割精度。

Figure 2. Image feature extraction module (U-Net + MASA)

图2. 图像特征提取模块(U-Net + MASA)

3.3. 文本特征提取：BERT编码与伪文本生成

本文利用数据集中的元数据(如诊断类别、患者年龄、病灶部位等)生成伪文本描述。如图3所示，生成过程包括以下几个步骤：

首先，利用每个病变的诊断标签生成标准化的文本描述。例如，对于诊断为“melanoma”(黑色素瘤)的图像，生成描述为：“Asymmetric lesion with irregular borders and multiple colors”，描述病变的形态特征。

为了将生成的文本描述转化为模型可以处理的特征向量，本文采用了预训练的BERT模型对伪文本进行编码。通过BERT的双向编码能力，文本信息被转换为固定维度的文本特征表示，这些特征将与图像特征进行融合，进一步提升分割效果。具体而言，文本特征的提取可以表示为：

$\begin{matrix} F_{T} = BERT (T) \end{matrix}$ (3)

其中， $F_{T}$ 表示通过BERT模型生成的文本特征表示，T为输入的伪文本描述。这些文本特征将与图像特征 $F_{I}$ 一起输入模型进行融合，以增强模型的表征能力和分割精度。

Figure 3. Text feature extraction module (BERT)

图3. 文本特征提取模块(BERT)

3.4. 跨模态特征融合：图像与文本信息的动态加权融合

如图4所示，在跨模态特征融合模块(CMFM)中，输入分为图像和文本两部分。图像特征输入的形状为 $F_{I} \in R^{H \times W \times C}$ ，其中H × W为图像的空间维度，C为通道数(如RGB图像中的3个通道)。这些图像特征会通过卷积操作和多轴自注意力机制进行处理，从而捕捉到病灶区域和背景的细节。文本特征输入的形状为 $F_{T} \in R^{L \times D}$ ，其中L是文本的序列长度，D是文本的嵌入维度。文本特征来自于BERT模型，生成的嵌入向量会在后续的跨模态特征融合模块中进行处理。

图像特征和文本特征经过Transformer的跨模态注意力机制进行交互计算。

计算流程为：

1) 文本查询( $Q_{T}$ )：文本特征通过线性投影生成文本查询向量 $Q_{T}$ ，其形状为 $R^{L \times D}$ 。

2) 图像键( $K_{I}$ )和值( $V_{I}$ )：图像特征通过卷积操作映射生成图像键向量 $K_{I}$ 和图像值向量 $V_{I}$ ，形状为 $R^{H \times W \times C}$ 。

3) 计算注意力权重：使用文本查询 $Q_{T}$ 和图像键 $K_{I}$ 计算注意力权重，公式为：

$\begin{matrix} {Attention}_{cross-modal} (Q_{T} , K_{I}, V_{I} ) = Softmax (\frac{Q_{T} K_{I}^{T}}{\sqrt{d^{k}}} ) V_{I} \end{matrix}$ (4)

其中， $d^{k}$ 是键向量的维度，Softmax操作用于归一化计算出的注意力权重。

4) 动态加权融合：为进一步优化融合过程，采用自适应加权策略对图像特征和文本特征进行动态融合。通过全连接层生成动态权重 $α \in [0, 1]$ ，并计算加权输出，公式如下：

$\begin{matrix} α = σ (f_{α} ([A_{cross} ; F_{I} ; F_{T} ])) \end{matrix}$ (5)

$\begin{matrix} F_{fusion} = α \cdot F_{I} + (1 - α) \cdot A_{cross} \end{matrix}$ (6)

其中， $A_{cross}$ 是跨模态注意力输出，α是自动学习得到的加权系数，能够根据任务需求动态调整图像和文本的贡献。

5) 多层次特征对齐：随后，多个层次的Transformer模块被堆叠使用，进一步融合图像和文本特征。这些Transformer层包括跨模态自注意力(Intra-modal SA)、跨模态交叉注意力(Inter-modal CA)和前馈网络(FFN)。特征经过每一层的处理，逐渐从低分辨率到高分辨率演变，细节从模糊到清晰，从而提升模型对细粒度信息的识别能力，尤其在复杂病例和相似病灶的区分任务中，能够有效提高分割精度。

Figure 4. Cross-modal feature fusion module (CMFM)

图4. 跨模态特征融合模块(CMFM)

跨模态注意力机制通过计算文本特征与图像特征之间的相关性，动态生成注意力权重，从而调整图像特征的表示。相比于传统的特征拼接或简单加权求和，注意力机制能够自适应地调整文本和图像特征的贡献，避免冗余信息的干扰。此外，注意力机制还可以在多尺度上融合特征，捕捉病变区域的全局语义信息和局部细节。例如，在低分辨率特征图中，注意力机制可以捕捉病变的整体位置和范围；而在高分辨率特征图中，注意力机制可以聚焦于病变的边界和纹理细节。这种多尺度融合能力对于皮肤病图像分割尤为重要，因为皮肤病病变通常具有多样化的形态和尺度。

动态加权策略进一步提升了跨模态特征融合的效果。传统的固定权重方法无法适应不同输入数据的特性，而动态加权策略通过一个可学习的网络生成加权系数，根据图像和文本的特征动态调整权重分配。在皮肤病图像分割中，当病变边界模糊或颜色与周围皮肤相似时，模型可以增加文本信息的权重，利用文本中的语义信息(如“边界不规则的红色斑块”)辅助分割；而在病变区域清晰可见时，模型可以更多地依赖图像信息。这种自适应性使模型能够更好地应对皮肤病图像的复杂性和多样性。此外，动态加权策略还能够根据上下文信息调整权重分配。例如，在文本描述中提到“伴有鳞屑的斑块”时，模型可以增强图像中鳞屑区域的特征表示，从而更准确地分割病变区域。

4. 实验

4.1. 数据集与实验设置

本实验使用了ISIC 2017和ISIC 2018数据集，这两个数据集是皮肤病灶分析挑战赛的一部分，主要针对黑色素瘤的检测。ISIC 2017数据集包含2000张训练图像、150张验证图像和600张测试图像；ISIC 2018数据集由2594张RGB皮肤病变图像组成，涵盖了不同分辨率的多种皮肤病变类型。由于这两个数据集的图像分辨率不一致且样本数量相对较少，为了增加数据样本的多样性并缓解网络训练过程中的过拟合问题，本文对数据集进行了扩充处理。

具体而言，首先对每幅原始图像进行8种不同方向的旋转，旋转角度为从0˚到360˚，步长为45˚；接着，对旋转后的图像分别进行高斯模糊和RGB通道平移处理，生成更加多样化的图像样本。通过上述操作，每幅图像可以扩充为24幅不同的图像(包括旋转的8幅图像、旋转后经高斯模糊处理的8幅图像以及旋转后经RGB平移处理的8幅图像)。为了保持图像的形状和纹理信息不失真，在所有扩充图像上进行了中心裁剪并将图像缩放为256 × 256像素。最后，扩充后的数据集按照8:1:1的比例随机划分为训练集、验证集和测试集，分别用于模型的训练、验证和最终评估。

4.2. 实验环境

所有实验均在Python 3.10.13环境下运行，使用PyTorch 2.0.0和CUDA 11.8库进行深度学习模型的实现。为了确保实验的公平性，所有网络的学习率统一设定为0.01，并采用随机梯度下降(SGD)优化器，动量参数为0.0001，批量大小设定为24。整个训练过程共进行了400轮迭代。为了平衡模型的分类精度和分割精度，本文在训练过程中使用了Dice系数损失和交叉熵损失的组合，权重均设置为0.5。所有实验均在搭载32 GB显存的Nvidia Tesla V100 GPU上进行，确保了高效的训练和推理过程。

4.3. 评价指标

为了评估所提出的CMG-Net的性能，平均Dice相似系数(DSC)、交并比(IoU)、精确度(Precision)、召回率(Recall)和F1分数被用作主要评价指标。其中，TP (真阳性)和TN (真阴性)分别表示正确分割出的皮肤病变和背景像素的数量，FP (假阳性)表示被错误标记为皮肤病变的背景像素数量，FN (假阴性)表示被错误预测为背景的皮肤病变像素数量。这些评估指标的值范围在0到1之间，数值越接近1，表示分割效果越好，反之亦然。DSC、IoU (交并比)、精确度、召回率和F1分数的计算公式如下：

$\begin{matrix} DSC = \frac{2 \times TP}{2 \times TP + FP + FN} \end{matrix}$ (7)

$\begin{matrix} IoU = \frac{TP}{TP + FP + FN} \end{matrix}$ (8)

$\begin{matrix} Precison = \frac{TP}{TP + FP} \end{matrix}$ (9)

$\begin{matrix} Recall = \frac{TP}{TP + FN} \end{matrix}$ (10)

$\begin{matrix} F1-Score = \frac{2 \times Precison \times Recall}{Precison + Recall} \end{matrix}$ (11)

4.4. 结果分析

4.4.1. 在ISIC2017上的实验结果

根据在ISIC2017数据集上的实验结果(见表1)，CMG-Net在所有评估指标(IoU、Dice系数、Precision、Recall和F1-score)中均表现最佳，尤其在低对比度病变和复杂背景干扰情况下，显著提升了分割精度。与传统的U-Net和其他基于Transformer的模型相比，CMG-Net通过跨模态融合图像和文本信息，有效弥补了图像特征的不足，提升了模型在细粒度特征提取和复杂病例处理中的表现。具体来说，CMG-Net在IoU和Dice系数上分别提高了4.2%和4.3%，在Precision和Recall上的提升也明显，表明模型在病变区域的精准定位和有效识别能力。从图5的可视化结果可以看出，CMG-Net在低质量或纹理模糊的医学图像上仍能准确分割病变区域，减少误检和漏检，进一步验证了跨模态特征融合的有效性，提高了模型的鲁棒性和泛化能力。

Table 1. Results of different networks on the ISIC2017 dataset

表1. 不同网络在ISIC2017数据集上的结果

Network	IoU	Dice	Precision	Recall	F1-score
U-Net	0.75	0.80	0.78	0.72	0.75
TransUNet	0.77	0.81	0.79	0.75	0.77
Swin-Unet	0.80	0.84	0.82	0.78	0.80
MedCLIP	0.79	0.83	0.81	0.76	0.78
CMG-Net	0.84	0.88	0.86	0.82	0.84

4.4.2. 在ISIC2018上的实验结果

在ISIC2018数据集上的实验结果中(见表2)，CMG-Net在所有评估指标上均表现卓越。这表明，CMG-Net通过跨模态信息的有效融合，显著提高了皮肤病变分割的精度和鲁棒性，尤其在处理复杂病例和低对比度病变时，展现出强大的性能。MedCLIP紧随其后，表现也非常优秀，尤其在精确度和召回率上接近CMG-Net，进一步验证了跨模态学习在医学图像分割中的重要作用。Swin-Unet的表现较为稳定，尤其在捕捉局部细节方面有所突出，尽管略逊于MedCLIP，但在整体性能上仍表现良好。TransUNet在IoU和Dice系数上表现优秀，但在精确度和召回率上略逊于MedCLIP和CMG-Net。U-Net作为经典网络，尽管在医学图像分割中得到广泛应用，但与更复杂的网络(如CMG-Net)相比，尤其在处理复杂背景和细粒度病变时，性能稍显不足。从图6的可视化结果可以看出，CMG-Net在医学图像分割任务中表现最为突出，特别是在复杂背景和低对比度病变区域，通过融合图像和文本信息，有效提升了分割精度。

Table 2. Results of different networks on the ISIC2018 dataset

表2. 不同网络在ISIC2018数据集上的结果

Network	IoU	Dice	Precision	Recall	ACC
U-Net	0.76	0.84	0.80	0.78	0.79
U-Net++	0.80	0.87	0.83	0.81	0.82
TransUnet	0.81	0.88	0.84	0.83	0.84
MedCLIP	0.84	0.90	0.86	0.85	0.85
CMG-Net	0.88	0.92	0.90	0.88	0.89

4.4.3. 消融实验

在本实验中，我们对CMG-Net模型进行了消融实验，评估了不同模块对性能的影响(见表3)。表格中的“(w/o)”表示去除该模块后的实验结果。首先，基准模型U-Net的性能较低，IoU为76.5%，Dice为84.2%，精度为85.1%，召回率为78.3%，准确率为87.4%。而CMG-Net (完整模型)通过融合图像和文本特征，显著提升了性能，IoU达到82.3%，Dice为89.7%，精度为87.8%，召回率为84.1%，准确率为91.2%。可视化效果如图7所示。以下是对各模块的详细分析：

1) 多轴自注意力机制(MASA)的贡献

去除MASA模块(CMG-Net w/o MASA)后，模型的性能显著下降，IoU降至80.1%，Dice为88.3%，精度为85.9%。这表明MASA在图像特征建模中起到了关键作用。MASA通过在水平、垂直和通道三个维度上计算自注意力，能够捕捉图像中的多尺度特征信息，尤其是在复杂背景和低对比度病变区域中，MASA能够增强模型对全局信息的建模能力。

2) 文本特征的贡献

去除文本特征(CMG-Net w/o Text)后，模型的性能进一步下降，IoU降为79.3%，Dice为86.9%，精度为84.2%。这表明文本特征在分割任务中起到了重要的辅助作用。文本信息提供了高层次的语义线索，例如病变类型、位置和严重程度，这些信息能够弥补图像特征的不足，尤其是在低质量或模糊图像中。

3) 跨模态特征融合模块(CMFM)的贡献

去除跨模态融合模块(CMG-Net w/o CMFM)后，模型的性能显著下降，IoU降至78.9%，Dice为86.7%。这表明跨模态特征融合对模型的鲁棒性和精度提升至关重要。CMFM通过动态加权策略自适应地融合图像和文本特征，避免了简单拼接或固定权重方法的局限性。

4) 自适应加权机制(α)的贡献

去除自适应加权机制(CMG-Net w/o α)后，模型的性能略有下滑，IoU为80.7%，Dice为87.5%。这表明自适应加权机制在优化图像和文本特征的融合中起到了重要作用。自适应加权机制通过动态调整图像和文本特征的权重，能够根据输入数据的特性合理分配两种模态的贡献。例如，在病变边界模糊的情况下，模型会增加文本特征的权重，而在病变结构明显时，模型会更多地依赖图像特征。

Table 3. Ablation results of different modules

表3. 不同模块的消融实验结果

Network	IoU	Dice	Precision	Recall	ACC
Baseline (U-Net)	76.5	84.2	85.1	78.3	87.4
CMG-Net	82.3	89.7	87.8	84.1	91.2
CMG-Net w/o MASA	80.1	88.3	85.9	81.7	89.8
CMG-Net w/o Text	79.3	86.9	84.2	80.3	88.5
CMG-Net w/o CMFM	78.9	86.7	83.5	79.9	87.7
CMG-Net w/o α	80.7	87.5	85.2	81.0	88.9

5. 结束语

本文提出的CMG-Net通过结合多轴自注意力机制(MASA)和跨模态特征融合模块(CMFM)，为跨模态医学图像分割提供了新的思路。实验结果表明，CMG-Net在多个评估指标上优于现有主流网络，尤其在低对比度病变区域和复杂病例中表现更为突出。相比传统医学图像分割方法，CMG-Net在IoU和Dice系数上分别提高了4.2%和4.3%，尤其在低对比度病变区域的分割精度明显提高，解决了传统方法在此类区域分割不精确的问题。

(a) Input images; (b) CMG-Net; (c) Groundtruth; (d) U-Net; (e) Trans-UNet; (f) Swin-UNet; (g) MedCLIP.

Figure 5. ISIC2017 Comparison of skin disease image segmentation results

图5. ISIC2017皮肤病图像分割结果可视化对比

(a) Input images; (b) CMG-Net; (c) Groundtruth; (d) U-Net; (e) Trans-UNet; (f) Swin-UNet; (g) MedCLIP.

Figure 6. ISIC2018 Comparison of skin disease image segmentation results

图6. ISIC2018皮肤病图像分割结果可视化对比

(a) Input images; (b) Ground Truth; (c) CMG-Net; (d) Baseline; (e) w/o MASA; (f) w/o Text; (g) w/o CMFM; (h) w/o α.

Figure 7. Visualization of ablation analysis of key modules in CMG-Net

图7. CMG-Net关键模块消融分析的可视化

这种提升归因于CMG-Net成功引入了跨模态特征融合模块(CMFM)和多轴自注意力机制(MASA)。这两者有效结合了图像的局部特征和文本的语义信息，增强了模型对复杂病灶的感知能力，尤其是在纹理和形状信息较为模糊的区域，能够提高分割精度。此外，临床文本描述(如病灶颜色、形状等信息)增强了模型对不同病灶类型的理解，帮助区分相似病灶，并通过上下文关联辅助模型在复杂背景下作出更准确的分割决策。

CMG-Net的创新性融合策略，尤其在相似病灶区分任务中，展示了显著的优势。通过扩充数据集，CMG-Net有效降低了过拟合风险，且在测试集上保持了较高的稳定性。这些结果表明，CMG-Net不仅提升了皮肤病灶分割精度，还增强了模型在复杂医学场景中的鲁棒性。

NOTES

^*通讯作者。

参考文献

[1]	Gershenwald, J.E., Scolyer, R.A., Hess, K.R., Sondak, V.K., Long, G.V., Ross, M.I., et al. (2017) Melanoma Staging: Evidence‐Based Changes in the American Joint Committee on Cancer Eighth Edition Cancer Staging Manual. CA: A Cancer Journal for Clinicians, 67, 472-492. https://doi.org/10.3322/caac.21409
[2]	Tschandl, P., Codella, N., Akay, B.N., Argenziano, G., Braun, R.P., Cabo, H., et al. (2019) Comparison of the Accuracy of Human Readers versus Machine-Learning Algorithms for Pigmented Skin Lesion Classification: An Open, Web-Based, International, Diagnostic Study. The Lancet Oncology, 20, 938-947. https://doi.org/10.1016/s1470-2045(19)30333-x
[3]	Esteva, A., Kuprel, B., Novoa, R.A., Ko, J., Swetter, S.M., Blau, H.M., et al. (2017) Dermatologist-Level Classification of Skin Cancer with Deep Neural Networks. Nature, 542, 115-118. https://doi.org/10.1038/nature21056
[4]	Ronneberger, O., Fischer, P. and Brox, T. (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Navab, N., Hornegger, J., Wells, W. and Frangi, A., Eds., Lecture Notes in Computer Science, Springer International Publishing, 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
[5]	Codella, N., et al. (2019) Skin Lesion Analysis Toward Melanoma Detection 2018: A Challenge Hosted by the International Skin Imaging Collaboration (ISIC). arXiv preprint arXiv:1902.03368.
[6]	Chen, J., Lu, Y., Yu, Q., et al. (2021) TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation. IEEE Trans-Actions on Pattern Analysis and Machine Intelligence. arXiv:2102.04306.
[7]	Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2020) An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR), Addis Ababa, Ethiopia, 26-30 April 2020, 1-21. https://openreview.net/forum?id=YicbFdNTTy
[8]	Vats, A., Pedersen, M., Mohammed, A. and Hovde, Ø. (2021) Learning More for Free—A Multi Task Learning Approach for Improved Pathology Classification in Capsule Endoscopy. In: de Bruijne, M., et al., Eds., Lecture Notes in Computer Science, Springer International Publishing, 3-13. https://doi.org/10.1007/978-3-030-87234-2_1
[9]	Philippi, A., Heller, S., Costa, I.G., Senée, V., Breunig, M., Li, Z., et al. (2021) Mutations and Variants of ONECUT1 in Diabetes. Nature Medicine, 27, 1928-1940. https://doi.org/10.1038/s41591-021-01502-7
[10]	Xie, Y., et al. (2022) CLIP-Derm: Aligning Vision-Language Models for Dermatology Diagnosis with Clinical Text. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, 18-24 June 2022, 21210-21219.
[11]	Li, X., et al. (2023) Dynamic Multimodal Fusion with Learnable Gates for Medical Image Segmentation. IEEE Transactions on Medical Imaging, 42, 1324-1335.
[12]	Wang, Y., Lam, H.K., Hou, Z., Li, R., Xie, X. and Liu, S. (2023) High-Resolution Feature Based Central Venous Catheter Tip Detection Network in X-Ray Images. Medical Image Analysis, 88, Article 102876. https://doi.org/10.1016/j.media.2023.102876
[13]	Zhang, Y., et al. (2022) Knowledge-Aware Multimodal Fusion Network for Dermatological Diagnosis. AAAI Conference on Artificial Intelligence, 36, 3219-3227.
[14]	Xu, Z., et al. (2023) Noisy Clinical Text Filtering for Robust Multimodal Learning in Dermatology. In: Bouamor, H., Pino, J., Bali, K., Eds., Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics, 15677-15691. https://aclanthology.org/volumes/2023.emnlp-main/
[15]	Huang, S.-C., et al. (2023) The Curse of Heterogeneity: Why Multimodal Medical AI Models Struggle with Alignment. Advances in Neural Information Processing Systems (NEURIPS), New Orleans, LA, 10-16 December 2023.
[16]	Liu, F., et al. (2024) Dynamic Modality Selection for Medical Multimodal Learning. Proceedings of International Conference on Learning Representations (ICLR 2024), Vienna, 7-11 May 2024.
[17]	Radford, A., Kim, J.W., Hallacy, C., et al. (2021) Learning Transferable Visual Models from Natural Language Supervision. In: Proceedings of the 38th International Conference on Machine Learning, PMLR, 8748-8763. https://proceedings.mlr.press/v139/radford21a.html
[18]	Jia, C., Yang, Y.F., Xia, Y., et al. (2021) Scaling Up Visual and Vision-Language Representation Learning with Noisy Text Supervision. In: Proceedings of International Conference on Machine Learning (ICML), PMLR, 4904-4916. https://proceedings.mlr.press/v139/jia21b.html
[19]	Li, Y., Fan, H., Hu, R., Feichtenhofer, C. and He, K. (2023) Scaling Language-Image Pre-Training via Masking. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 23390-23400. https://doi.org/10.1109/cvpr52729.2023.02240
[20]	Jiang, Y., et al. (2023) Cross-Modal Co-Training for Medical Image Segmentation with Textual Annotations. Proceedings of 26th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 8-12 October 2023, Vancouver.
[21]	Yang, J., et al. (2021) Learning to Fuse Asymmetric Features from MRI and PET for Alzheimer’s Disease Diagnosis. IEEE Transactions on Medical Imaging, 40, 100-110.
[22]	Chen, T., et al. (2023) Graph-Based Multimodal Fusion for Medical Image Segmentation. In: Proceedings of Advances in Neural Information Processing Systems (NEURIPS), Curran Associates, Inc.
[23]	Huang, S.-C., et al. (2023) GAN-Based Cross-Modal Fusion for Robust Medical Image Segmentation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023.

为你推荐

友情链接