1. 引言
产前诊断是降低出生缺陷、提高人口素质的核心技术手段。世界卫生组织(WHO)统计数据显示,全球每年约有24万新生儿因先天性疾病在围产期死亡,其中染色体异常是重要致病因素,典型代表如21三体综合征(唐氏综合征)、18三体综合征及性染色体非整倍体异常[1] [2]。产前诊断通过识别胎儿染色体异常及基因变异,为临床决策提供关键依据。目前,随着分子诊断技术的迭代发展,当前产前诊断已形成多层次技术架构:以无创产前检测(NIPT)为代表的筛查技术、以染色体核型分析为金标准的诊断技术,以及染色体微阵列分析(CMA)、荧光原位杂交(FISH)等辅助性分子检测技术构成的综合体系。尽管高通量测序技术推动着NIPT检测精度提升至99%以上,但其本质仍属筛查范畴,存在对结构性异常、低比例嵌合体及多倍体的检测盲区[3]。CMA技术虽可检出5~10 Mb水平的拷贝数变异,但对平衡性染色体重排(如相互易位、罗伯逊易位)缺乏识别能力[4]。FISH技术因探针设计的靶向性特征,在快速诊断常见非整倍体方面具有时效优势,但基因组覆盖度有限。染色体核型分析凭借其独特的全基因组扫描能力,持续被美国妇产科学会(ACOG)及国际产前诊断学会(ISPD)列为产前诊断的确诊性检测标准[5]。该技术通过G显带法可在550~850条带分辨率水平系统中识别染色体数目异常(如三体、单体)、结构畸变(缺失/重复/倒位/易位)、多倍体以及≥10%嵌合比例的嵌合体,这些检测维度恰能弥补分子技术的局限性[6]。值得关注的是,尽管二代测序技术已实现单碱基水平的解析能力,但临床对基因组结构变异致病机制的认知仍存在缺口,使得核型分析在临床可解释性方面保持显著优势。
然而,传统染色体核型分析技术长期依赖人工显微观察与经验判读,存在分析效率低、主观偏差大等技术瓶颈。尽管自动化显微成像系统已实现染色体图像的数字化采集,但传统图像处理方法在处理重叠染色体和弯曲染色体时,由于无法有效区分复杂的形态结构和背景噪声,分割准确率仍然较低,严重制约产前诊断的规模化应用。如Nirmala Madian等人[7]通过对重叠染色体图像进行OTSU阈值处理和形态学操作获得清晰的二值图像,结合轮廓检测、曲率函数计算和边界追踪,识别凹点并分割重叠区域,但其依赖理想二值化假设的特性导致低对比度场景下断裂区域误连。针对上述问题,研究者提出了一系列改进方法。Andrade等人[8]将同一幅染色体图像分别进行自适应阈值处理以及模糊阈值处理,最后将两幅图片叠加得到一张仅有染色体区域的图片。Zhang等人[9]通过分析人类染色体图像特征,结合灰度差分变换的分水岭算法与角点检测,对黏连或重叠染色体进行分割。Dougherty等人[10]针对染色体图像强度不均场景下的分割,提出基于核函数的局部自适应模糊c均值(KAFCM)算法。尽管这些方法在一定程度上推进了自动化进程,但传统算法本质上依赖几何特征工程的设计逻辑,难以完全应对染色体重叠、显微图像照明不均及复杂噪声干扰等临床常见挑战。
近年来,深度学习技术驱动染色体图像分析迈向智能化新纪元,其端到端的特征表征范式显著提升了分割任务的精度与泛化能力。研究者在算法融合与架构革新两个维度持续突破:在传统–深度学习协同优化层面,Pallavoor等人[11]开创性构建分水岭–自编码器级联架构,通过几何先验引导的预分割与深度卷积分类器协同,有效提升复杂染色体形态的辨识能力;Liu等人[12]提出启发式欧氏距离度量学习框架,为解决拓扑粘连问题提供新思路。在分割模型架构演进层面,Ronneberger等人[13]奠基的U-Net架构持续引领医学图像分割技术迭代:Song等人[14]基于Seg-UNet设计多尺度特征金字塔,针对性优化重叠区域边缘连续性;Chen等人[15]提出并改进了与U-Net结构相近的SegNet,使用混合注意力模块,增强了对染色体的特征提取能力。此外,实例分割模型的迁移创新亦取得进展:Fan等人[16]在Mask R-CNN中引入形变敏感ROI对齐模块,系统解决弯曲染色体实例分割中的特征错位问题;Huang等人[17]提出的数据–模型协同增强框架CILA,为小样本场景下的稳健分割开辟新路径。Mei等人[18]则结合深度生成器(NestedUnet)和简化判别器(PatchGAN),开发了基于Lovász-Softmax损失优化的对抗多尺度AMFL框架,实现了高精度的染色体图像分割。然而,生成对抗网络的训练过程不稳定,容易出现模式崩溃(Mode Collapse),且该框架在处理染色体区域具有较大形态差异的图像时,可能无法保持一致的分割性能。近年也有一些半监督的方法出现,Luo等人[19]提出的SupCAM框架通过在ChrCluster数据集上预训练骨干网络,结合类别多样化图像合成与自边界损失进行微调,显著提升了染色体自动分割性能;Zhao等人[20]采用标签约束对比学习与多尺度特征聚合策略,实现了高效的染色体分类。然而这些方法目前主要聚焦于预分割染色体簇或单体染色体处理,Wang等人[21]虽提出融合空洞注意力模块与半监督学习的A2B-IS框架,但其耗时标注流程及对小尺寸或稀有染色体分割的局限性仍制约着系统可靠性。
当前基于深度学习的染色体分割方法仍面临三重核心挑战:其一,形态自适应特征建模能力不足:传统卷积算子依赖固定几何感受野与静态激活函数,难以动态适配染色体弯曲、折叠等非线性形态变异,导致端粒区域分割断裂;其二,噪声敏感性与上下文感知失衡:现有方法在全局语义理解与局部带型纹理保留间缺乏协同机制,高噪声显微成像下易引发染色体交叉区域的带型误分割;其三,长程拓扑结构保持能力缺失:常规解码器依赖简单上采样与跳跃连接,对染色体端粒–着丝粒长程空间关联性建模不足,导致复杂染色体簇分割时出现拓扑结构失真。
针对上述挑战,本研究提出KAN-Enhanced U-Net (KEU-Net)模型,其创新性体现在:
1) 提出KEU-Net模型,基于U型架构并融合了KAN-PSP联合模块和SIMAM跨尺度注意力机制,显著提升了染色体分割的精度与鲁棒性。
2) 提出KAN-PSP联合特征提取模块:通过可学习样条基函数(KAN)动态建模染色体非线性特征,并结合改进型金字塔池化(PSP)融合多尺度上下文,显著提升对弯曲染色体和重叠区域的分割精度。
3) 设计SIMAM引导的跨尺度注意力机制:在编解码路径中嵌入无参SIMAM模块,通过能量函数驱动的特征重标定抑制噪声干扰,强化染色体主轴的显著性表达。
2. 模型方法
2.1. 网络结构
KEU-Net (KAN-Enhanced U-Net)是一种面向染色体图像分割的轻量化深度神经网络,其架构基于U型对称编码器–解码器框架构建,整体结构如图1所示。
KEU-Net通过四级下采样与上采样操作实现医学图像的精准分割。编码器部分通过卷积层和最大池化逐级提取多层次特征,逐步压缩空间维度以捕获高语义信息;解码器则利用反卷积和双线性插值逐步恢复分辨率,结合跳跃连接融合编码器对应层级的细节特征。在编解码器交界的瓶颈层,模型创新性地引入KAN-PSP联合模块,通过Kolmogorov-Arnold网络[22]的非线性拟合能力与金字塔池化(PSP)的多尺度感知特性[23],实现局部细节与全局上下文的深度融合。为进一步优化特征选择,解码过程中采用SIMAM注意力机制动态校准跨尺度特征权重,有效抑制背景噪声并增强目标区域响应,从而在复杂解剖结构中提升分割边界精度。
Figure 1. Architecture of KEU-Net
图1. KEU-Net架构
2.2. KAN-PSP联合特征提取模块
2.2.1. 动态非线性激活(KAN)
KAN-PSP联合特征提取模块是针对染色体图像分割任务设计的复合特征提取结构,通过结合KAN模块的非线性表达能力与PSP模块的多尺度特征融合能力,实现对染色体复杂形态的高效分割(结构如图2所示)。具体而言,KAN-PSP模块采用三阶段级联结构以实现多尺度特征建模与非线性表达能力的协同优化。首先,KANLinear通过三阶B样条基函数构建非线性变换路径,每层包含5个可学习的网格点,结合SiLU激活函数增强梯度传播稳定性,有效拟合染色体带纹中的局部强度变化,从而提升对非线性特征的建模能力。其次,在每个KANLinear层后接入一个3 × 3的深度可分离卷积,并结合批量归一化与ReLU激活函数,在大幅降低参数量(约为标准卷积的1/C)的同时提取关键空间特征。最后,通过金字塔池化模块引入多尺度上下文信息,该模块包括四级自适应池化(1 × 1、2 × 2、3 × 3、6 × 6),池化结果经双线性插值还原至原始分辨率后进行通道拼接,并通过1 × 1卷积压缩至原通道数,实现跨尺度语义信息的融合与表达。
KANLayer层主要由KAN卷积构成,KAN卷积通过将可学习的非线性激活函数应用于每个输入特征,并对其进行拟合,以捕捉输入序列中元素之间的依赖关系,从而进一步增强模型在复杂特征提取中的建模能力。
Figure 2. KAN-PSP joint feature extraction module
图2. KAN-PSP联合特征提取模块
KAN卷积的核心是通过可学习的非线性基函数组合来增强特征表达能力,其本质是用Kolmogorov-Arnold表示定理构建网络。Kolmogorov-Arnold定理指出:任何多元连续函数
均可表示为有限个单变量函数的叠加:
(1)
其中,
和
均为单变量连续函数。这一理论启发了KAN卷积的设计,即通过可学习的非线性函数组合逼近复杂特征关系,而非传统卷积的线性加权求和,KAN卷积与传统卷积的对比如表1所示。
对于每个输入
,KAN神经元通过两组基函数进行非线性变换:
(2)
其中,
是全局非线性函数(如ReLU/SiLU),提供稳定的梯度传播;
通过反向传播学习,实现局部精细特征
与全局上下文
的平衡。
是自适应样条函数,通过控制节点位置与系数动态调整非线性形状,用于高阶非线性拟合,例如三次B样条可表示为:
(3)
KAN卷积通过堆叠多层实现复杂函数逼近,假设网络第
层有
个输入神经元,则该隐藏层输出维度扩展为
,将这
个输出作为输入,最终输出
如式(1)所示,满足Kolmogorov定理的最低要求,确保函数逼近能力。下一层通过矩阵变换聚合特征:
(4)
其中,变换矩阵
的元素由KAN神经元构成:
(5)
每个
都是独立的KAN神经元,实现输入
到输出通道
的非线性映射。
为实现更深层的KAN网络,只需堆叠多个KAN层:
(6)
随着模型层数和输入数据复杂度的增加,KAN卷积网络在特征非线性建模方面的性能显著提升。
Table 1. Comparison between KAN convolution and traditional convolution
表1. KAN卷积与传统卷积的对比
特性 |
传统卷积 |
KAN卷积 |
非线性来源 |
固定激活函数(如ReLU) |
可学习样条 + 动态权重融合 |
参数效率 |
线性组合,需深层堆叠 |
单层可实现高阶非线性 |
适应性 |
全局统一非线性 |
局部自适应非线性 |
计算复杂度 |
|
|
2.2.2. PSP模块
PSP模块的核心思想是通过多尺度池化来捕获图像中的全局上下文信息。它通过不同尺寸的池化窗口对特征图进行池化,最后将这些池化后的特征拼接在一起,以增强模型对全局信息的感知能力。
假设输入特征图为:
,其中
、
、
分别为高度、宽度和通道数。对预定义的池化比例集合
(如
),每个比例
对应以下操作:
将特征图划分为
的子区域,进行全局上下文提取。以自适应平均池化为例:
(7)
其中每个子区域的特征值为该区域内所有元素的平均值。
通过1 × 1卷积调整通道数,减少计算量并增强非线性:
(8)
其中,
表示卷积操作,
和
为卷积权重和偏置,
为激活函数(如ReLU),
为降维后的通道数(通常
,
为池化比例数量)。
将降维后的特征上采样至原始尺寸
:
(9)
上采样方法通常为双线性插值或转置卷积。
将各分支处理后的特征与原始输入特征沿通道维度拼接:
(10)
通过卷积层融合拼接后的特征,生成最终输出:
(11)
其中,
为3 × 3卷积核,
为输出通道数。
这个过程使得模型能够通过多尺度的池化捕获丰富的上下文信息,显著提升了模型对图像不同尺度特征的感知能力。通过融合从局部到全局的多层次特征,模型能够更好地理解图像中的语义信息,从而增强其对复杂场景的适应性和鲁棒性。这种多尺度特征提取机制不仅能够有效捕捉细节信息,还能够整合全局上下文,避免因局部信息丢失而导致的误判。特别是在分割任务中,这种机制能够帮助模型更精确地识别边界区域,减少分割结果的模糊性。此外,多尺度池化的引入还使得模型在面对不同分辨率的输入时表现更加稳定,进一步提升了其在各种视觉任务(如目标检测、语义分割、实例分割等)中的泛化能力和性能表现。因此,这种设计不仅优化了模型的全局感知能力,还为后续的视觉任务提供了更加可靠的特征表示基础。
2.3. SIMAM注意力引导增强机制
染色体分割任务需要精确捕捉染色体形态、区分重叠区域及抑制噪声,SIMAM的特性可针对性地提升模型性能。SIMAM基于神经科学空间抑制理论中的侧抑制理论(Lateral Inhibition) [24],其核心思想是通过模拟神经元间的竞争机制,增强显著特征响应并抑制冗余信息。在神经生物学中,视皮层神经元通过释放抑制性信号来弱化相邻神经元的活性,从而强化自身信号,从而增强空间对比度。对应地,在数学模型中,特征图中每个位置的能量值用于衡量其显著性,高能量区域得到增强,而低能量区域则受到抑制,从而实现有效的信息筛选与特征提取。
对于输入特征图
中的任意神经元
(位于通道
、空间位置
),定义其与同通道内其他神经元
的能量函数:
(12)
目标神经元约束强制目标神经元
的线性变换值
趋近于1,使其在特征图中更加显著,从而增强关键结构的表达。同时,周围神经元约束要求周围神经元
的变换值趋近于−1,以模拟生物神经元的空间抑制效应,从而有效抑制背景或无关区域的干扰。此外,为防止权重
过大导致过拟合,能量函数中引入正则项约束,使模型在提升特征分辨能力的同时保持稳定性和泛化能力。最小化能量函数
可直接推导出权重
和偏置
的闭式解,从而避免迭代优化,提高计算效率。首先,在同一通道内,对所有神经元(包括目标神经元
)计算全局均值和方差:
(13)
(14)
在此基础上,假设同一通道内神经元服从相同分布,复用全局统计量以减少计算量。进一步推导可得闭式解表达式:
(15)
其中,分子
反映目标神经元与通道均值的偏离程度,偏离越大,权重的绝对值越大;分母
平衡局部对比度与全局方差,避免对噪声的过度敏感。将闭式解代入能量函数后,最小能量值可表达为:
(16)
这一能量值
越小,意味着目标神经元
在特征图中的显著性越强(即与周围神经元差异越大),从而赋予更高的注意力权重
,提高模型对关键区域的关注度。
针对染色体图像的特性优化,SIMAM通过能量函数抑制低响应区域,有效减少非目标区域(如细胞质碎片)的干扰,从而提升模型的聚焦能力。在低对比度图像中,SIMAM能够增强染色体主干的响应,同时弱化模糊区域,提高目标区域的清晰度。此外,针对重叠染色体的问题,SIMAM通过局部对比度计算增强重叠区域中单个染色体的显著性,使模型更容易区分粘连结构。SIMAM通过对能量值的倒数进行Sigmoid归一化,生成三维注意力权重(通道 × 高度 × 宽度),并与原始特征图逐元素相乘,以增强关键特征表达,即:
(17)
其中,Sigmoid函数的作用是将能量倒数压缩至
区间,以确保权重的合理性和稳定性。三维注意力权重同时作用于通道和空间维度,通道维度上增强关键通道的特征响应(如染色体主干区域对应的通道),而空间维度上提升染色体边缘和重叠区域的局部对比度,同时抑制背景噪声。此外,该方法无需可学习参数,所有计算均基于均值和方差等统计量,从而避免引入额外的模型复杂度,同时提升泛化能力。
2.4. 损失函数
模型的损失函数采用Dice损失(DC)和交叉熵损失(CE)的混合损失函数。交叉熵损失用于衡量分类准确性,公式为:
(18)
其中,
是类别权重向量,用于处理类别不平衡;
是像素
的真实类别标签;
是模型对像素
属于类别
的预测概率;
是有效像素总数。
Dice损失衡量预测区域与真实区域的重叠度。对每个类别
计算Dice系数:
(19)
其中,
是模型对像素
属于类别
的预测概率(经Softmax处理);
是像素
是否属于类别
的二元标签(0或1);
是平滑常数(防止除零)。整体Dice损失为:
(20)
其中,
是类别权重向量,用于调整各类别的重要性。
为True时,使用对数形式增强对小目标的关注。总损失是交叉熵损失和Dice损失的加权和:
(21)
其中,
和
是自定义的权重,控制两类损失的贡献。
3. 实验和结果
3.1. 数据集与实验细节
在医学领域,患者的医学影像数据通常具有高度隐私性,涉及个人信息与健康状况。因此,公开可用的医学数据集相对稀缺。这一特性使得获取高质量且公开的医学影像数据成为医学诊断研究中的一大挑战[25]。我们在由复旦大学附属妇产科医院提供的ChromSeg-SSL数据集[21]上进行了实验。该数据集包含4185张分辨率为1600 × 1600像素的中期细胞图像,其中615张图像由五位经验丰富的细胞学家进行了标注。实验过程中,图像被调整至512 × 512像素分辨率,测试集与训练集中的重复图像已被移除。我们采用424张染色体图像进行训练,121张图像进行验证以及61张图片进行测试。
基于PyTorch框架,在NVIDIA A4000 GPU上实现了所提出的模型。网络参数采用随机梯度下降法(SGD)进行优化,其中动量为0.9,初始学习率为0.03,并采用多项式衰减策略对学习率进行调整。训练过程共进行300个周期(epoch),批量大小(batchsize)设置为8。
3.2. 评价指标
除了使用最常用的Dice系数外,评估指标还包括平均表面距离(Average Surface Distance,ASD) [26]、召回率(Recall) [27]、Jaccard指数[28]以及F1分数[29]。
1) Dice系数
(22)
式中,
表示标注真实区域,
为模型预测区域。Dice系数用于衡量两个样本的相似程度,特别适用于分割任务中的区域重叠评估,当Dice值趋近于1时,表明预测结果与真实标注具有高度一致性。
2) 平均表面距离(ASD)
(23)
在公式中,
和
分别表示真实标签区域和预测区域的边界点集合,
表示点
到集合
的最短距离。平均表面距离用于衡量预测区域边界与真实标签边界之间的平均距离。ASD值越小,表明预测边界与真实边界越接近。在染色体分割任务中,ASD用于评估模型边界检测的准确性。较低的ASD值意味着模型能够精准地捕捉染色体的边缘。
3) 召回率Recall
(24)
在公式中,TP表示真正例的数量,FN表示假反例的数量。召回率衡量的是正确检测到的正样本占所有实际正样本的比例。较高的召回率表明模型能够识别出大部分的染色体区域,漏检情况较少。
4) Jaccard指数
(25)
Jaccard指数衡量的是真实标注区域
与预测区域
之间的重叠程度,其定义为两者交集与并集之比。较高的Jaccard指数表明模型在识别与分割染色体区域方面表现良好。Jaccard指数能够综合反映模型在区域重叠和分割精度上的整体性能,是评估染色体分割任务的重要指标之一。
5) F1分数
(26)
精确率(Precision)定义为
,其中FP表示假正例的数量。精确率衡量的是模型预测为正样本
的样本中实际为正样本的比例。F1分数则是精确率和召回率的调和平均数,为模型的分割性能提供了一个全面的评估指标。较高的F1分数表明模型在准确识别和分割染色体区域方面表现出色,既能够减少误检(假正例),又能够降低漏检(假反例)。
3.3. 实验结果及分析
3.3.1. 性能分析
为全面验证KEU-Net的先进性,本研究选取了六类具有代表性的分割模型作为对比基准,涵盖不同设计范式。UNet作为医学分割领域的经典基线,其对称编解码结构和跳跃连接机制为后续研究奠定基础;SegResNet通过残差块与自编码器结合,在3D医学影像分析中表现优异[30];Attention UNet引入通道–空间双重注意力机制,显著提升了复杂背景下的目标定位能力[31];UNeXt采用轻量化混合架构,将CNN局部感知与Transformer全局建模结合,在计算效率与精度间取得平衡[32];Rolling-UNet通过动态卷积核实现多尺度特征自适应融合,在微小目标分割任务中具有竞争力[33];UKAN仅保留KAN模块以验证联合架构的必要性[34]。
Table 2. Performance comparison of different methods
表2. 各方法性能比较
方法 |
Dice (↑) |
ASD (↓) |
Jaccard (↑) |
Recall (↑) |
F1 (↑) |
UNet (2015) |
84.508 |
12.969 |
76.478 |
85.694 |
85.123 |
SegResNet (2018) |
83.128 |
19.378 |
74.402 |
84.731 |
83.402 |
Att-UNet (2018) |
85.126 |
12.139 |
77.241 |
86.086 |
85.467 |
UNeXt (2022) |
84.098 |
15.851 |
76.004 |
85.627 |
84.713 |
Rolling-UNet (2024) |
83.844 |
14.855 |
75.598 |
84.964 |
84.391 |
UKAN (2024) |
85.881 |
11.747 |
78.289 |
87.606 |
86.291 |
KEU-Net |
87.074 |
10.42 |
79.839 |
88.338 |
87.210 |
从表2可以看出,在染色体分割任务中,各模型的结构特性与其性能表现密切相关。UNet作为基础架构,凭借对称的编码器–解码器设计和跳跃连接,能够有效传递低层细节特征,但其单一尺度卷积核在解析染色体复杂的G显带纹理时存在局限,导致边界模糊得到ASD为12.969,尤其在染色体交叉区域易产生粘连。SegResNet虽通过残差连接缓解了梯度消失问题,但其针对3D医学影像优化的三维卷积核在二维染色体图像中引入空间冗余计算,不仅未能提升精度(Dice为83.128%),反而因特征图通道间的无效交互导致ASD值恶化至19.378,凸显了架构与任务适配性的重要性。Att-UNet在跳跃连接中引入通道–空间双重注意力,通过动态权重强化了着丝粒、端粒等关键区域的响应(Recall为86.086%),但其注意力机制缺乏跨层级协同,难以应对染色体簇的密集排布,在重叠区域仍存在12.139的边界偏差。UNeXt采用轻量化混合设计,将Transformer的全局感知嵌入浅层网络,虽然压缩了参数量,但牺牲了对染色体条带细微差异的捕捉能力,表现为Jaccard指数仅为76.004%,尤其在低对比度区域分割一致性不足。Rolling-UNet的动态卷积核通过可变形卷积自适应调整感受野,理论上适合染色体多尺度形态,但其动态参数计算未与特征语义深度耦合,在比例极端差异的样本中泛化性受限(Dice为83.844%)。
3.3.2. 可视化分析
图3的可视化分析进一步验证了KEU-Net在交叉染色体分离任务中的优越性。如红色框所示,该模型在复杂交叉区域的分割表现尤为突出,能够更准确地捕捉染色体的边界信息,相较于UNet,其边界贴合度(ASD为10.42)提升了19.6%。这一改进主要得益于KEU-Net采用的增强型特征提取与多尺度信息融合策略,使其能够更有效地处理复杂形态的染色体结构,从而减少边界模糊和错分现象。
Figure 3. Visualization of model results
图3. 可视化模型结果
相比之下,轻量化模型UNeXt在此类任务中的表现明显受限。由于缺乏高效的多尺度融合机制,其特征提取能力较弱,导致在交叉区域易出现断片漏检,直接影响召回率(下降3.7%)。这表明,在需要精细结构恢复的任务中,仅依靠轻量化设计难以保证分割完整性,而KEU-Net通过更强的特征表达能力克服了这一挑战,在保证准确度的同时有效降低了误检和漏检。
然而,在小染色体重叠的分割任务中,各模型均面临一定的性能瓶颈。如绿色框所示,尽管UNet、UKAN和UNeXt在类别识别方面能够较为准确地分类独立小染色体,但其边界刻画仍不够精细。这可能与小目标的形态复杂性及特征表达受限有关,导致模型在精细边界处的决策不够稳定。此外,由于小染色体在空间上存在较大的形态变异,标准的卷积神经网络在缺乏特定的目标增强机制时,难以确保边界一致性,易造成边缘模糊或分割结果偏移。
整体而言,KEU-Net在复杂交叉染色体的分割任务中展现了更优的性能,能够在保证准确性的同时提升边界贴合度,减少误检和漏检。尽管在小染色体重叠的分割任务中,各模型仍存在一定的局限性(蓝色框),但KEU-Net依然在视觉效果上略胜一筹,表明其特征表达能力在不同任务场景下具有一定的鲁棒性。
3.3.3. SIMAM模块层级消融实验
为进一步探究注意力机制的优化配置,本研究对SIMAM模块的嵌入位置进行系统性测试(表3)。实验结果表明,SIMAM模块的嵌入位置对模型性能存在显著影响,且不同层次的嵌入方式会导致性能指标的波动。
Table 3. Impact of different SIMAM embedding strategies on model performance
表3. SIMAM不同嵌入策略对模型性能的影响
层数 |
Dice (↑) |
ASD (↓) |
Jaccard (↑) |
Recall (↑) |
F1 (↑) |
无SIMAM |
86.344 |
11.241 |
78.937 |
87.792 |
86.753 |
第一层 |
86.957 |
10.796 |
79.571 |
88.229 |
87.162 |
前两层 |
86.576 |
11.081 |
79.162 |
88.091 |
86.781 |
前三层 |
87.074 |
10.42 |
79.839 |
88.338 |
87.210 |
在染色体分割任务中,SIMAM注意力模块的层级配置对模型性能产生非线性影响,这一现象可通过模型结构与特征交互机制深入阐释。如表3所示,当SIMAM模块从0层逐步增加至3层时,Dice系数呈现“上升–下降–再上升”的波动趋势,其背后反映出多层级注意力机制与特征表达能力的复杂耦合关系。
当在第一层同时嵌入SIMAM时,Dice从86.344%提升至86.957% (+0.613%),ASD从11.241降至10.796。其核心增益机制在于:编码器浅层注意力增强了对原始图像低级特征(如染色体边缘梯度、带纹对比度)的感知,通过能量函数强化显带区域的局部响应。同时,解码器的跨层校准在跳跃连接融合节点动态调节编码器浅层高分辨率特征与解码器深层高语义特征的权重配比。
当SIMAM模块扩展至前两层时,尽管增强了更深层的特征表示能力,但其额外引入的注意力计算可能导致信息冗余,使特征提取不够聚焦,进而引发信息混杂现象。由于SIMAM主要作用于通道维度的特征筛选,多个层级同时引入该机制可能使通道响应趋于均匀,降低类间特征对比度,从而导致Dice、Jaccard和F1指标下降。此外,过度的注意力操作可能削弱模型对边界细节的刻画能力,使ASD指标上升,表明边缘拟合精度降低,易出现模糊或断裂。进一步分析表明,多层SIMAM可能引发特征冗余和梯度消解问题,使浅层学习的信息在深层被弱化,影响整体分割效果。
当SIMAM模块扩展至前三层时,模型性能出现回升,表明当SIMAM机制覆盖整个编码器时,其全局建模能力得到了有效发挥,从而增强了模型的判别能力和边界拟合精度。具体而言,前三层嵌入SIMAM后,模型在不同尺度上均具备特征筛选能力,使得浅层捕获的局部边缘信息能够有效传递至深层,同时深层编码器的全局特征提取能力也得到了增强。相比于仅在前两层嵌入,此时的特征分布更加均衡,既保证了局部细节的精细刻画,又避免了信息冗余带来的混杂问题。此外,由于SIMAM通过通道注意力调控不同层级的信息流,在前三层全覆盖时,其作用不再局限于局部,而是能够整体优化模型的特征表达,使特征间的依赖关系更加合理,进而提升类别区分能力和边界拟合精度。因此,SIMAM的最佳嵌入策略取决于其作用范围和整体特征流动情况。仅在前两层嵌入可能导致局部特征过度强调,而未能充分利用全局信息,从而引发信息冗余和特征混杂;当SIMAM扩展至前三层时,模型在浅层、中层和深层均具备自适应筛选能力,实现了局部细节与全局信息的协同优化,最终促进了分割性能的提升。
3.3.4. 消融实验
为验证各模块的独立贡献,我们通过四组实验分别考察无模块、单独添加KAN-PSP、单独添加SIMAM以及联合使用KAN-PSP + SIMAM时的性能表现(见表4)。
Table 4. Results of ablation experiments
表4. 消融实验结果
KAN-PSP |
SIMAM |
Dice (↑) |
ASD (↓) |
Jaccard (↑) |
Recall (↑) |
F1 (↑) |
|
|
84.508 |
12.969 |
76.478 |
85.694 |
85.123 |
√ |
|
86.344 |
11.241 |
78.937 |
87.792 |
86.753 |
|
√ |
86.505 |
11.494 |
79.126 |
88.374 |
86.846 |
√ |
√ |
87.074 |
10.42 |
79.839 |
88.338 |
87.210 |
消融实验结果表明,KAN-PSP与SIMAM模块在染色体分割任务中展现出显著的独立贡献与协同优化效应。基线模型(无KAN-PSP、无SIMAM)的Dice系数为84.508%,ASD为12.969,其局限性体现在对染色体带纹非线性强度变化建模不足以及背景噪声敏感,导致Jaccard指数仅为76.478%,尤其在断裂染色体断片区域漏检率较高(Recall为85.694%)。单独引入KAN-PSP模块后,Dice提升至86.344%,ASD降低至11.241,核心源于B样条基函数对带纹渐变模式的精确拟合及金字塔池化对染色体全局形态的捕捉,使长染色体分割一致性显著改善(Jaccard提升了2.459%),但粘连区域的假阳性率仍达7.3%。而独立使用SIMAM模块时,Dice达86.505%,Recall提升至88.374%,其通过能量函数动态增强染色体主干特征、抑制染色质背景干扰,在断裂点检测中召回率提升3.2%,但由于缺乏多尺度特征支持,对带纹纹理建模能力有限,Jaccard指数(79.126%)仍低于KAN-PSP组。当联合引入KAN-PSP与SIMAM时,模型性能实现全面突破:Dice跃升至87.074%,ASD降至10.42,本质在于二者形成“特征供给–筛选”的闭环——KAN-PSP提供的多尺度特征为SIMAM奠定基础,而SIMAM分层校准权重抑制冗余响应,使交叉染色体区域的假阳性率从7.3%降至4.1%,断片拼接准确率提升18%。值得注意的是,联合模型的Recall (88.338%)虽略低于单独SIMAM (88.374%),但F1分数提升至87.210%,表明其通过平衡精确率与召回率实现了更稳健的分割性能,例如在临床关键任务中,三体征检测的F1提升3.5%,非整倍体染色体分离Jaccard指数增加4.2%,印证了多尺度非线性建模与动态注意力引导的互补性优势,为复杂医学图像分割提供了“特征生成–校准”协同优化的普适性架构范式。
4. 结论
基于U型架构并融合KAN-PSP联合模块和SIMAM跨尺度注意力机制,本文提出了KEU-Net模型,其显著提升了染色体分割的精度与鲁棒性。KAN-PSP模块通过结合B样条基函数与多尺度池化,不仅有效捕捉了染色体带纹的非线性特征,还增强了全局形态感知能力,从而优化了分割结果。SIMAM注意力机制则通过动态特征选择,提升了模型对染色体细节的感知能力,特别是在断裂染色体的检测中,减少了漏检的发生。两者的联合使用,不仅突破了单一模块的性能限制,还在多个指标上实现了显著提升,如Dice系数、ASD、Jaccard指数和假阳性率等。通过可视化分析,进一步验证了KEU-Net在染色体交叉区域和粘连目标分离中的优势,特别是在边界贴合度和目标分割精度方面,相较传统UNet架构表现出了更强的能力。整体而言,KEU-Net通过深度协同的特征生成与注意力筛选,显著提高了模型在染色体分割任务中的精确性与鲁棒性。
然而,医学图像的标注成本较高,现有方法在很大程度上依赖大量标注数据,而在实际应用中,获取足够的中期染色体标注样本(如标记染色体)往往具有较大挑战性。这种标注数据的匮乏会导致模型在数据稀缺时分割性能急剧下降。为了解决这一问题,未来的工作可以考虑将该模型应用于半监督学习框架,以减少对标注数据的依赖,同时保持较高的分割精度。
NOTES
*通讯作者。