1. 引言
染色体(chromosome)是基因的载体,人类23对染色体中承载着3.5万基因,正是因为染色体具有遗传特性,所以越来越多的学者们开始研究染色体的本质,尤其在研究染色体结构和数目异常与染色体疾病的关系上,引发了大量学者的关注。人类细胞中期染色体图像如图1所示。

Figure 1. Human cell mid-term chromosome image
图1. 人类细胞中期染色体图像
前人通过数学模型研究染色体中轴线、弯曲染色体修正、着丝点位置、染色体轮廓等,设计了一套染色体识别系统。但是随着医疗科技的快速发展,仅仅依赖数学模型是达不到理想精度的。机器学习在医学图像分割领域深受研究者青睐。不同于以往手动操作的是,机器学习中的语义分割系统可以直接训练图像。相比于人工操作的耗时和误差,运用机器学习对图像进行自动分割操作不仅节约时间成本,而且得到的图像也清晰明了。韩璐 [1] 通过将UNet网络应用于宫颈细胞的图像分割,并使用多主动轮廓方法对重叠细胞进行分割,从而证明机器学习应用于医学图像分割的可行性。与此同时,游齐靖 [2] 采用深度学习方法构建了一个完整的染色体核型分析系统,通过UNet框架、转角检测和极性检测步骤制作染色体核型分析结果图像。王祥鹤 [3] 通过GroundTruth标签和UNet3+网络对输入的染色体图像进行处理与分割,进一步提高了算法效率和分类精确度。Olaf [4] 在UNet模型的基础上,使用数据增强策略扩充现有数据以实现对极少的图像进行端到端的训练。K. Pijackova [5] 等人通过阈值和骨架化来提取和分类单染色体和染色体簇,再使用Mask-R-CNN分割重叠和接触的染色体。Hariyanti Mohd Saleh [6] 通过添加适量的卷积层来修改UNet架构以执行重叠染色体语义分割任务。X. Cao [7] 等人提出ChromSeg方法来实现分割交叉、重叠的染色体,同时应用了新的启发式“交叉分割”算法,使得模型分割和重建的准确率为90.5%。
在上述研究中,部分模型会因为染色体的异常形态而造成染色体遗漏或者错误分类的情况,对于质量不高的数据采用传统的机器学习方法有时会省略数据预处理的步骤,从而未必能得到想要的结果。且在面临庞大的数据输入时,分割任务的计算成本增加,处理时间较长,故模型存在一定局限性。因此,本文的研究重点是要改进深度学习方法以提升分割任务的准确性,克服原有模型的不足。此外,利用轻量化模型将数据压缩,以此减轻计算负担。
综上,本文提出了改进的UNet++模型用于重叠染色体分割任务。考虑到染色体自身形态的复杂性和研究方法的有效性,本文将使用的嵌套稠密卷积块来改进跳跃连接,以减少编码器和解码器子网络之间的语义差异,并且引入MobileNet轻量化模型和CBAM注意力机制,以更高效更精确地完成分割任务。
2. 模型结构
2.1. 相关技术
2.1.1. UNet模型
UNet也是一种深度学习网络的架构,相比于FCN,UNet提出较晚,通常会用在语义分割的研究上。Olaf Ronneberger [4] 首次提出用于医学图像分割。与一般的卷积网络不同的是,UNet不包括全连接层,且对输入数据的量没有严格要求。因其采用Encoder-Decoder的方式,将整张图片输入深度学习网络,编码器通过多个卷积层连续采样以获取不同的图像特征级别,通过解码器进行多层反卷积,在一次次下采样过程中组合不同的特征级别,再将特征图恢复到原始的输入大小,完成图像端到端的语义分割 [8] 。因此通过多次卷积、池化等操作,和对图像进行上采样和下采样,使得网络呈现一个U型(图2)。
2.1.2. MobileNet轻量化
本文使用的MobileNet [9] 是一个基于CNN的模型,被广泛用于图像分类。与传统的CNN模型相比,本文引入的MobileNet模型在计算时需要更少的工作量,并且对计算机的计算性能要求相对较低 [10] [11] 。MobileNet由Google团队提出,其核心是深度可分离卷积(Depthwise separable convolution,以下简称DSC),DSC包括逐通道卷积(Depthwise convolution)和逐点卷积(Pointwise convolution)。
1) 逐通道卷积
假设输入通道数为
,对于一个通道的输入特征
,首先利用一个大小为3 × 3的卷积层用于缓冲,进行点乘求和操作,最后得到
的输出,则逐通道卷积的总计算量如公式1所示。
(1)
2) 逐点卷积
逐点卷积是将逐通道卷积结果进行组合,与常规卷积操作不同的是,逐点卷积的卷积核尺寸为1 × 1。逐点卷积可以融合逐通道卷积的特征,同时也可以改变特征图像的通道数。假设输出通道数为
,则逐点卷积的总计算量如公式2所示。
(2)
由以上公式可得DSP的总计算量为
,相比于 3 × 3 的标准卷积,DSP的总计算量约为标准卷积的1/9,因此,MobileNet模型有利于降低网络规模 [12] 。MobileNet模型如图3所示。

Figure 3. MobileNet model structure
图3. MobileNet模型结构
2.1.3. CBAM注意力机制
本文引入的CBAM模型结合了通道注意力机制和空间注意力机制。CBAM模型最早由Woo等 [13] 在2018年提出,相比于SENet和ECANet注意力机制其效果会更好。图4展示了CBAM的架构。

Figure 4. CBAM attention mechanism model
图4. CBAM注意力机制模型
第一个部分为通道注意力机制(Channel Attention Module),首先对输入特征层分别进行最大池化和全局平均池化,得到最大值
和平均值
,然后将数据维数转为
,之后在共享的多层感知器(Multilayer Perceptron, MLP)中先压缩通道维数,再恢复通道维数为c,然后将处理后的两组数据元素逐个求和,通过Sigmoid激活函数产生权重值,最后用权重值与原特征层相乘,获得通道上的权重矩阵。通道注意力计算公式如公式3所示。
(3)
第二个部分为空间注意力机制(Spatial Attention Module, SAM),首先对输入特征层每个元素的通道分别进行最大池化和平均池化,得出最大值
和平均值
,然后对两组结果数据做拼接,得到
个数据,再使用2D卷积将合并后的数据通道数压缩为1,最后用权重值与原特征层相乘 [14] ,获得通道上的权重矩阵。空间注意力计算公式如公式4所示。
(4)
研究表明,同时引入通道注意力机制和空间注意力机制的效果远好于单独使用其一,因此本文在对模型进行轻量化操作后引入CBAM注意力机制以校准失误率,不仅将庞大的数据量压缩以减少时间成本,而且能够弥补因轻量化而造成的精度损失。
2.2. MCBA-UNet模型
综上,本文提出MCBA-UNet模型,如图5所示。虽然用于医学图像分割的最先进模型是UNet和全卷积网络(FCN)的变体,且这些模型取得了成功,但它们仍有局限性:它们的最佳深度是先验未知的,需要大量的架构搜索或不同深度的模型效率低下的集合 [15] 。基于以上模型的优缺点,本文提出的MCBA-UNet模型不仅能够减轻计算负担,而且能够提升模型的分割效率。
2.2.1. 改进后的跳跃连接
本文使用的嵌套稠密卷积块来改进跳跃连接,设计思路如图6所示。研究表明当解码器和编码器网络的特征图在语义上相似时,学习任务会更容易被处理,所以本文采用跳跃连接以减少编码器和解码器子网络之间的语义差异。同时,使用深度监督来提高模型的准确性和效率 [16] 。

Figure 6. Jumping connection design concept
图6. 跳跃连接设计思路
这种跳跃连接的设计思路如上图5中8个小模块所示,途中每一个小圆点表示一个卷积块,向上、向下的箭头分别表示上采样和下采样,各个卷积块之间通过虚线箭头实现跳跃连接。其中(a)~(d)表示不同深度的UNets,(e)是将(a)~(d)集成在一个架构里,表示所有的UNets共享同一个编码器,但解码器不同。(f)是不使用跳跃连接的UNet++模型,只有相邻的两个节点彼此之间才能进行连接,(g)是在(e)的基础上,通过连接各个解码器而实现跳跃连接,由此图中产生了许多紧密的跳跃连接,从而特征可以沿跳跃连接频繁快速的传递,使得特征融合可以更加敏捷高效。因此,该跳跃连接从横向上来看将先前节点的特征控制在在同一个分辨率,从纵向上来看将两个不同分辨率的特征集成,从而提高了分割的准确率。
2.2.2. MCBA模块
由于输入数据极过于庞大,会给CPU带来较大计算负担,且染色体边缘像素不够清晰,现有的模型在边缘像素提取时的精度不够高,因此本文巧妙地将MobileNet轻量化模型和CBAM注意力机制融合,得到MCBA模块,设计思路如图7所示。当有特征数据输入时,该卷积任务能够运用MobileNet对数据进行轻量化操作,然后将轻量化后的数据传输到CBAM模块,通过深度可分离卷积提升特征图的表现能力,从而提升整个网络模型的效率和准确度,以达到事半功倍的分割性能。

Figure 7. Design idea of MCBA module
图7. MCBA模块设计思路
本文提出的MCBA-UNet模型在Unet++基础上改进了跳跃连接,既弥补了原有模型的缺点,提升了分割准确性,又解决了数据被压缩导致的计算性能下降的问题。同时在改进后的UNet++模型上,引入了轻量化模型,以减轻计算机的计算量过大带来的负担,通过引入CBAM注意力机制,弥补因模型轻量化而导致的准确率下降这一结果。
3. 实验分析
3.1. 数据集
为了评估该模型的实际效果,本文在kaggle上选取了13,434张公开的重叠染色体数据集 [17] ,与Saleh [18] 等人关于重叠染色体分割研究中所使用的数据集一致。本文选取的数据集中图像是是经过DAPI染色和Cy3荧光端粒探针标记技术合成后的图像,如图8所示。其中,染色体交叉点相对应的四个点确定了一个包含重叠域的像素多边形,再从两条交叉染色体的轮廓中分离出交叉区域,图中红色和青绿色分别表示两条染色体的非重叠区域,蓝色表示两条染色体的重叠区域。本文对每组染色体选取整个数据集中60%的数据用作训练集,20%的数据用作测试集,20%的数据用作验证集。

Figure 8. Microscopic chromosome images and processed images of human cell division metaphase
图8. 人类细胞分裂中期显微染色体图像和处理后的图像
3.2. 评价指标
本文为了验证该模型用于图像分割任务的性能,采用交并比(Iinteraction over Union,以下简称IoU)和分割准确率(Accuracy,以下简称Acc)指标用于模型的评价指标。
IoU (Iinteraction over Union)是用来测量在特定数据集中测量样本准确度的标准,对比真实值和预测值之间的相关度,相关度越高,则IoU越高。本文的任务是分割重叠染色体,由于待分割的区域占整个区域面积的较小部分,所以对分割性能和精度的要求较高,常用的分类评价指标不能精确的给出结论,因此本文采用IoU作为模型的评价标准之一,如公式5所示。
(5)
IoU也叫交并比,A表示模型预测值的分割结果,B表示对应真实值的结果,本文用于计算两条染色体重叠区域的IoU指标。当A和B的所包含的元素越多,则
越接近
,那么IoU越接近1,该模型的分割效果越好。本文将IoU指标用于计算重叠染色体分割结果,IoU-指标用于计算使非重叠染色体分割结果,以验证该模型的准确度。
Acc是用于评估分类模型的指标,表示模型预测正确的数量占总量的比例,比例越高,则Acc越高,分割性能越好。在二元分类中,通常分为正类别和负类别,TP = 真正例,TN = 真负例,FP = 假正例,FN = 假负例,所以,其计算过程如公式6所示。
(6)
3.3. 实验结果
本文提出的模型对重叠染色体进行分割任务的可视化结果如图9所示,图中对比了UNet和UNet++模型,其中(a)表示重叠染色体图像,(b)表示分割重叠部分后的染色体图像,(c)表示两条染色体的重叠部分。

Figure 9. Segmentation results of UNET, UNet++, and MCBA-UNET models
图9. UNet、UNet++、MCBA-UNet模型分割结果
为了进一步验证MCBA-UNet模型对重叠染色体的分割性能,实验中本文对比了UNet [4] 、UNet++ [19] 、AS-PANet [20] 、ChromSeg [21] 、DeepLabv3+ [22] 、Segnet [23] 、Kluvanec [24] 模型在不同评价指标下的性能结果,如表1所示。

Table 1. Performance comparison table between MCBA UNet and other models
表1. MCBA-UNet与其他模型的性能对照表
通过实验结果发现UNet++的IoU较其他6种模型率高,但是MCBA-UNet较其Acc高了1.69%,Segnet准确性虽然略高与其他模型,但IoU和IoU−分别比MCBA-UNet低4.01%、3.55%,可见MCBA-UNet在重叠染色体的分割性能和染色体边缘分割性能都很优秀。对于本文采用的三种评价指标,经过实验后对比发现MCBA-UNet在重叠染色体分割和非重叠染色体分割上,其IoU和IoU−都高于其他7种模型,且Acc指标也很出色,达到了97.83%,因此,在重叠染色体分割的任务上,MCBA-UNet模型的整体性能更好。
3.4. 消融实验
为了评估MobileNet、CBAM和跳跃链接(Skip Connection)对于MCBA-UNet模型整体的影响,本文对MCBA-UNet进行了消融实验,分别评估不同情况下的模型对重叠染色体分割的性能,如表2所示。本文设计了7组对比实验,在UNet++引入MobileNet模型后,分割性能略有提升;在引入了CBAM注意力机制后,分割性能显然得到提升,准确率达到96.35%;而对Unet++模型优化了跳跃链接(Skip Connection)后,分割性能较初始值显著提升,准确率达到98.73%。因此,本文消融实验中的各个模块均有助于提升MCBA-UNet模型的准确性和有效性,跳跃链接也对该模型的分割性能做出了一定贡献。

Table 2. Results of ablation experiment
表2. 消融实验结果
4. 结语
本文针对重叠染色体分割提出了MCBA-UNet模型,从评价指标上来看该模型具备良好的分割性能,获得了更精准更高效的分割结果,解决了交叉、重叠染色体分割的难题,主要结论如下:
1) 在UNet++模型的基础上使用嵌套的稠密卷积块改进跳跃连接后,重叠染色体分割任务的准确率得到提升;
2) 在(1)的基础上引入CBAM注意力机制和MobileNet轻量化模型,使得该模型能够在提升分割性能的同时减轻计算负担,且分割准确率可达98.73%。
未来工作中将会考虑到临床实用性,引入多模态融合技术以提升图像质量,避免因染色体成像设备的差异而导致误差。此外,可以增加更多的标注数据对模型进行训练以获得更优的分割效果,为染色体核型自动分析系统做出进一步贡献。