1. 引言
阿尔兹海默症(Alzheimer’s Disease, AD)是一种以记忆功能和认知功能进行性退化为特征的临床综合征,是导致痴呆症的主要原因,也是导致人类死亡的一大原因。AD的潜伏期较长,其临床表现也会随着时间的推移而慢慢恶化,它通常隐匿起病,持续进行性发展,临床上表现为记忆障碍、失语、失用、失认以及视空间能力损害等一系列认知功能减退和非认知性神经精神症状 [1],而要在相关症状出现之前准确诊断患病风险并不容易。磁共振成像(MRI)是医学专业人员用来诊断神经和脑相关疾病的重要工具。由于它具有非侵入性、可以提供高空间分辨率的图像等特点,成为了脑结构分析的首选方法。研究发现,阿尔兹海默患者的海马体、颞叶以及额叶等部位会比正常衰老的老人萎缩的程度更大。所以,如果我们可以很直接的观测到这些组织,那么对于医生的临床诊断将会有很大的帮助。
常用的医学图像分割方法可以分为传统型的和深度学习型的,传统型的有随机森林(Random Forest, RF)、遗传算法(Genetic Algorithm, GA)、支持向量机(Support Vector Machines, SVM)等方法。深度学习的主要有编码–解码器、模型压缩、注意力机制、图像合成等方法。而随着近些年对深度学习研究的加深,越来越多的学者使用深度学习的方法对医学图像的语义分割展开研究。由于每种方法对解决的问题具有一定的针对性,所以对每种方法的评价都需要结合实际需要解决的问题来进行。而我们的工作是分割阿尔兹海默症患者的脑MRI图像,针对已有的数据集特点以及脑部结构的复杂性,上述的这些方法要么在处理复杂的不连续结构中难以获得满意的效果,要么就是只能进行单个病灶的识别,很难达到一个令人满意的效果。因此,在现有的MRI图像分析方法中应该进一步关注如何对医学图像这样一个特殊的数据进行特征提取,如何对脑部这样一个复杂的环境进行分析,如何使用少量的带标注的数据集也能有一个很好的效果,这些都是我们所要考虑的问题。
针对脑部医学图像的特征,本文提出了一种以Unet为基础适用于阿尔兹海默病灶分割的模型。本文的主要贡献有以下两点:
1) 本文将注意力机制运用在特征提取的过程中,改善了因脑部图像结构复杂,目标体积小,而导致特征提取性能低的问题。
2) 本文在跳跃连接过程中引入了SENet进行处理后再进行连接,用以增强低层语义和高层语义的连接效果。并使模型可以更好的进行多尺度预测和为分割提供更加精细的特征。
2. 相关工作
卷积神经网络(Convolutional Neural Networks, CNN)在图像分割、预测和分类等应用中得到了广泛的应用。Long等人在2015年时提出了一种用于像素级别标记的完全卷积神经网络模型(FCN)新的分割模型 [2],他们采用反卷积对最后一个卷积层的特征图进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测。同时,他们使用Skip-connection将底层语义和高层语义进行融合,使得到的结果更加平滑。与之类似的还有 [3] 中的Unet网络模型也使用了Skip-connection,该模型是基于编码–解码且完全对称的网络模型。不同的是FCN中Skip-connection联合是通过对应像素的求和,而Unet中的Skip-connection联合是通过对其通道的拼接。在当时,Unet通过对细胞和细胞膜图像的分割取得了极好的效果而得到了大家的关注。以至于,后面许多对医学图像的分割网络中,很大一部分都是基于Unet进行改进而得到的。3DUnet [4] 的诞生给医学影像分割,特别是那些需要在三维影像上进行语义分割的任务带来了极大的帮助,很大程度上解决了3D图像分割时需要将一个个切片输入模型进行训练的麻烦,也大幅度提升了训练效率。Zhou等人提出了一种在解码器子网上聚合不同语义尺度的特征,从而产生高度灵活的特征融合的网络模型Unet++ [5]。Huang等人提出了一种全尺寸连接的Unet模型Unet3+ [6]。Fabian等人使用nnUnet在脑肿瘤分割中获得较好的结果 [7]。H-DenseUnet可用于分割肝脏和肝肿瘤 [8]。Alom等人提出了一个递归U-Net模型和一个递归剩余U-Net模型,分别称为RU-Net和R2U-Net。所提模型结合了U-Net、剩余网络和循环卷积神经网络。其中,利用循环卷积层进行特征累积,可以更好地表示分割任务的特征,具有更好的图像分割性能 [9]。
注意力机制在近些年中也渐渐的被引入到计算机视觉领域中了,Wang等人在深度残差网络(ResNet)中增加了一个用于图像分类的注意模块 [10],他们提出的注意力模块由几个编解码层组成。Nie等人设计了一种注意力模型,可以更准确的从MRI图像中分割前列腺 [11]。Sinha等人提出了一种基于多层注意力腹部器官分割的方法 [12]。此外,对抗性训练在近些年得到了迅速的发展,不少学者也将其应用到了医学图像语义分割中。Khosravan等人提出了一种用于分割CT图像中胰腺的对抗性训练框架 [13]。Son等人使用GANs算法来分割视网膜图像 [14]。Xue等人基于对抗性网络从MRI图像中分割出了脑肿瘤 [15]。
3. 本文方法

Figure 1. The architecture of the proposed method
图1. 网络模型图
由于我们数据集的数量较少,以及对模型参数量的控制,本文选择了在Unet的网络模型上进行改进。考虑到人体脑部中的组织较多,结构也相对复杂,且分割的部位中有些部位体积较小。因此我们在模型中加入了两种注意力机制:CBAM [16] 和SENet [17]。其中,CBAM用于特征提取的时候,而SENet用于网络Skip-connection的时候。使得我们的网络模型在特征提取的时候,更加多的去关注我们需要分割的目标部位,而不是背景或其他不需要关注的部位。同时在Skip-connection的时候,可以尽可能的通过通道的特征相应去全局的关注我们的目标特征。我们的网络模型概述图如图1所示。
3.1. 特征提取过程中使用CBAM
CBAM由Woo等人于2018年提出,CBAM通过空间注意力和通道注意力分别进行空间和通道上的注意力机制。同时它也是一种轻量的注意力机制,可以插入到整个网络的卷积模块中,实现端到端的同步训练。针对我们的数据特点,我们在每次特征提取的时候加入了CBAM,改进后特征提取模块如图2所示。

Figure 2. Feature extraction module incorporating CBAM
图2. 包含CBAM后的特征提取模块
输入特征在经过原有的两个特征提取模块中间还要经过CBAM模块,我们可以看到CBAM中主要包含两个模块:通道注意力模块和空间注意力模块。这两个模块分别在特征的通道和空间两个方面使分割部位获得更多的关注。当给定一个特征图
作为输入,该特征图会依次经过CBAM中的通道注意力模块和空间注意力模块,并且在经过两个模块后都会与进入模块前的特征进行逐个元素相乘,同时也会去广播相应的关注特征:会沿着空间维度广播通道维度的关注特征,也会沿通道维度广播空间维度的特征,整个过程如公式(1)所示:
(1)
在公式(1)中,F表示输入特征,
表示通道注意力模块(其中的
表示输入的值)。
表示按元素逐个相乘,F1表示经过通道注意力模块后与F进行
运算后得到的特征。同理,
表示空间注意力模块,F2表示经过空间注意力模块处理后与F1进行
运算后得到的特征,同时也是整个CBAM模块处理后得到的特征。
在通道注意力模块中首先使用了平均池化和最大池化操作来聚合特征要素中的空间信息,生成了两种不同的上下文描述特征
(经过平均池化层得到)和
(经过最大池化层得到)。然后,这两个描述特征被输入到多层感知机(MLP)中处理后按元素进行逐个相加后,最后经过激活函数得到通道注意力映射图
。整个过程如公式(2)所示:
(2)
其中
表示Sigmoid函数,
和
是MLP的权重,两个输入
和
是共享使用这两个权重的。
与通道注意力模块相似,空间注意力模块中对输入的特征也要先进行最大池化和平均池化。不同的是,空间注意力模块中是对通道维度来进行聚集的,池化后也得到两种描述特征
(经过最大池化层得到)和
(经过平均池化层得到),并将这两个描述特征按照通道维度拼接起来。然后使用卷积核进行卷积操作,并将卷积后的特征使用激活函数Sigmoid函数激活便得到空间注意力映射图
,具体的过程如公式(3)所示:
(3)
其中
表示Sigmoid函数,
表示卷积核大小为7 × 7的卷积操作,
表示将
和
两个特征按照通道维度进行拼接。
3.2. Skip-Connection过程中使用SENet
SENet (Squeeze-and-Excitation Networks)的目的是希望显式地建模特征通道之间的相互依赖关系,采用了特征重标定策略。简单的说就是通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。SENet首先会对卷积得到的特征图进行Squeeze操作,得到通道级的全局特征,然后对全局特征进行Excitation操作,学习各个通道间的关系,也得到不同通道的权重,最后乘以原来的特征图得到最终特征。本质上,SENet是在通道维度上做注意力机制或者门控制操作,值得一提的是SENet是通用的,可以嵌入到现有的网络框架中。
我们可以看出在SENet中,比较重要的两个操作是Squeeze和Excitation操作。由于传统的卷积只是在一个局部空间内进行操作,很难得到足够的信息来提取各个通道之间的关系。因此,在SENet中提出了Squeeze操作,将一个通道上整个空间的特征编码为一个全局的特征,采用全局平均池化来实现,每个通道上的具体操作如公式(4)所示:
(4)
其中H和W分别表示输入特征在空间维度的高和宽,
表示对应点的像素值,
为通道
经过Squeeze操作后的对应输出。Sequeeze操作得到了全局描述特征,接下来需要另外一种运算来捕获通道之间的依赖关系。这个操作需要满足两个条件:第一它要灵活,它要可以学习到各个通道之间的非线性关系;第二点是学习的关系而不是互斥的,因为这里允许有多个通道的特征,而不是one-hot形式。因此,这里采用sigmoid形式的门控制机制,具体过程如公式(5)所示:
(5)
其中
,
(r是降维超参数,为了减少参数量和计算量);
表示ReLU函数,可以使结
果获得更多的非线性特征;
表示Sigmoid函数。经过Squeeze和Excitation操作后,最后还需要进行一个
操作,该操作具体如公式6所示:
(6)
其中特征映射
,
为其对应的标量,两者相乘和得到了对应结果
。
其实整个操作过程可以看作学习到了各个通道的权重系数,从而使得Skip-connection后进行上采样时从全局的角度对各个通道的特征更有辨别能力。
4. 实验与分析
4.1. 数据集
本次实验中的数据集为同时含有额叶、颞叶和海马体三个部位的人脑切片。由于数据标注困难以及同时含有三个部位的切片较少,所以我们一共只获得了136张数据图片,并从中选取了100张图片作为训练集,18张图片作为验证集剩下的18张作为测试集。
4.2. 评价指标
在医学图像分割中,常用的评价指标主要有Dice和Iou两种,本次实验主要是采用Dice系数来作为评价指标。Dice系数的定义如公式(7)所示:
(7)
Dice系数本质上是模型的预测输出和标签之间重叠的度量系数,其范围为0~1,为1时表示完全重叠。
4.3. 实验结果
为了验证我们的模型的有效性,我们使用相同的数据集在同一台设备中进行了消融实验。实验结果如表1所示。
从实验结果中我们可以看出,我们在原本的Unet网络模型中加入了CBAM和SENet是有效果的,并且两个的效果有一定的叠加作用。从部位来看,不管是使用哪个模型,额叶的效果都是最好的,颞叶的效果相比额叶的效果要稍微低一点,但是海马体的分割效果和前两者相比就相差了很多,这主要是因为海马体的体积较小,特征提取效果偏差。为了更好的观察各个模型之间效果的对比,我们将各个模型的输出进行了可视化操作,具体如图3所示。

Figure 3. Comparison of experimental results: red (frontal lobe), green (temporal lobe), blue (hippocampus)
图3. 实验结果对比:红色(额叶)、绿色(颞叶)、蓝色(海马体)
5. 结论
本文将CBAM应用到了Unet的特征提取中,并将SENet应用到了Unet的Skip-connection过程中。从而增强了分割部位的语义信息,并降低了其它噪声对分割所带来的影响。同时,在上采样的过程中模型可以更好的从全局中把握通道上的语义特征。实验表明,本文中对原有的Unet模型进行的改进是有效的。
但是,我们的模型还是存在着一些不足,比如模型对小目标(海马体)分割的效果并不是很理想,而对其他两个部位的分割的效果也还有一定的提升空间。而我们接下来的工作将主要针对模型整体分割效果以及小目标分割效果的提升来展开。由于医学图像标注需要一定的专业性,所以带标签的医学图像数据集较少,但是又有很多没有标签的医学图像。为了充分利用这些没有标签的图像,我们下一步的工作也将会倾向于使用半监督或者无监督学习的方法。
基金项目
广东省重点领域研发计划项目(2019B010109001);广东省信息物理融合重点实验室(2016B030301008);广东省农业科学与技术创新团队项目(2019KJ147)。