1. 引言
光学相干断层扫描(OCT)可以产生微米级分辨率的生物组织的横截面图像[1]。该方法近年来在临床诊断方面取得飞速发展,现在已成为视网膜成像的重要工具。由于OCT设备的光波多次前向和后向散射引起散斑噪声,斑点噪声的存在一般会模糊细微但重要的形态学细节,最终影响临床诊断。它还会降低计算机后续的自动分析性能。尽管近二十年来光学相干断层扫描的成像分辨率、成像速度和成像深度都有了很大的提高,但是散斑噪声作为成像的一个固有问题,一直影响着成像质量。商用扫描仪中最常见的去斑方法是B-scan平均法。通过对从同一位置获取的多个配准的B-scan进行平均,可以获得高质量的图像。然而,因为重叠的B-scans需要很长的采集时间,这种方法目前对于3D扫描是不切实际的。在本文中重点关注另一类散斑抑制方法,它利用基于软件的图像处理算法来增强图像质量。
到目前为止,针对OCT图像降噪已经提出了大量的图像处理算法,大致可以分为几类,并且有一些重叠:基于偏微分方程(PDE)的方法,如各向异性扩散滤波[2] [3],基于块匹配的方法,如非局部均值(NLM) [4]或块匹配和3D滤波(BM3D) [5],基于小波的稀疏变换方法、连续曲边变换[6] [7],或字典学习等方法[8]。
OCT图像降噪的主要目的是减少同质区域的颗粒外观,另一个重要问题是保留图像细节,特别是边缘,因为边缘是视觉检查和自动分析如分割、分类所需的最重要信息。由于光学相干断层扫描图像中的散斑噪声,许多空间滤波器倾向于过度平滑图像,导致边缘对比度降低。基于块匹配的方法会由于不同块中的边缘不一致而导致边缘失真。基于变换的方法也倾向于产生边缘附近具有变换基形状的伪影。近年来,深度学习的卷积神经网络(CNN)为图像去噪提供了新思路。Mao等[9]提出了具有对称跳跃连接的深度卷积编解码网络(RED-Net)。Tai等[10]提出了一种持久存储网络(Mem-Net)。张凯等[11]提出了深度卷积神经网络(DnCNN)的残差学习用于自然图像去噪。该网络被设计成从噪声输入中预测残留图像。Liu等人[12]提出了多层小波与深度学习结合的方法(MWCNN),将编码器–解码器(U-net) [13]结构和小波变换应用到其模型中。虽然他们扩大了模型的接受范围,同时降低了计算复杂度,但他对小波变换的应用会迫使它们的网络使用小波变换的特征信息,从而导致性能下降。代豪等[14]提出了一种基于模块化降噪自编码器的渐进式OCT图像降噪方法。然而,在所有这些工作中,都使用了加性噪声假设,不能有效去除OCT图像中的散斑噪声。
因此为了克服传统降噪方法的局限性,本文提出了一种新的基于CNN的降噪网络,对先前的单一下采样的降噪卷积网络进行改进[15],添加了上采样的内容,将整个降噪网络改变成一个新的U-Net网络,同时优化上采样模块,增加空间注意力机制模块,使其能更好地利用有限的存储空间,同时通过减少存储特征地图信息的内存,使网络可以拥有更多的参数。本文将密集连接与残差连接应用到卷积块和网络中,增强了网络的特征提取能力也缓解了梯度消失的问题,并且和经典算法与深度学习算法进行了比对,验证了该方法的效果。
2. 网络模型方法与原理
随着深度学习研究开始应用图像处理,如何有效地利用有限的内存深化网络显得尤为重要。传统图像处理算法的解决方案之一是分层结构[16]。这种结构被用于众多图像处理研究,以降低算法的复杂度和内存消耗。对于CNN模型,Ronneberger等人提出了U-Net,它将层次结构的概念应用于CNN模型。U-Net由两条路径组成:收缩路径和扩展路径。在收缩路径中,U-Net使用步长为2的2 × 2卷积核进行最大池化将特征映射的大小减半,同时将特征映射的数量增加到两倍。因此,每个下采样步骤都会使U-Net要处理的特征图减半。它使U-Net能够使用比其他网络更多的参数。受U-Net的启发,本文提出的网络采用了层次化的结构,并在具体结构上做出了优化,提出基于空间注意力的密集残差连接分层去噪网络(Densely Residual-connected and Spatial attention U-Net, DRS-Unet),整体结构如图1。
DRS-Unet应用了改进的U-Net的分层结构。在收缩路径中,当输入图像进来时网络首先执行1 × 1卷积运算,然后是参数化整流线性单元(Parametric Rectified Linear Unit, PReLU)的激活层为本文所提出的密集局部残差块(Densely-connected Local-Residual Block, DLR Block)生成特征图,PReLU层是带可学习性参数的ReLU层。这个初始卷积层使网络能够在DLR块中应用局部残差学习。如图1所示,初始卷积层为DLR块生成64个特征图。本文提出的网络的每一层中存在两个DLR块,下采样模块将经过两个DLR块的输出特征图下采样,对特征图进行下采样时会将输出特征图的数量增加一倍,以防止信息量严重减少。在扩张路径中,经过两个DLR块的操作之后,每个层次输出的特征图被上采样时,因为本文对上采样块应用了亚像素插值的方法[17],特征图的大小减少到四分之一,数量变为二分之一。为了防止特征图数量的严重减少,网络使用了在下采样特征图的信息,将下采样块的输出通过在跳跃路径上添加极化空间注意力机制模块(Polarized Filtering Attention Block, PFA Block)对特征图进行校准后连接到上采样块的输入,这样补足了右半部分的特征图数量。对于最底层,本文将上采样块的输入连接到下采样块的输出。在经过三层收缩与三层扩张路径后,通过1 × 1卷积和PReLU生成最终输出。并且本文将全局残差学习应用于提出的网络,通过将学习到的残差信息应用于输入图像来生成输出图像。其中实线箭头是特征图信息的直接叠加,虚线箭头是特征的融合。下面对各个模块进行具体介绍。
Figure 1. Architecture diagram of DRS-Unet
图1. DRS-Unet架构示意图
2.1. 密集连接与上下采样
随着CNN模型的深入,许多模型表现出的另一个问题是消失梯度问题,它造成了深层网络模型难以训练的问题。为了解决这个问题,Huang [18]等人提出ResNet利用跳跃连接使网络能够学习残差函数解决了梯度消失问题。DenseNet [19]与ResNet具有一定相似性,它通过前馈的方式将每一层与所有层连接起来,让网络能重新利用先前的特征图信息。为了最大程度利用这两种网络,本文将跳跃连接与密集连接进行组合形成DLR Block。不同于一般的残差密集组合只采用直接相加的逻辑,本文将融合与相加一起应用于模块中如图2所示,conv3表示3 × 3卷积层,c表示特征图的数量。DLR块由三个卷积层组成,其后是Prelu,通过融合使每次卷积的特征图数量增加1/2c,又在最后一层回到c使得其也可使用局部残差学习。最终本文改善了信息流通和解决了梯度消失问题,也强化了模型的学习能力。
Figure 2. Densely-connected local-residual block
图2. 密集局部残差块
图3显示了下采样模块(Downsampling Block)的架构。下采样块由两层组成:2 × 2最大合并层和3 × 3卷积层,然后是PReLU。当特征图作为输入进入时,步长为2的2 × 2最大池化操作会减小特征图的大小。然后,3 × 3卷积层将特征映射的数量加倍,以防止信息量的严重减少。因此,下采样块的输出特征图的大小是输入特征图的四分之一,特征图的数量是输入特征图的两倍。
Figure 3. Downsampling block
图3. 下采样块
图4显示了上采样块(Upsampling Block)的架构。上采样块由两层组成,带PReLU的3 × 3卷积层和亚像素内插值层,与使用2 × 2反卷积层的U-Net不同,本文采用亚像素插值层来更高效、更准确地扩展特征图的大小。在亚像素内插层扩大特征图大小之前,3 × 3卷积层对特征图进行细化,使亚像素插值层能够准确地对特征图进行插值。因此,上采样块的输出特征图的大小是输入特征图的两倍,通道数是输入特征图的四分之一。
Figure 4. Upsampling block
图4. 上采样块
2.2. 空间极化注意力机制
目前,注意力机制主要分成两大类基于通道的和基于空间的[20],基于通道的注意力大部分与分类任务相关,在本文中采用空间注意力机制,能突出图像的重要部分。本文中的空间注意力机制启发于极化滤波(Polarized Filtering),只允许正交与横向的光通过,来提高对比度。它在一个方向上对特征进行压缩,并让正交方向的维度保持高分辨率,再对损失的强度范围进行提高,本文的注意力机制类似光学透镜过滤光一样,它会对它甄别到的重点区域的特征进行增强或削弱。具体结构如图5所示。
Figure 5. Polarized filtering attention block
图5. 空间极化注意力机制模块
极化注意力模块先采用1 × 1卷积将输入的特征转换为
和
,再对
的特征使用全局池化将其在空间维度上被压缩,转换成了1 × 1的大小;而
特征的空间维度保持在H × W,一个比较大的水平。然后再采用Softmax对被压缩的
进行增强。然后将
和
进行矩阵乘法,这一步具体体现了极化滤波的思想,滤波再增强。最后再与原始输入进行点乘完成整个注意力机制,同时也是完成了特征的再次分配。具体权重公式如式下:
(1)
X是输入的特征图,经过标准1×1卷积层分成
和
,
、
和
是三个张量整形算子,
是全局池化,
是Softmax函数,
是Sigmoid激活函数。最终通过注意力机制完成对整个模型的提升。
3. 实验结果与分析
3.1. 数据集及实验设置
运用本文方法对眼科的临床数据进行图像降噪处理。第一个数据集来自第四届MICCAI眼科医学图像分析(OMIA)研讨会的开源数据集(https://retouch.grand-challenge.org/) [21]。数据集中可用的图像是使用来自三个不同制造商的OCT成像设备获取的,Cirrus (Zeiss Meditec)进行128次B扫描、T-1000和T-2000 (Topcon)具有128次B扫描、Spectralis (Heidelberg Engineering)进行49次B扫描,为数据集1。数据集2是由温州医科大学利用医用OCT设备采集的眼科视网膜图像的临床数据。
本文先对OCT数据集图片进行了初步的图像筛选与质量评估,去除其中伪影过多和有明显瑕疵的图像,最终筛选出训练集1000张、测试集50张图像。模型训练和测试实验之前对数据集中每张OCT图片进行预处理。裁剪白色无关区域并把图片剪裁成合适的大小,保证OCT图片的主要特征信息,将所有训练集图像打乱顺序,进行随机翻转等操作再导入训练模型中。TensorFlow2.0为本实验的开发框架,数据集的训练和测试在Nvidia Tesla V100 GPU HPC集群上进行,自适应矩估计为优化算法来训练该网络,设置训练时初始学习率为0.001,训练得到的降噪网络模型,最后用客观图像质量指标峰值信噪比(Peak Signal to Noise Ratio, PSNR),结构相似性(Structural Similarity, SSIM)和边缘保持系数(Edge Preservation Index, EPI)评价其降噪性能。
(2)
(3)
(4)
(5)
PSNR是用来标定图像失真情况和噪声污染水平的一个客观标准,图像之间的PSNR越高则越相似。均方差中I和K分别为原始图像和降噪后的图像,m*n为图像的大小。SSIM是用来描述图像相似度的客观指标,
是降噪后图像x的平均值,
是原始图像y的平均值,
是x的方差;
是y的方差;
是x和y的协方差;
和
是用来维持稳定的常数;EPI越接近1,图像边缘保持的越好。
3.2. 降噪结果
本实验使用经典降噪算法NLM、BM3D,深度学习算法DnCNN、基于Resnet的方法和本文提出的DRS-Unet对OCT图像进行降噪处理,通过EPI、PSNR和SSIM评估以上五种算法对OCT图像降噪的效果。由于散斑噪声是随机噪声,统计学上其加和为零,所以本文在原始图像中添加三种不同水平的均值为0,方差(Var)为0.006、0.008、0.01的散斑噪声,客观比较各个算法对含噪图片的降噪表现,实验结果如图6,表1~3。
(a) OCT原始图像 (b) 噪声图像(Var = 0.008)
(c) NLM (d) BM3D
(e) DnCNN (f) ResNet
(g) DRS-Unet
Figure 6. Various types of noise reduction for one OCT-Bscan image in test set 1
图6. 测试集1中一张OCT-Bscan图像的各类降噪效果
Table 1. Comparison of noise reduction performance of each model under the noise level of Var = 0.006
表1. Var = 0.006噪声水平下各模型降噪的性能比较
模型 |
边缘保持系数EPI |
峰值信噪比PSNR/dB |
结构相似性SSIM |
噪声图像 |
- |
35.7 |
0.9698 |
NLM |
0.71 |
38.05 |
0.9473 |
BM3D |
0.77 |
37.68 |
0.9627 |
ResNet |
1.09 |
40.43 |
0.9865 |
DnCNN |
1.06 |
40.62 |
0.9873 |
DRS-Unet |
1.04 |
41.4 |
0.9928 |
Table 2. Comparison of noise reduction performance of each model under the noise level of Var = 0.008
表2. Var = 0.008噪声水平下各方法降噪的性能比较
模型 |
边缘保持系数EPI |
峰值信噪比PSNR/dB |
结构相似性SSIM |
噪声图像 |
- |
34.46 |
0.9609 |
NLM |
0.68 |
36.40 |
0.9300 |
BM3D |
0.75 |
35.96 |
0.9564 |
ResNet |
1.11 |
38.53 |
0.9825 |
DnCNN |
1.09 |
38.75 |
0.9838 |
DRS-Unet |
1.06 |
39.71 |
0.9896 |
Table 3. Comparison of noise reduction performance of each model under the noise level of Var = 0.010
表3. Var = 0.01噪声水平下各方法降噪的性能比较
模型 |
边缘保持系数EPI |
峰值信噪比PSNR/dB |
结构相似性SSIM |
噪声图像 |
- |
33.49 |
0.9525 |
NLM |
0.65 |
35.09 |
0.9123 |
BM3D |
0.72 |
34.98 |
0.9249 |
ResNet |
1.13 |
37.43 |
0.9784 |
DnCNN |
1.12 |
37.23 |
0.9774 |
DRS-Unet |
1.09 |
38.34 |
0.9851 |
在噪声方差为0.008噪声水平下从肉眼的直观效果上而言,相较其他算法,本文提出的DRS-Unet在降低散斑噪声方面展现较好的图像品质,大大减少视网膜分层中的颗粒状分布的散斑噪声,同时视网膜图像的分层信息和边缘结构特征也得到了保留。
在传统算法中,NLM、BM3D的降噪结果在图像视网膜分层和边界处都存在伪影,且都是通过减少空间结构信息拉高图像质量。基于Resnet、DnCNN与DRS-Unet这三种方法在直观感受和客观评价上均得到了比经典算法更好的效果,在图像分层结构处取得良好降噪效果,背景中也抑制了部分噪声。前两种深度学习方法相比经典算法在客观参数指标上均有8%的提升,DRS-Unet又比DnCNN和基于Resnet的方法高了2.7%左右。同时根据图7中的显示DRS-Unet在不同的噪声水平下都有较好的降噪表现,并且随着噪声水平的增加它相较DnCNN等方法的优势也在变大,说明DRS-Unet拥有更强的泛化能力。
Figure 7. PSNR of each model after noise reduction at different noise levels
图7. 不同噪声水平下各模型降噪后的PSNR
为了客观的验证本方法的有效性,在第二个数据集中,我们对这五种方法进行验证,结果如表4所示,在相同噪声水平下,DRS-Unet依然可以保持优势。证明在不同的数据集中,在OCT降噪方面DRS-Unet同样拥有更好的效能。
Table 4. Comparison of the performance of each method for denoising in dataset 2
表4. 在数据集2中各方法降噪的性能比较
模型 |
边缘保持系数EPI |
峰值信噪比PSNR/dB |
结构相似性SSIM |
噪声图像 |
- |
31.78 |
0.9731 |
NLM |
0.72 |
34.05 |
0.9586 |
BM3D |
0.78 |
33.49 |
0.9631 |
ResNet |
1.15 |
35.87 |
0.9731 |
DnCNN |
1.13 |
36.40 |
0.9753 |
DRS-Unet |
1.10 |
37.20 |
0.9821 |
4. 结论
本研究提出的DRS-Unet网络是在基础的U-Net网络中添加密集连接和残差连接,并通过注意力机制进一步加强了整个网络的噪声提取能力,最终实现了对视网膜图像的降噪。在实验中,将DRS-Unet与经典算法和深度学习算法进行比对,通过客观图像质量指标PSNR、SSIM和EPI进行评估。结果显示,在噪声方差为0.008噪声水平下,DRS-Unet的EPI、PSNR和SSIM分别为1.06、39.71、0.9896,与较优的DnCNN算法相比,分别提高了0.03、0.96、0.0058。DRS-Unet在不同的噪声水平下都有较好的降噪表现,并且随着噪声水平的增加,相较其他方法的优势也在变大,说明DRS-Unet拥有较强的边缘保持和泛化能力。本文提出的DRS-Unet在降低散斑噪声方面展现较好的性能,应用在临床上,可以降低专业眼科医生对患者眼科疾病的诊断难度,减少对患者的漏诊和误诊。
NOTES
*通讯作者。