1. 引言
近年来,卫星图像处理因其在广泛应用场景中的特殊价值而受到广泛关注 [1] [2] (例如,时间跨度比较研究、土地覆盖分类、自然灾害预警、城市经济水平评估、资源勘探等)。但是在采集、传输、存储、显示的过程中,由于传感器因素、环境因素、人为因素等影响,会导致采集的信息有或多或少的损失,导致图像失真而变得模糊,严重影响图像的质量,从而对后续计算机视觉任务 [3] [4] 的准确性带来负面影响。因此,本文主要讨论如何以经济高效的方式消除图像噪声以提供高质量的卫星遥感图像。在传统的去噪模型 [5] [6] [7] 中,都是在空间域进行处理,光学遥感图像在空间域的恢复方法通常是将高频部分和低频部分同时处理,这是不合适的。由于一些典型的噪声(如椒盐噪声)都与高频部分有关。因此,对图像不同频率部分进行分别处理是解决图像去噪问题的一个好方法。小波变换 [8] 在频域中对图像进行处理已经被证明是一种非常有效的图像恢复方法。一般来说,更大的感受野可以更好的考虑更多的空间上下文来提高图像恢复效果。对于没有池化的CNN,感受野大小可以通过增加网络深度或使用更大尺寸的滤波器来放大,然而,这通常会导致计算成本更高。因此,在避免增加计算负担和潜在的性能牺牲的同时,应该小心使用大的感受野。注意力机制(AM)最初被用于机器翻译,现在已成为神经网络领域的一个重要概念。在人工智能(Artificial Intelligence, AI)领域,注意力模型已成为神经网络结构的重要组成部分,并在自然语言处理、统计学习、语音和计算机等领域有着大量的应用。对于输入2维图像的CNN来说,一个维度是图像的尺度空间,即长宽,另一个维度就是通道,因此基于通道的注意力机制可以通过建模各个特征通道的重要程度,然后针对不同的任务增强或者抑制不同的通道来减少计算成本,并以此来获得更大的感受野。
本文提出了一种带有注意力机制的多级小波CNN模型,以扩大感受野,从而在性能和效率之间进行更好的权衡。本文模型由一个可处理子网络和一个可扩展子网络组成。用离散小波变换以取代每个池化操作,保证所有图像信息都可以通过这样的下采样方案来保持。此外,小波变换(DWT)可以捕获特征图的频率和位置信息,这可能有助于保留图像边缘信息。在扩展子网络中,逆小波变换(IWT)用于对低分辨率进行上采样特征映射到高分辨率,以此重构去噪后的高清图像。
2. 相关工作
2.1. 图像去噪
2002年,Starck等人将Curvelet变换 [9] [10] 这种能够很好表征图像各向异性的方法应用到了图像去噪中 [11] ,该方法虽然在去除噪声方面有很好的效果,但同时也会使图像丢失更多的细节。以中值滤波为代表的线性滤波器在图像去噪领域也得到了广泛的应用,因为其算法简单且运行速度快。但是常规的中值滤波器会带来细节的丢失和边缘的模糊,因此科研人员对中值滤波器在做改进。如Loupas等人就提出了一种基于自适应加权的中值滤波算法AWMF [12] ,根据图像各点周围的局部统计量,通过调整权重系数,进而调整滤波器的平滑特性,可以在保留边缘和其他重要特征的同时抑制噪声。在变换域下去噪的方法也被科研人员研究了很多年,上世纪八十年代多分辨率分析(Multi Resolution Analysis, MRA)方法的提出,将小波变换 [8] 成功应用在图像处理中,奠定了小波变换在图像处理领域应用的基础。自此之后,越来越多的基于小波分析的方法被应用在图像去噪领域。另外,三维块匹配算法(Block Matching 3D, BM3D) [7] 是一个效果比较好的传统图像去噪算法。该方法基于图像在变换域具有局部稀疏表示的特点,通过将相似的二维图像块分组到三维组来增强这种稀疏性,然后在三维空间进行滤波处理,最后将结果反变换到二维得到最终的图像。该算法去噪效果显著,可以得到最高的峰值信噪比,但时间复杂度比较高。
在基于人工智能方法的图像去噪技术方面,国内外也有了飞速的发展。以卷积神经网络(Convolutional neural network, CNN)为代表的深度学习技术已经在包括图像去噪在内的图像处理领域得到了成功的应用,取得了比传统方法更好的效果。在2008年,Jain等人将CNN应用在自然图像去噪问题上 [13] ,得到了与传统方法相近或更加优秀的结果.作者在论文中说明了特殊形式的CNN近似于图像去噪马尔科夫模型的推断,但是该方法所使用的CNN没有马尔科夫模型计算困难的缺点,降低了整体计算的复杂度。2012年Burger等人提出了一种基于多层感知机(Multi layer perceptron, MLP)来实现图像去噪的方法 [14] 。作者在论文中声明了如果训练集足够丰富,MLP模型可以比肩当时图像去噪的最优水平。作者认为相对于CNN只能学习到相对有限的函数,MLP的优点在于可以近似所有函数。该方法的一个不足之处是对于不同强度的噪声它无法适应,而若将不同强度噪声的图像同时进行训练则无法达到只对特定噪声进行训练后的结果。在基于深度学习的图像去噪方面,国内也取得了许多突破性的进展。2012年,Xie等人提出了一种基于栈式去噪自编码器(Stacked denoising auto-encoder, SDA)的图像去噪和复原方法 [15] 。作者为了将稀疏编码的思想和深度神经网络结合,提出了栈式稀疏去噪自编码器(Stacked sparse denoising auto-encoder, SSDA)。2016年,Mao等人提出了一种深度卷积编解码网络的图像去噪方法 [16] ,得到了很好的效果。该方法中一共有10个卷积层,包含5个编码卷积层和5个解码卷积层。自该方法以后,在图像去噪领域,CNN显示出了网络结构向更深层次发展的趋势。2017年,Zhang等人提出了一个名为DnCNN [17] 的层数较深的基于CNN的图像去噪方法。DnCNN基于残差网络,还结合了批归一化(Batch normalization, BN),取得了较好的去噪效果。实验表明,BN与残差网络的共同使用可以提高去噪的能力,在特定的噪声水平下,与传统的先进算法如BM3D [7] 相比得到了更优的结果。2018年,Tal等人提出了一种简单而功能强大的全卷积神经网络图像去噪结构 [18] 。它的结构允许利用去噪过程的渐进性质,其中浅层处理局部噪声统计,而更深的层恢复边缘和增强纹理。2019年西北工业大学魏江等人提出一种基于卷积神经网络的遥感图像去噪算法 [19] .该网络包含5个隐藏层,每个隐藏层使用了线性整流函数(Rectified Linear Unit, Relu)作为激活函数,同时使用了BN使网络更好的收敛。实验数据表明,该方法对光学遥感图像的去噪效果较好,优于DnCNN和BM3D等先进的去噪算法。
2.2. 通道注意力机制
对于输入2维图像的CNN来说,一个维度是图像的尺度空间,即长宽,另一个维度就是通道,因此基于通道的Attention也是很常用的机制。通过建模各个特征通道的重要程度,然后针对不同的任务增强或者抑制不同的通道,原理如图1所示。
在正常的卷积操作后分出了一个旁路分支,首先进行Squeeze操作(即图中Fsq(·)),它将空间维度进行特征压缩,即每个二维的特征图变成一个实数,相当于具有全局感受野的池化操作,特征通道数不变。然后是Excitation操作(即图中的Fex(·)),它通过参数w为每个特征通道生成权重,w被学习用来显式地建模特征通道间的相关性。得到了每一个特征通道的权重之后,就将该权重应用于原来的每个特征通道,基于特定的任务,就可以学习到不同通道的重要性。
3. 方法
3.1. 小波变换(WT)
在二维离散小波变换(DWT)中,共有四个滤波器,即fLL、fLH、fHL和fHH被用于与图像x进行卷积 [20] 。然后对卷积结果进行下采样以获得四个子带图像x1、x2、x3和x4。例如,x1被定义为(
)连续两次,即使采用了下采样操作,由于DWT的双正交特性,也可以准确地提取原始图像x通过小波逆变(IWT)重建。即x = IWT
。
在小波变换(WT) [21] 中,子带图像x1、x2、x3和x4也可以被用DWT进一步处理产生分解结果。对于两级WPT,如图2所示,每个子带图像Xi (i = 1、2、3或4)被分解为四个子带图像Xi,1,Xi,2,Xi,3,和Xi,4。同理,可以实现更高级别WPT结果。在分解阶段,有四个预定义的过滤器然后采用下采样作为池化算子。在重建阶段,首先对四个子带图像进行上采样,然后与相应的滤波器进行卷积以产生当前级别的重构结果。最后,通过逆WPT精确地重建图像x。
在图像去噪中,通常需要软阈值和量化来处理分解结果 [22] [23] 。这些运算可以看作是一种与特定任务相关的非线性。在这项工作中,本文进一步扩展了WT通过在任意两个级别的DWT之间添加CNN块以及通道注意力模块(ADM),将其转换为多级注意力小波CNN (AMWCNN),如图2所示。在每一级变换之后,所有子带将图像作为CANN块的输入,以学习图像特征信息作为后续级别的输入转换。由于WPT的双正交特性,本文的AMWCNN可以使用子采样安全操作而不会丢失信息。此外,与传统的CNN相比,DWT的频率和位置特性也有利于图像细节纹理的保留。
3.2. 网络模型

Figure 2. Multilevel wavelet transform, convolutional module with attention mechanism
图2. 多级小波变换、卷积注意力模块
本文用到的模块如图2所示,AMWCNN架构的关键是在每个级别的DWT之后设计CANN块。每个CNN块是没有池化的4层FCN,并且将所有子带图像作为输入。相反,在深度卷积框架中,不同的卷积块分别被部署到低频和高频中 [24] 。CANN块的每一层由3 × 3滤波器(Conv)卷积和批量归一化(BN)块组成然后通过整流线性单元(ReLU)操作。在最后一个CANN块的最后一层,采用没有BN和ReLU的Conv来预测残差图像。

Figure 3. Multi-level wavelet CNN model with attention mechanism
图3. 基于注意力机制的多级小波CNN网络模型
AMWCNN的总体架构如图3所示,其由收缩子网络和扩展子网络组成。本文网络在下采样和上采样中使用DWT和IWT而不是像传统的U-Net [25] 中使用最大池化层和上卷积。在本文网络中,下采样导致特征图通道的增加,除了第一个块外,其他CANN块都被部署用来减少特征图通道,以实现紧凑表示。在本文网络中,将元素求和用于组合来自收缩和扩展子网络的特征图。在本文的实现中,AMWCNN采用了Haar小波作为默认小波。
用θ表示AMWCNN的网络参数,
是网络输出。让
作为训练集,yi是第i个输入图像,xi是相应的地面真实图像。AMWCNN网络学习的目标函数如公式(1)所示:
(1)
采用ADAM算法通过最小化目标函数来训练AMWCNN网络。
AMWCNN中的DWT与池化运算和扩张滤波密切相关。以Haar小波为例,在2D Haar小波中,低频子带fLL如公式(2)所示:
(2)
当只考虑低频子带时,DWT和IWT将分别在AMWCNN中扮演池化和上卷积的角色。当考虑到所有子带时,AMWCNN可以避免传统采样造成的信息损失,并有利于恢复结果。
类似地,小波变换中其他子带fLH、fHL和fHH的定义如下:
(3)
给定一个尺寸为m × n的图像x,在经过Haar小波变换后图像x1的第(i,j)值可以写为x1(i,j) = x(2i − 1, 2j − 1) + x(2i − 1, 2j) + x(2i, 2j − 1) + x(2i, 2j),同理,x2(i,j),x3(i,j),x4(i,j),可以被同样定义。而扩张滤波在位置为(2i – 1, 2j – 1)处的图像x可以被写为:
(4)
其中,k为3 × 3尺寸的卷积核。
4. 实验
4.1. 实验设置
4.1.1. 数据集及网络设置
为了训练本文的AMWCNN网络,采用NWPU-RESISC45数据集,该数据集包含像素大小为256 × 256共计31,500张图像,包括公路、建筑、飞机、车辆等45个场景类别,其中每个类别有700张图像。我们在其中挑选了10类具有去噪需求的场景图像,经过筛选得到了3000张大小为256 × 256的图像作为训练样本集,通过对比发现含有真实噪声的遥感图像与含有20以下标准差的高斯噪声图像接近,因此将原始图像中加入了标准差为20的高斯噪声模拟出含噪样本集。之后挑选100张作为验证,100张作为测试。AMWCNN被训练为学习从噪声图像到去噪结果的映射。
4.1.2. 性能指标
使用峰值信噪比(Peak signal to noise ratio, PSNR)和结构相似性(Structural similarity, SSIM)作为客观评价指标。PSNR是图像去噪研究中最为常用的性能评价指标,该指标数值越大,表明图像去噪效果越好,但某些情况下PSNR并不能完全反映图像的去噪效果。SSIM是用来评价两幅图像结构相似性的指标,图像去噪效果越好,SSIM值越接近于1。
4.2. 对比实验
本文选用了BM3D、DNCNN、FFDNET与IRCNN方法与本文提出的算法进行对比,PSNR和SSIM的量化对比结果如表1和表2所示。从表中数据可知,在不同噪声水平下本文算法的PSNR值都要好于其他方法。噪声水平为15时,本文算法在100幅测试图像上PSNR的均值为37.8831 dB,相较于BM3D提高了5.2 dB左右,相较于DNCNN等方法提高了4.3 dB左右。从SSIM数据中也可以看出经过本文所提出的算法去噪后的图像在结构相似性上也要好于其他方法,在随机挑选的100幅测试图像上的SSIM平均值可达0.9707,而其他方法的SSIM平均值均在0.93左右。同样的,在噪声水平为25,30的时候,本文算法的数值也要高于其他方法。

Table 1. PSNR values for different methods at different noise levels (σ = 15, 25, 30)
表1. 不同噪声水平(σ = 15, 25, 30) 下不同方法的PSNR值

Table 2. SSIM values for different methods at different noise levels (σ = 15, 25, 30)
表2. 不同噪声水平(σ = 15, 25, 30)下不同方法的SSIM值
4.3. 去噪效果
为了验证本文的去噪效果,本文在NWPU-RESISC45数据集中选取4幅不同场景下的遥感图像,通过观察遥感图像的视觉效果并对比细节恢复程度对算法进行评价,如图4所示为在σ = 15,25,30的不同噪声水平下,含噪遥感图像和本文算法去噪图像的结果展示,通过视觉观察,可看出本文算法较好地去除了噪声,去噪图像在视觉效果上更加清晰。

Figure 4. Comparison of remote sensing image denoising results by this algorithm. (a) Noise image (σ = 15); (b) Denoised image; (c) Noise image (σ = 25); (d) Denoised image; (e) Noise image (σ = 30); (f) Denoised image; (g) Noise image (σ = 50); (h) Denoised image
图4. 遥感图像通过本文算法去噪的结果对比。(a)噪声图像(σ = 15);(b) 去噪结果;(c) 噪声图像(σ = 25);(d) 去噪结果;(e) 噪声图像(σ = 30);(f) 去噪结果;(g) 噪声图像(σ = 50);(h) 去噪结果

Figure 5. Comparison of remote sensing image denoising results by this algorithm. (a) Noise image; (b) BM3D; (c) DNCNN; (d) FFDNET; (e) IRCNN; (f) OURS
图5. 不同算法的去噪结果对比(σ = 25)。(a) 噪声图像;(b) BM3D;(c) DNCNN;(d) FFDNET;(e) IRCNN;(f) 本文算法
图5所示为在σ = 25的噪声水平下,含噪遥感图像和不同算法去噪图像的结果展示,可以看出通过本文提出的AMWCNN算法不仅可以去除遥感图像中含有的噪声,而且去噪后的图像边缘清晰,模糊程度低,并且保留了更多的图像细节,与原始图像最为接近。
5. 结论
本文提出了一种用于图像去噪的多级小波注意力CNN (AMWCNN)网络,该网络由收缩子网络和扩展子网络组成,收缩子网络由多级DWT和CANN块组成,而扩展子网络由多级IWT和CANN块组成。由于DWT的可逆性、频率和位置特性,AMWCNN可以安全地进行二次采样而不会造成信息损失,并且可以有效地从退化的观测图像中恢复详细的特征和边缘结构。本文通过实验最终在小波分解的尺度上选择进行尺度为1的分解,小波基函数选取了Haar小波基。实验结果显示,经过本文算法去噪后图片的PSNR以及SSIM数值指标均高于BM3D,DNCNN,FFDNET等方法,在视觉效果上,经过本文算法去噪的图像中的有用信息得到有效保留,噪声信息得到有效去除。实验中还表明本文算法能在去除噪声的同时,保护图像中飞机、建筑物等的轮廓信息,证明了本文网络可以有效的完成遥感图像去噪任务。
基金项目
国家自然科学基金(项目编号:12171054)。