1. 引言
图像在成像过程中产生的各种混合噪声会导致图像模糊、细节不清晰以及色度失真,这将不断影响着人们的工作和生活。为了满足人们对获取更准确和更清晰图像的需求,图像进行去噪显得至关重要。近年来,传统去噪和基于深度学习的去噪不断碰撞,推动着图像去噪成为数字图像处理研究领域的热门方向。其本质是在含噪声的图像中恢复出干净的图像,并保留图像细节和边缘。
图像去噪算法分为传统去噪和基于深度学习的去噪。传统去噪算法主要包括空间滤波、变换域滤波、统计模型、稀疏表示以及聚类低秩等。双边滤波和非局部均值滤波(Non-Local Means, NLM)等[1]-[4]是最重要的滤波方法,通过结合空间邻近性和像素值相似性来动态调整滤波权重,避免传统线性滤波器因均匀平滑导致的边缘模糊问题。由Dabov等提出来的三维块匹配滤波(Block-Matching and 3D filtering, BM3D) [5]是最经典的变换域去噪算法,该算法通过对图像进行分块匹配和三维变换域处理来进行去噪,并在实际应用中得到了广泛的推广。然而,传统去噪算法通常基于固定的模型和参数,缺乏一定的自适应性,无法根据去噪任务进行调整。
与传统去噪算法不同的是,基于卷积神经网络的去噪算法能自动学习图像中的特征表示,且在处理较高的噪声水平时表现更出色,同时能够更好地保留图像细节。Zhang等在2017年提出来的去噪卷积神经网络DnCNN [6]利用残差学习和批量归一化来进行去噪,两者的融合可以有效提升训练速度和去噪性能,以便改善去噪结果。在此基础上,Zhang等又引入了更快速灵活的去噪神经网络FFDNet [7],该方法通过引入可调节噪声的水平图来实现多种噪声等级的图像去噪。此外,Guo等提出来的CBDNet [8]去噪模型更接近真实噪声,可以更好地对真实场景进行降噪。Anwar等提出来首个在去噪模型中加入特征注意的RIDNet [9]模型,即利用不同通道之间的依赖关系对不同通道的特征进行差异化处理,能够更好地保留图像的细节和结构。但是,上述方法在面对高噪声水平和具有复杂纹理结构的图像时仍然存在一定的局限性。为了解决CNN模型获取成对训练样本较难的问题,Chen等在利用GAN模型[10]对在真实噪声图像上提取到的噪声进行建模,仿真真实的图像噪声,改善模型在真实噪声上的泛化能力。但该模型在网络训练过程不太稳定且在训练时容易受到过度拟合,去噪效果可能有所影响。
目前,在图像去噪领域中通过卷积神经网络来实现去噪依然有广泛应用,其优势在于面对不同类型的噪声和图像内容时,保持较好的去噪效果,同时还能捕捉到图像中的复杂结构和噪声特征。但仍面临着诸多亟待攻克的挑战:
当图像中存在噪声时,噪声信号容易被去噪模型误判为重要特征,从而干扰其正常的分类或识别过程。
现有的去噪模型在大多数情境下表现十分优秀,但在面对具有不规则分布或随机变化的噪声时,其去噪性能仍存在一定的局限,进而影响视觉效果。
采用单一尺度进行特征提取可能会导致部分信息的丢失,尤其是对于图像中不同尺度的结构和细节信息来说,可能会使去噪算法的性能和效果受到影响[6]-[8]。
为解决上述挑战并从定性与定量的角度提升图像去噪任务的性能,本文提出了一种传统与深度学习相结合的去噪模型,将传统去噪方法作为预处理,去除部分噪声并增强图像的边缘和纹理细节。然后,将预处理后的图像输入到深度学习模型中,进一步优化去噪效果。这种结合方式不仅能够提高深度学习模型的输入质量,降低模型的训练难度和计算负担,还能增强模型的鲁棒性和泛化能力。
2. 相关原理
2.1. 多尺度特征提取
在传统卷积神经网络中,全连接层的神经元数量以及输入图像的尺度均为固定值。图像往往包含不同尺度的结构和细节信息,单一尺度的特征提取可能会导致图像信息损失,进而影响图像去噪算法的性能和效果。多尺度特征提取能够综合考虑图像在不同尺度上的信息,更全面地捕捉图像的结构和内容,有效克服单一尺度特征提取的局限性,从而提升去噪算法在图像去噪任务中的性能和效果。Google研究团队在2014年提出的一种创新网络架构Inception模块[11]主要是运用并行多尺度卷积操作以及特征图拼接来获取图像在不同尺度下的特征,进而增强网络的去噪性能和泛化能力,其结构图如图1所示。
Figure 1. Architecture of the inception module
图1. Inception模块结构图
特征金字塔网络FPN [12]是由Lin等人在2017年提出来的多尺度特征提取网络架构,通过横向连接将自底向上和自顶向下路径的特征进行融合,从而充分利用底层的细节信息,提高预测效率。多尺度特征提取不仅能从不同尺度和层次全方位地提取图像特征,还能增强模型的泛化能力,使其适应不同尺度和类型的图像,从而进一步提高算法的适用性和实用性。
2.2. 残差通道注意力
在图像去噪任务中,CNN通常采用基于梯度下降的反向传播算法来学习模型参数。为了提高去噪效率,Zhang等人采用注意力机制RCAB [13]快速地从图像中提取关键特征,将残差思想与注意力机制融合,使网络能够更加专注于通道中的有用信息,增强网络的辨别学习能力,结构如图2所示。其数学表达式为:
Figure 2. Architecture of the RCAB
图2. RCAB结构
(1)
(2)
式中,
为输入特征,GAP为全局池化操作,
为
卷积操作,
表示逐元素相乘,
表示RCAB结构的输出。
3. 网络框架
本研究提出来的去噪模型是由自适应权重滤波和多尺度卷积结合而成,对于输入的噪声图像先用自适应权重滤波对其进行预处理,根据噪声水平的不同自适应地调整权重比例,以此来平衡去除噪声与细节保留。将预处理后的噪声图片放入多尺度卷积去噪模型中,通过多尺度残差模块来提取从局部到全局的特征,接着再将整合的多尺度信息进行融合,增强模型的去噪能力。最后,把融合后的特征与使用一维卷积核Sigmoid函数生成的通道权重相乘,从而抑制噪声相关的冗余通道,强化关键特征。整个过程不仅将提取特征的深度和广度显著增加,同时去噪能力也显著提升,使得去噪后的图像更加清晰和准确。
3.1. 动态加权去噪预处理
为了避免噪声对深度学习训练效果的影响,我们采用双边滤波和非局部滤波加权的方式来对图像噪声进行预处理,并根据局部噪声水平动态调整权重,其核心思想是在噪声较大的区域,更依赖于非局部均值滤波(NLM)的结果,在噪声较小的区域,更依赖于标准双边滤波(SBF)的结果,其自适应权重滤波预处理图如图3所示。
标准双边滤波是一种非线性滤波器,它结合了空间距离和像素值差异来对图像进行平滑处理,同时保留边缘信息,其核心思想是通过加权平均来计算每个像素p和q的新值:
(3)
式中,
是输出图像,
表示邻域出口,
、
是高斯核,
是归一化因子。
非局部均值滤波是一种基于图像自相似性的去噪算法,其核心思想是利用图像中相似的局部结构来估计当前像素p的值:
(4)
式中,S是以p为中心的搜索窗口,相似性权重
,
是归一化因子。
为了保证抑制噪声的同时保留图像边缘细节和纹理结构,将通过动态结合SBF和NLM的优势,进行自适应加权融合。将基于结构块的方法SBF与非局部均值滤波方法NLM结果线性加权可得:
(5)
式中,
表示非局部均值滤波NLM,
表示标准双边滤波SBF,权重函数
动态分配滤波权重:当
(
为噪声阈值)时,
;当
时,
。在这里定义像素
的邻域噪声水平为邻域
内的方差:
(6)
式中,
为局部均值,
为邻域窗口大小。
(a) 噪声图像σ = 50 (b) 预处理图像
Figure 3. Diagram of adaptive weight filtering preprocessing
图3. 自适应权重滤波预处理图
3.2. 轻量多尺度通道注意力
去噪神经网络FFDNet是Zhang等提出来的,通过引入可调节的噪声水平图来实现多种噪声等级的去噪,在大多数情境下该算法表现十分优秀,但在面对具有不规则分布或随机变化的噪声时,其去噪性能仍存在一定的局限。此外,该网络采用单一尺度进行特征提取可能会导致部分信息的丢失,尤其是对于图像中不同尺度的结构和细节信息来说,单一尺度的提取可能会使去噪算法的性能和效果受到影响。
为了克服现有模型在图像去噪任务时的性能局限,尤其是在面对不同尺度噪声和细节信息时,本文模型将单尺度特征提取方法升级为多尺度特征提取策略,该多尺度卷积模块包含三个并行的卷积分支,每个分支分别采用不同尺寸卷积核,即1 × 1,3 × 3和5 × 5,以实现从局部到全局的特征提取。文献[14]表明将标准的d × d卷积分解为1 × d和d × 1卷积能够减少网络的参数量。文献[14]将3 × 3卷积分解为1 × 3和3 × 1卷积,在没有增加额外参数的同时提升了网络的性能。设预处理后的图像为
,其中H、W、C分别表示图像的高度、宽度和通道数,其结构图如图4所示:
Figure 4. Architecture of multi-scale convolutional fusion
图4. 多尺度卷积融合结构图
(7)
式中,
表示卷积核大小为
,每个分支的输出
(
)。
为整合多尺度信息,将三个分支的输出在通道维度上进行拼接,拼接后的输出表示为
,其维度为
,再通过1 × 1卷积层对拼接后的特征进行处理,该卷积层将拼接后的高维特征映射到原始通道C,从而实现特征的压缩和融合:
(8)
通过引入残差通道注意力机制,模型能够自适应地关注不同通道中的重要特征,从而提高特征表示的质量和模型的性能。因此,本文对融合后的特征
进行通道注意力加权,以进一步增强模型对重要特征的捕捉能力。具体来说,通过全局平均池化来压缩空间信息,从而得到每个通道的全局统计特征:
(9)
式中,H、W分别表示特征图的高度和宽度,C表示通道数,
表示第c个通道在位置
的特征值。
通过全局平均池化可以得到C维的特征向量
,这个特征向量包含了图像的全局信息,可以用于后续的通道注意力机制,以动态调整不同通道的特征权重,从而提高模型性能。具体来说,将全局平均池化得到的特征向量
输入到一维卷积层中,然后通过Sigmoid激活函数生成每个通道的权重w:
(10)
式中,
为Sigmoid函数,
表示一维卷积操作,w是生成的权重向量,其维度为
,C是通道数。
为了抑制噪声相关的冗余通道,强化关键特征,将权重w与融合特征逐个通道相乘,接着将加权特征与输入特征的残差和进行输出,可以避免梯度消失,保留原始信息:
(11)
式中,w表示权重,
表示融合后的特征,X表示预处理后的图像,
表示加权后的特征。
3.3. 损失函数
为了训练本文模型去除高斯白噪声的网络参数,选择均方误差MSE作为损失函数。假设
为干净图像,
为预处理后的噪声图像,通过
来预测噪声图像的噪声映射
,将噪声图像转化为干净图像,最小化损失函数定义为
,通过最小化损失函数来获得最优解:
(12)
式中,
、
、
代表干净图像、预测图像和噪声图像,i代表第i个图像对,
为可训练网络参数,M为噪声图像块的数量。
4. 实验结果与分析
4.1. 数据集
为了验证本文提出来的网络在合成噪声图像上的表现,本文使用滑铁卢勘探数据集(Waterloo Exploration Database)中的3859张图片以及BSD400数据集[15]中的400张图片来训练网络,由于图像的不同区域包含着不同的细节信息,因此将图像分割为50 × 50像素的图像块。
同时为了验证本文提出来的去噪算法具有更强的适应性和鲁棒性,使用噪声水平分别为15,25,30,35,50,60的加性高斯白噪声在灰度测试集Set12 [6]、BSD68 [16],彩色测试集CSet12 [6]、CBSD68 [16]、Kodak24 [17]、McMaster [18]上进行测试。
4.2. 参数设置
在本文图像去噪任务中,非局部均值滤波NLM的相似块尺寸设置为7,搜索窗口尺寸设置为25,衰减参数设置为噪声标准差的1.2倍,以控制权重衰减速度;在标准双边滤波SBF中,强度域参数设置为噪声标准差的2.5倍,空间域参数为2.3,邻域尺寸大小为37。训练过程中使用Adam优化器,训练模型的初始学习率设为
,批大小batchsize设置为128,训练次数epoch为50,采用余弦退火调度策略[19]将最小学习率降低至0,避免突然变化导致训练不稳定。实验在Windows10系统,Pytorch框架中实现,其算法流程如算法1所示。
4.3. 评价指标
对图像去噪效果的分析主要通过视觉分析和评价指标两方面来进行。利用视觉分析来进行图像去噪效果的分析主要从以下几方面来看:
4.4. 算法流程
Algorithm 1. Algorithm flow
算法1. 算法流程
Require:噪声图像
,最大迭代次数
,损失函数参数
Ensure:去噪后的图像
初始化: 预处理图像:
迭代计数器:
权重系数
(基于噪声水平计算) while
do 步骤1:混合滤波更新 for每个像素
do 计算双边滤波结果:
计算非局部均值滤波结果:
更新像素值:
end for 步骤2:多尺度特征融合 for卷积核尺寸
do 提取特征
end for 特征拼接:
特征融合:
步骤3:通道注意力增强 通道统计量:
注意力权重:
加权特征:
(
表示通道乘法) 步骤4:图像重建与优化 重建图像:
计算损失:
更新网络参数:
end while |
1) 去噪后的图像是否还有孤立点;
2) 去噪后的图像边缘是否遭到破坏[20];
3) 去噪后的图像细节是否有所保留。
但用视觉分析图像的去噪效果有一定的局限性,所以一般需要用标准的指标来对去噪后的图像进行评价分析,其中主要包括峰值信噪比(PSNR)和结构相似比(SSIM) [21]:
峰值信噪比(PSNR)
给定一个大小为
的干净图像I和噪声图像K,其PSNR定义为:
(13)
其中,MSE的计算公式为:
(14)
PSNR的值越大表示去噪后的图像与干净图像越接近,即去噪效果更好。
结构相似比(SSIM)
给定一个干净图像x,其去噪图像的结构相似比SSIM定义为:
(15)
其中,
、
分别是干净图像x和噪声图像
的均值,
、
分别是干净图像和噪声图像的方差,
是协方差,
、
表示用来稳定常数值。
SSIM值介于0到1之间,越接近1,表示降噪后的图像质量越接近原始清晰图像,即降噪效果越好。
将本文提出来的算法与传统去噪算法K-SVD [22]、NCSR [25]、WNNM [26]、BM3D [5]、CBM3D [27]和基于深度学习的去噪算法DnCNN、DnCNN-B、FFDNet、FDnCNN、IRCNN、CBDNet、RID-Net、ADNet进行了比较。
通过对图5的观察发现,本文提出来的算法对图像去噪效果优于其它传统算法,其优越性不仅体现在峰值信噪比PSNR上,同时也体现在图像细节恢复上,与传统算法中较为优秀的WNNM算法相比,本文提出来的算法在降噪和图像细节恢复方面具有巨大的优势[23] [24]。
Ground Truth σ = 15 (24.61 dB) K-SVD (31.89 dB)
BM3D (32.11 dB) WNNM (32.20 dB) Ours (32.48 dB)
Figure 5. Comparison of denoising algorithms on Set12 dataset
图5. 不同去噪算法在Set12数据集上对比图
图6展示了在BSD68数据集中不同方法的去噪效果对比图。从图中可以直观地看出,当噪声水平较高时,传统去噪算法NCSR会使图像出现较为明显的模糊现象,同时其峰值信噪比PSNR值也相对较低。而基于深度学习的去噪算法DnCNN和FFDNet在对部分的图像进行恢复时,容易出现较为明显的失真。
Ground Truth σ = 30 (18.59 dB) NCSR (32.48 dB)
DnCNN (32.94 dB) FFDNet (33.14 dB) Ours (33.54 dB)
Figure 6. Comparison of denoising algorithms on BSD68 dataset
图6. 不同去噪算法在BSD68数据集上对比图
为了评估本文提出来的算法对灰度图像的去噪性能,我们使用BSD68数据集(包含68张灰度图像) 和Set12数据集(包含12张灰度图像)进行测试,并将结果与其他主流图像去噪算法进行对比。结果如下表1所示:
Table 1. Average PSNR (dB) of denoising algorithms on grayscale test datasets
表1. 不同去噪算法在各灰色测试集上的平均PSNR/dB结果
数据集 |
噪声水平 |
BM3D |
WNNM |
DnCNN |
IRCNN |
FFDNet |
BRDNet |
Ours |
Set12 |
15 |
32.37 |
32.70 |
32.86 |
32.75 |
32.77 |
32.78 |
32.92 |
25 |
29.97 |
30.26 |
30.44 |
30.36 |
30.48 |
30.43 |
30.55 |
50 |
26.72 |
27.03 |
27.18 |
27.12 |
27.33 |
27.32 |
27.58 |
BSD68 |
15 |
31.06 |
31.37 |
31.44 |
31.63 |
31.63 |
31.61 |
31.86 |
25 |
28.57 |
28.83 |
29.01 |
29.13 |
29.18 |
29.17 |
29.45 |
50 |
25.62 |
25.87 |
26.08 |
26.16 |
26.27 |
26.26 |
26.48 |
分析表1中的数据可知,本文算法在低噪声水平和高噪声水平上均表现最佳,其平均PSNR值相较于其他去噪算法展现出显著的优势。在σ = 15时,本文算法平均PSNR值分别高于BM3D约0.6 dB和0.8 dB。
为了评估本文提出来的算法对彩色图像的去噪性能,我们将通过CSet8 (包含8张大小为256 × 256大小的彩色图像)、CBSD68 (包含68张彩色图像)、Kodak24 (包含24张高质量彩色图像)和McMaster (包含18张彩色裁剪)等公共数据集来进行实验。
结合图7对大象细纹和图8对蔬菜绿叶的处理效果可知,本文的算法在高噪声水平上与其他去噪算法相比更具有优势,传统的去噪算法CBM3D会导致图像细节丢失,而基于深度学习的算法FDnCNN和DnCNN等对图像细节的恢复仍有待提升。
Ground Truth σ = 50 (14.15 dB) CBM3D (28.94 dB)
FDnCNN (29.38 dB) DnCNN (29.45 dB) Ours (29.78 dB)
Figure 7. Comparison of different denoising algorithms on the CBSD68 dataset
图7. 不同去噪算法在CBSD68数据集上对比图
Ground Truth σ = 60 (12.57 dB) CBM3D (29.05 dB)
FFDNet (29.65 dB) IRCNN (29.68 dB) Ours (29.85 dB)
Figure 8. Comparison of different denoising algorithms on the McMaster dataset
图8. 不同去噪算法在McMaster数据集上对比图
本实验对不同去噪算法在各测试集上的性能进行了定量分析,并以PSNR和SSIM作为量化评估指标。其中,测试集包括McMaster测试集、CBSD68测试集、Kodak24测试集,去噪算法包括CBM3D、IRCNN、FFDNet、ADNet和本文提出来的算法。
从表2的数据中可以看出来,本文提出的去噪算法在不同噪声水平下都比其他去噪算法表现出更明显的效果,本文的算法不仅在单幅图片的PSNR值方面表现出色,同时在整体平均PSNR值上也展现出明显优势,相较于其他去噪算法更具竞争力。
Table 2. Average PSNR (dB) of denoising algorithms on color test datasets
表2. 不同去噪算法在各彩色测试集上的平均PSNR/dB结果
数据集 |
噪声水平 |
CBM3D |
IRCNN |
FFDNet |
DnCNN |
ADNet |
BRDNet |
Ours |
CBSD68 |
15 |
33.52 |
33.84 |
33.86 |
31.72 |
33.99 |
34.10 |
34.32 |
25 |
30.71 |
31.14 |
31.20 |
30.22 |
31.28 |
31.42 |
31.55 |
50 |
27.36 |
27.84 |
27.94 |
27.91 |
28.01 |
28.13 |
28.38 |
Kodak24 |
15 |
34.28 |
34.67 |
34.63 |
33.46 |
34.75 |
34.87 |
34.96 |
25 |
31.68 |
32.01 |
32.11 |
31.01 |
32.23 |
32.39 |
32.55 |
50 |
28.46 |
28.91 |
28.97 |
28.83 |
29.10 |
29.21 |
29.48 |
McMaster |
15 |
34.06 |
34.57 |
34.66 |
33.42 |
34.91 |
35.06 |
35.32 |
25 |
31.66 |
32.16 |
32.34 |
31.48 |
32.54 |
32.73 |
32.95 |
50 |
28.51 |
28.91 |
29.18 |
28.59 |
29.35 |
29.53 |
29.68 |
5. 结论
卷积神经网络在对图像样本进行训练时,容易受到噪声的影响且单一卷积网络不容易捕捉图像结构特征,为了降低噪声对图像细节恢复和边缘保持的影响。本文提出了一种结合自适应权重滤波和多尺度相结合的去噪算法,先用自适应权重滤波对图像进行预处理,降低噪声对图像的干扰,再利用多尺度卷积提取图像从局部到全局的特征,使得模型能够识别和处理复杂的图像细节[28]-[31]。本文模型与其他模型相比在多种去噪任务上都取得了非常有竞争力的结果,尤其是在高噪声水平上,同时还能极大程度地保障视觉效果的优质呈现,完美平衡去除噪声与细节保留的需求。此外,本文提出来的模型在合成噪声上表现出优异的去噪能力,但在真实噪声图像上的泛化能力还有待提高,希望能进一步解决这个问题[32] [33]。
基金项目
自治区创新环境(人才、基地)建设专项——自然科学基金计划基金项目(2021D01A125);新疆维吾尔自治区高校科研计划基金项目(XJEDU2020Y027);中央支持地方高校改革发展专项资金项目(新疆师范大学)。
NOTES
*通讯作者。