1. 引言
高光谱图像(HSI)作为一种在多个波段范围内获取地物光谱信息的重要遥感数据,被广泛应用于农业[1]、环境监测[2]、地质勘探[3]等领域。然而,由于传感器噪声、大气扰动等因素的存在,HSI中常伴随着复杂的噪声,这些噪声的存在极大地降低了高光谱图像的视觉质量,使得图像呈现出模糊和失真的特征。更为严重的是,这些噪声对于后续HSI的解释和分析产生了负面影响,例如在超分辨率[4]、分类[5]和目标检测[6]等任务中,质量受限的图像可能导致解释的不准确和分析的误导。
近年来随着深度神经网络的快速发展,其被广泛应用于HSI去噪。主流的基于CNN的去噪方法通常采用编码器–解码器结构[7],通过下采样捕获全局特征、上采样恢复空间细节,这种结构在学习广泛的上下文特征时非常有效,但在处理精细的细节时会丢失信息,从而影响恢复的质量。小波变换具有完美的对称特性和频域分离特性,因而在图像恢复任务中被广泛应用[8],但简单地将池化操作替换为小波变换[9],又或对低频分支和高频分支做同等处理[10],不能最大限度地利用分离出的结构信息,依旧会出现过度平滑的部分。同时,由于高光谱图像涉及大量连续的波段信息,其噪声特性在不同波段和局部区域之间存在显著差异。在同一图像中,部分区域可能由于局部环境因素或采集条件变化而出现局部噪声增强现象。这种噪声的多样性和非均质性使得传统基于全局固定参数的去噪方法难以满足实际需求,统一的阈值或滤波参数无法同时兼顾高噪声区域的强力抑制和低噪声区域的细节保护。
为此,在小波变换的基础上,本研究提出了一种新颖的HSI去噪网络,即噪声强度引导小波域网络(NGWDNet)。通过噪声估计模块(NEB)计算出每个波段的噪声特征图。之后利用离散小波变换(DWT)将原始HSI分离为两个高频分支和一个低频分支。对于纹理和细节特征较多的高频分支,将噪声图与其融合,并设计了基于移位/窗口的多头自注意力融合模块(W/SW-MSAF Block)。低频分支具有更多平滑的结构特征,直接应用3D和2D Unit即可。最后,采用SSRB这种密集残差结构,获得更好的去噪效果。
2. 噪声强度指导小波域的高光谱图像去噪网络
2.1. HSI去噪模型
真实的HSI可以建模为三维张量
,
代表空间维度的像素点数,B代表光谱频段数。HSI不可避免地受到加性噪声的污染,因此退化模型可以描述为:
(1)
其中
分别代表干净的HSI和噪声,包括高斯噪声、稀疏噪声等。因此,本文的目标旨在从被噪声污染的
中恢复出干净的
。
2.2. 网络架构
图1展示了本文所提出的NGWDNet的总体架构,该网络主要包含三个部分:噪声估计、小波域去噪和空间光谱重建。
Figure 1. Overall architecture of the noise intensity guided wavelet domain network (NGWDNet)
图1. 噪声强度引导小波域网络(NGWDNet)的总体网络架构
首先,对于含有噪声的HSI Y,一方面将其输入到噪声估计模块(NEB)中,计算出每个波段的噪声特征图,另一方面将其通过DWT分解成两个高频子分支
和
,以及一个低频子分支
。可表示为:
(2)
同时,为了让噪声特征和分解后的高频子分支的分辨率保持一致,设计了Trans-1和Trans-2模块,引导小波域的去噪。如图2所示。该操作可以表示为:
(3)
其中
和
分别代表与
和
尺寸匹配的噪声图。
Figure 2. (a) Structure of Trans-1; (b) Structure of Trans-2
图2. (a) Trans-1的结构;(b) Trans-2的结构
对于低频特征,如图1的小波域中间分支所示。低频特征通常代表图像的主要结构,直接应用三维卷积和二维单元这两种简单的结构来建立低频子分支。三维卷积可以有效提取空间–频谱联合特征,但参数数量较多。二维单元由两个二维卷积组成,侧重于空间维度信息提取。通过将三维卷积和二维单元结合起来,更准确地捕捉低频特征的结构信息。
对于高频特征,由图1中的第一条和第三条高频子分支处理。高频特征通常包含丰富的纹理细节和噪声。基于此,将噪声特征图
和
与对应的高频子分支融合,并在去噪过程中增加了基于移位/窗口的多头自注意力融合模块(W/SW-MSAF Block)来去除噪声,同时最大程度地保留细节。此外,从第一个高频子分支获得的高频特征会被注入到低频子分支中,以增加特征的交互性。从低频子分支获得的低频特征也会被注入第二个高频子分支,以进一步补充详细信息。通过这种循序渐进的操作,纹理被逐渐细化和重建。
之后,利用对称的IDWT将获得的三个干净特征
、
和
重新合成为原始分辨率。最后,利用空间–光谱残差块(SSRB)进一步探索空间和光谱的相关性,以获得最终的干净HSI X。公式可表示为:
(4)
2.3. 噪声估计模块
如图3(a)所示,噪声估计模块由一个三维卷积和四个空间–光谱信息多重蒸馏(SSIMD)组成。公式可以表示为:
(5)
其中
代表卷积核为1的三维卷积,
指的是空间–光谱信息多重蒸馏模块。
图3(b)为SSIMD的结构。其中,8、16、32表示卷积层的输出通道。采用一种高效的伪三维卷积(Pseudo-3D):一组核大小为1 × 3 × 3用于空间维度,另一组核大小为3 × 1 × 1用于光谱维度,并在之后应用PReLU激活函数。将其应用于后续多个蒸馏步骤。对于每一步,对前面的特征使用通道分裂,产生两部分特征:一个被保留,另一个输入下一个计算单元。保留下来的部分可以看作是细化后的特征。给定输出的特征
,第n个SSIMD中的过程可以描述为:
(6)
其中
代表Pseudo-3D操作。
之后对每一步提取的特征进行拼接,并加入全局通道注意力(GCA),进一步挖掘跨通道特征,提取全局信息,可以表示为:
(7)
其中
表示沿通道维度的级联操作,
指全局通道注意力操作。
Figure 3. (a) Structure of noise estimation block (NEB); (b) Structure of spatial-spectral information multi-distillation (SSIMD)
图3. (a) 噪声估计模块(NEB)的结构;(b) 空间–光谱信息多重蒸馏的结构
2.4. 基于窗口的多头自注意力融合模块
在高频子分支设计的基于移位/窗口的多头自注意力融合块(W/SW-MSAF Block)如图4(a)所示。其通过将Transformer模块中的标准多头注意力(MSA)模块替换成具有规则的窗口(W-MSA)和移位窗口(SW-MSA),以及将多层感知机(MLP)替换成图4(c)中的深度可分离融合(DSF)来构建。在每个MSA和每个DSF之前应用一个归一化(LN)层,在每个模块之后应用一个残差连接。
虽然W-MSA能有效捕捉局部特征,但由于每个窗口是独立处理的,窗口边界可能导致相邻窗口之间的信息隔断,进而影响全局信息的整合。为了弥补这一不足,模块引入了SW-MSA。通过将窗口划分策略进行适当的偏移,使得新的窗口划分跨越了前一层窗口的边界,从而使得不同窗口之间的特征能够相互融合和传递。两种窗口的交替应用既保留了局部自注意力计算的高效性,又能够实现跨窗口的信息流动,从而构建更完整的全局特征表示。如图4(b)所示,左边的W-MSA模块将8 × 8的特征图均匀划分成大小为4 × 4 (M = 4)的4个窗口。右边的SW-MSA对窗口进行移位操作,即原始的A和C直接移位到最下面一行,而原始的B直接移位到最右边,得到4个新的移位窗口。这种移位窗口的方式,使得相邻的块进行信息交互。通过这种方法,W/SW-MSAF Block可以计算为:
(8)
其中
表示归一化操作,W-MSA (·)和SW-MSA (·)分别表示使用常规和移动窗口分区的基于窗口的多头自注意力。DSF (·)代表深度可分离融合操作。
在计算自注意力时,给每个头加上一个相对位置偏差
:
(9)
其中
分别是查询、键和值矩阵,
代表
的维度,
是一个窗口的块数。
Figure 4. (a) Shifted/window-based multi-head self-attention fusion block (W/SW-MSAF Block); (b) Calculation of shifted/window-based multi-head self-attention (W/SW-MSA); (c) Structure of deep separable fusion (DSF); (d) Structure of feature fusion (FF)
图4. (a) 基于移位/窗口的多头自注意力融合块(W/SW-MSAF Block);(b) 移位/窗口的多头自注意力(W/SW-MSA)的计算方法;(c) 深度可分离融合(DSF)的结构;(d) 特征融合(FF)的结构
DSF的结构由图4(c)所示,由两个线性层和特征融合块组成,图4(d)为特征融合块的详细结构。使用深度可分离卷积(DSC)来代替标准卷积以降低参数量和计算量。之后,在归一化权重的作用下重新校准,同时引入残差跳跃连接使学习的特征更快速地传播。这个过程可以表示为:
(10)
其中
和
分别表示三维深度卷积和三维逐点卷积。一方面,在三维深度卷积中,对于每个输入通道,使用一个卷积核为1 × 1 × 1的卷积操作,生成相同数量的输出通道。另一方面,三维逐点卷积是在所有通道之间进行1 × 1 × 1卷积。同时,在中间加入
代表的最大池化层保留输出的显著特征。
2.5. 空间–光谱残差块
Figure 5. Structure of spatial-spectral residual block (SSRB)
图5. 空间–光谱残差块(SSRB)的结构
在IDWT之后部署了SSRB,结构如图5所示。把在前文提过的Pseudo-3D卷积作为主体结构,同时引入密集残差连接,使模型能学习到更丰富、更复杂的空间光谱结构。并且这样的结构可以确保信息在网络中更快速地传播,加快训练的过程并提高模型的性能。最后,在最后一层部署1 × 1 × 1三维卷积来整合前一层的特征,从而正则化输出。
2.6. 损失函数
对于NGWDNet,损失函数包含两项:保真度损失和小波域损失。具体来说,保真度损失从全局角度来衡量HSI去噪前后的差异,小波域损失迫使分解出的低频和高频子分支在去噪时保留更多的结构信息和纹理细节信息。总的损失函数
可以表示如下:
(11)
其中
和
分别表示保真度损失和频域损失,
和
分别表示相对应的权重系数。为了平衡两者的效果,将其分别设置为0.5和0.25。
为了在去除噪声和细节保持之间取得平衡,经常使用
损失和
损失。对于保真度损失,采用
损失,称为平均绝对误差,因为其不受异常值的影响,具有更好的鲁棒性。表示如下:
(12)
其中
和
分别代表第i个去噪后的图像块和真实值图像块;
代表一次训练的图像块数量。
对于小波域损失,为了恢复不同频率子分支的细节并融合它们的独特性质,采用
损失,称为均方误差损失,计算方式如下:
(13)
其中
和
分别代表第i个去噪后的低频子分支特征图像块和对应的真实值图像块,
和
分别代表在第
级小波变换的第i个去噪后的高频子分支特征图像块和对应的真实值图像块。
代表小波变换的分解程度。特别的是,对于两个具有不同分辨率的高频子分支的损失,设计了不同的系数,使网络关注恢复受噪声污染较重的高频子分支。
3. 实验
3.1. 实验设置
3.1.1. 数据集
本文在ICVL [11]上进行了定性和定量实验。ICVL由201张空间分辨率为1392 × 1300、光谱维度为31的图像组成。采集的波段覆盖了400~700 nm的可见光范围,以10 nm的波长为增量形成。在实验中,使用100张HSI进行训练,剩下的101张HSI用于测试。此外,从测试数据集中抽取5张图片进行验证。为了扩大训练集,将图像裁剪成大小为64 × 64、波段数为31的重叠立方体,以保持光谱域的完整性。此外,本文采用旋转、缩放等方式,最终生成53 k个训练块。为了进一步论证提出的模型的鲁棒性和灵活性,利用多个遥感高光谱数据集再次对其进行测试,包括Indian Pines 数据集[12] (224个波段)和Urban数据集[13] (210个波段)。
3.1.2. 模拟噪声设置
为了最大限度地模拟真实场景中受到噪声污染的HSI,本文在干净的训练集中添加了不同类型的模拟噪声。设计的五种噪声组合如下所示。
Case 1 (非独立同分布高斯噪声):在每个波段添加零均值的高斯噪声,强度是从10到70的随机设置。
Case 2 (非独立同分布高斯噪声 + 条纹噪声):所有波段在添加如Case 1的非独立同分布高斯噪声的同时再随机选取三分之一的波段,以5%~15%的列数添加条带噪声。
Case 3 (非独立同分布高斯噪声 + 死线噪声):所有波段在添加如Case 1的非独立同分布高斯噪声的同时再随机选取三分之一的波段,以5%~15%的列数添加截止时间噪声。
Case 4 (非独立同分布高斯噪声 + 脉冲噪声):所有波段在添加如Case 1的非独立同分布高斯噪声的同时再随机选取三分之一的波段,添加强度范围为10%~70%的脉冲噪声。
Case 5 (混合噪声):每个波段添加Case 1的非独立同分布高斯噪声。除此之外,至少添加一种Case 2~4中的稀疏噪声。
3.1.3. 对比方法
将所提出的NGWDNet与最新的HSI去噪方法进行了比较,包括四种传统的基于模型驱动的方法(BM4D [14]、TDL [15]、LRTV [16]、LRTDTV [17])和三种基于数据驱动的方法(HSID-CNN [18]、HSI-DeNet [19]、D2Net [20])。对于这些对比方法,本文使用公开的代码和最优的参数设置复现最优的去噪结果。此外,所有的基于数据驱动的方法都在相同的条件下进行训练和测试,以确保实验的公平性。
3.2. 模拟噪声实验去噪结果及分析
本文加入五种类型的复杂噪声生成含噪观测图像。图6为本文方法同七种方法对比的可视化结果,并放大了细节部分。明显看出,BM4D和TDL在去除噪声上还有很大进步空间。低秩矩阵恢复方法,即LRTV和LRTDTV,虽然成功去除了大量的噪声,但代价是丢失了空间细节,生成了过度平滑的结果。与深度学习方法相比,如HSID-CNN和D2Net,NGWDNet对边缘细节的处理更加精细,结果达到了更高的保真度并且更加清晰。从表1和表2可以清晰地看出,与所有对比方法相比,本文提出的方法可以消除更多的噪声,并且在定量评估中取得了更好的性能。这些结果都证实了提出的NGWDNet在去噪过程中,不论是空间结构还是光谱数据都能有效地保留。
Figure 6. Simulated complex noise (Case 1~5) removal results on the ICVL dataset: (a) Noise HIS; (b) BM4D; (c) TDL; (d) LRTV; (e) LRTDTV; (f) HSID-CNN; (g) HSI-DeNet; (h) D2Net; (i) NGWDNet
图6. ICVL数据集上的模拟复杂噪声(Case 1~5)去除结果。(a) 含噪HIS;(b) BM4D;(c) TDL;(d) LRTV;(e) LRTDTV;(f) HSID-CNN;(g) HSI-DeNet;(h) D2Net;(i) NGWDNet
Table 1. Quantitative performance under Case 1, 2 and 3 of the ICVL dataset
表1. ICVL数据集Case 1、2和3下的定量性能
对比方法 |
Case 1 |
PSNR |
SSIM |
SAM |
Case 2 |
PSNR |
SSIM |
SAM |
Case 3 |
PSNR |
SSIM |
SAM |
Noisy |
|
14.64 |
0.057 |
0.844 |
|
14.60 |
0.057 |
0.845 |
|
14.40 |
0.055 |
0.866 |
BM4D |
|
34.98 |
0.881 |
0.119 |
|
34.58 |
0.875 |
0.127 |
|
32.24 |
0.829 |
0.147 |
TDL |
|
30.61 |
0.608 |
0.258 |
|
29.96 |
0.585 |
0.273 |
|
27.47 |
0.516 |
0.318 |
LRTV |
|
32.66 |
0.883 |
0.072 |
|
32.69 |
0.883 |
0.072 |
|
31.13 |
0.870 |
0.115 |
LRTDTV |
|
36.35 |
0.919 |
0.079 |
|
36.14 |
0.917 |
0.083 |
|
34.05 |
0.897 |
0.106 |
HSID-CNN |
|
36.91 |
0.969 |
0.079 |
|
36.59 |
0.968 |
0.083 |
|
36.25 |
0.966 |
0.082 |
HSI-DeNet |
|
35.98 |
0.977 |
0.074 |
|
35.93 |
0.976 |
0.075 |
|
34.48 |
0.975 |
0.077 |
D2Net |
|
37.09 |
0.971 |
0.075 |
|
36.75 |
0.970 |
0.079 |
|
35.76 |
0.968 |
0.084 |
NGWDNet |
|
39.78 |
0.984 |
0.050 |
|
39.24 |
0.986 |
0.054 |
|
39.15 |
0.984 |
0.044 |
Table 2. Quantitative performance under Case 4 and 5 of the ICVL dataset
表2. ICVL数据集Case 4和5下的定量性能
对比方法 |
Case 4 |
PSNR |
SSIM |
SAM |
Case 5 |
PSNR |
SSIM |
SAM |
Noisy |
|
12.66 |
0.044 |
0.869 |
|
12.53 |
0.042 |
0.877 |
BM4D |
|
27.15 |
0.576 |
0.441 |
|
24.52 |
0.500 |
0.477 |
TDL |
|
22.63 |
0.312 |
0.545 |
|
20.55 |
0.255 |
0.579 |
LRTV |
|
31.27 |
0.858 |
0.200 |
|
29.75 |
0.839 |
0.252 |
LRTDTV |
|
35.15 |
0.909 |
0.093 |
|
32.79 |
0.887 |
0.116 |
HSID-CNN |
|
33.32 |
0.927 |
0.155 |
|
32.83 |
0.927 |
0.157 |
HSI-DeNet |
|
31.75 |
0.930 |
0.114 |
|
31.74 |
0.933 |
0.110 |
D2Net |
|
33.96 |
0.946 |
0.137 |
|
32.38 |
0.938 |
0.157 |
NGWDNet |
|
36.29 |
0.965 |
0.109 |
|
36.22 |
0.959 |
0.112 |
3.3. 真实HSI实验去噪结果及分析
本文还验证了在没有相应真实值的真实场景下(包括Urban和Indian Pines数据集),提出的模型的有效性。这些真实HSI数据集的某些波段因为恶劣的大气和水的吸收被严重污染,并且还掺杂着复杂噪声(例如,截止期、条纹、稀疏和高斯噪声),这对重建干净的HSI造成了很大的挑战。设计的NGWDNet可以对任意波段的HSI进行去噪,能直接将这些遥感数据作为输入。基于这种灵活性,本文使用在ICVL数据集训练保存的模型,对这些真实的HSI进行处理。
从图7和图8中可以明显观察到,一些高斯去噪方法,如BM4D、TDL等,无法准确地估计出干净的HSI。一些基于低秩的方法,如LRMR、LRTV、LRTDTV,虽然去除了部分噪声,但细节部分也随之一起去除,生成的结果过于平滑。基于深度学习的D2Net和HSID-CNN已经产生了不错的去噪效果,但和本文方法相比,大量的边缘纹理信息未能完美重建。这些实验表明,NGWDNet具有处理未知噪声的能力,并且产生了与其他方法相比更清晰的结果。这也一致表明了本文模型的鲁棒性和灵活性,以及强大的泛化性能。
Figure 7. Denoising results of the Indian Pines dataset at the 107th band: (a) Noisy HIS; (b) BM4D; (c) TDL; (d) LRMR; (e) LRTV; (f) LRTDTV; (g) HSID-CNN; (h) D2Net; (i) NGWDNet
图7. Indian Pines数据集第107波段的去噪结果:(a) 含噪HIS;(b) BM4D;(c) TDL;(d) LRMR;(e) LRTV;(f) LRTDTV;(g) HSID-CNN;(h) D2Net;(i) NGWDNet
Figure 8. Denoising results of the Urban dataset at the 103rd band: (a) Noisy HIS; (b) BM4D; (c) TDL; (d) LRMR; (e) LRTV; (f) LRTDTV; (g) HSID-CNN; (h) D2Net; (i) NGWDNet
图8. Urban数据集第103波段的去噪结果:(a) 含噪HIS;(b) BM4D;(c) TDL;(d) LRMR;(e) LRTV;(f) LRTDTV;(g) HSID-CNN;(h) D2Net;(i) NGWDNet
3.4. 消融实验
为了彻底验证NGWDNet中每个模块的有效性,本文在ICVL数据集上进行了全面的消融研究,并在噪声水平σ =50的测试数据集下比较各个指标的数据,结果列于表3中。将提出的NGWDNet作为这些消融实验的基准,除了在所研究的组件中进行修改外,还要保持一致的网络架构。
首先,本文考察了NGWDNet中各个模块的作用,即NEB、W/SW-MSA、DSF和SSRB。w/o NEB表示噪声估计模块,结果显示PSNR和SAM的数值都变得更差,证明了噪声强度指导对去噪过程是必不可少的。w/o W/SW-MSA移除设计基于移位/窗口的多头自注意力,直接应用多头自注意力,w/o DFS将深度可分离融合替换成多层感知机。同样,w/o SSRB移除了空间–光谱残差块,直接将小波逆变换的结果作为输出。表3观察到,缺少这些模块的PSNR都有所下降,证明本文的设计能有效提高去噪性能。
其次,本文还移除了高频细节特征对低频子分支和空间域分支的指导,表示为w/o guidance flow。从表3可以看出,空间结构指标PSNR和SSIM都有所下降,充分证明细节信息的指导能保持图像的结构以达到更好的去噪效果。而NGWDNet的结果则表明本文的方案可以达到了最优秀的性能。
Table 3. Ablations on ICVL gaussian denoising (noise level σ = 50)
表3. ICVL高斯去噪(噪声水平σ = 50)下的消融实验
模型 |
PSNR |
SSIM |
SAM |
w/o NEB |
39.02 |
0.970 |
0.078 |
w/o W/SW-MSA |
39.61 |
0.972 |
0.070 |
w/o DSF |
39.53 |
0.976 |
0.072 |
w/o SSRB |
39.30 |
0.975 |
0.076 |
w/o guidance flow |
39.26 |
0.972 |
0.074 |
NGWDNet |
39.98 |
0.984 |
0.060 |
4. 结束语
本文提出了一种用于高光谱图像去噪的噪声强度指导小波域网络——NGWDNet。一方面,在小波域,对低频和高频子分支使用不同的策略处理。基于移位/窗口的多头自注意力融合块(W/SW-MSAF)提取高频子分支的细节纹理信息并将其应用于低频子分支。另一方面,设计了噪声估计模块(NEB),计算出每个波段的噪声特征图来指导高频分支去噪。此外,部署SSRB正则化输出。消融研究证明,其在重建出干净的HSI时能够保持优秀的空间和光谱保真度。并在不同的噪声情况下验证了本研究方法的有效性和鲁棒性。与其他先进的去噪方法相比,本文提出的方法在定性和定量上都能达到先进的性能。