基于空谱邻域和多流融合的高光谱图像超分辨率网络
Hyperspectral Image Super-Resolution Network Based on Spatial-Spectral Adjacent Domain and Multi-Stream Fusion
DOI: 10.12677/mos.2025.145376, PDF, HTML, XML,   
作者: 王 清:上海理工大学光电信息与计算机工程学院,上海
关键词: 超分辨率循环神经网络光谱相关性注意力机制Super-Resolution Recurrent Neural Network Spectral Correlation Attention Mechanism
摘要: 现有的高光谱图像超分辨率算法通常将高光谱图像裁剪为多个小尺度图像块,这将破坏图像整体性。并且,由于高光谱图像具有大量的光谱信息,导致现有的超分辨率算法很难充分挖掘高光谱图像的空间和光谱信息。为了解决上述问题,文章提出了一种基于空谱邻域和多流融合的超分辨率网络(Spatial-Spectral Adjacent Domain Fusion Network, SSADFN)。首先,提出了一种空谱邻域输入模块,该模块充分利用图像空间块和光谱邻域信息,可以有效地捕捉图像内部结构的整体信息。其次,设计了双向循环网络结构。该结构包括正向单元和反向单元两部分,并对两种单元设置不同的多流融合残差块,充分挖掘图像的空间细节信息和光谱细节信息。在两个高光谱遥感图像数据集Chikusei和Pavia Centre上的实验结果表明,提出的方法相较于前沿高光谱超分辨率算法具有更好的结果和更少的参数。
Abstract: Existing hyperspectral image super-resolution algorithms usually crop the hyperspectral image into multiple small-scale image patches, which destroys the image integrity. Moreover, the hyperspectral image has a large amount of spectral information, which makes it difficult for existing super-resolution algorithms to fully mine the spatial and spectral information of the hyperspectral image. This paper proposed a super-resolution network based on spatial-spectral adjacent domain network and multi-stream fusion to solve the above problems (SSADFN). First, a spatial-spectral adjacent domain input module is proposed, which makes full use of the image space patches and spectral adjacent information and can effectively capture the overall information of the internal structure of the image. Second, a bi-directional recurrent network structure is designed. The structure consists of two parts: the forward unit and the backward unit. Different multi-stream fusion residual blocks are set for the two kinds of units to fully exploit the spatial and spectral detail information of the image. Experimental results on two hyperspectral remote sensing image datasets, Chikusei and Pavia Centre, show that the proposed method has better results and fewer parameters compared to the state-of-the-art hyperspectral super-resolution algorithms.
文章引用:王清. 基于空谱邻域和多流融合的高光谱图像超分辨率网络[J]. 建模与仿真, 2025, 14(5): 92-104. https://doi.org/10.12677/mos.2025.145376

1. 引言

高光谱成像传感器可以在一定波长间隔内对同一目标连续采样,以获取具有连续光谱的高光谱图像(HIS) [1]。与通常具有RGB三个光谱通道的自然图像不同,高光谱图像通常具有较高的光谱分辨率,具有数十或数百个光谱波段,可以精确地反映不同物体的细微光谱特性。因此,在区分视觉上相似的材料方面,高光谱图像比自然图像拥有更多的信息探索能力,从而可以提高诸如高光谱图像分割、识别等下游任务的准确率。目前,高光谱图像已应用于医疗诊断[2]、环境监测[3]等各类科学任务中。由于到达传感器入射能量的限制,成像过程的空间分辨率和光谱分辨率之间总是存在矛盾。为了获得高分辨率光谱信息,不可避免地就得牺牲空间分辨率。因此,如何获取高空间分辨率的高光谱图像仍然是一个挑战。

近年来,研究者针对该挑战设计了大量的超分辨率算法。其中基于单幅图像的高光谱图像超分辨率算法,因其不需要辅助图像以及配准等要求,受到研究者的广泛关注。该类算法能够将输入的一张低分辨率高光谱图像重建,获得其对应的高分辨率高光谱图像。作为一种后处理方式,它不需要传感器或成像系统参与。最近,深度神经网络在超分辨率任务上表现出非凡的能力,各种超分辨率网络层出不穷。然而,该类算法通常针对自然图像设计,因其没有考虑高光谱图像的光谱相关性,从而出现光谱紊乱或失真等问题,无法直接推广到高光谱图像超分辨率领域。如何高效提取高光谱图像特征和保留光谱相关性是高光谱图像超分辨率任务研究的重点。卷积神经网络出现较早,相关研究众多。Mei等人[4]设计了一个全3D卷积网络来探索光谱相关性,但是网络参数量较大,训练耗时。MCNet [5]使用时间空间分离的3D卷积来提取空间光谱信息。ERCSR [6]将2D卷积和3D卷积高效地结合起来,通过共享空间信息解决网络结构冗余的问题。3DMSMAN [7]将3D卷积和混合注意力结合,从而提高了重建图像的质量。相比只使用3D卷积,他们都减少了网络的参数量,提高了模型的性能。然而,由于HSI本身波段较多,直接输入网络会导致网络参数膨胀和光谱紊乱。通过光谱分组策略可以解决这个问题,并有助于恢复重建图像的光谱相关性。Jiang等人[8]设计了一种渐进上采样的空间–光谱先验网络,共享参数的群卷积在高效提取特征的同时还能够大大减少网络参数量。Liu等人[9]设计了一种光谱分组和注意驱动残差密集网络(SGARDN),同时考虑了HSI的块特征。Vision Transformer [10]将图像分割为小块,通过嵌入层得到线性输入。得益于Transformer优秀的全局建模能力,其在大规模数据集上的效果超过CNN。ESSAformer [11]将Transformer网络架构应用于高光谱图像超分辨率,并且针对光谱相关性设计了一种基于光谱相关系数的注意力机制。DCNN [12]提出了一种扩散卷积网络,扩散图像增强模块结合卷积操作和扩散理论能够恢复更多的图像细节。

为了进一步解决HSI特征难以提取的问题,最近一些研究者把目光放在了循环神经网络上。[13]借助循环单元之间的连接,后继单元能够利用前驱单元的知识输出,使得循环神经网络能够有效处理序列数据。通过光谱分组,可以将高光谱图像划分为由多个波段组构成的序列数据。Wang等人[14]重叠地将三个光谱作为一组来获取输入序列,以联合使用来自单个频带和相邻频带的信息重建当前波段。Wang等人[15]提出Group shuffle的方法来对光谱进行分组,从而利用临近波段和长距离波段的信息,获得更多不同的光谱响应和更少的冗余信息。DualSR [16]将一定范围内的相似波段划分为3组,并且引导当前波段学习潜在知识。类似的工作还有RFSR [17]。这些网络都采用单向隐状态传递的架构,在重建某个光谱时只能够利用前面光谱输出的中间状态。DQSR [18]在此基础上提出了一个非对称双向准递归网络,通过前向单元和反向单元循环完成波段的重建。

虽然基于深度学习的高光谱图像超分辨率算法已经获得了较好的重建效果,但其仍然存在诸多问题:a) 由于GPU内存和训练集图像数量的限制,高光谱图像超分辨率网络通常将原始图像裁剪为大量图像块进行训练。然而裁剪得到的图像块将大大降低了图像的空间域,无法在大范围内挖掘细节特征和互补信息。b) 众多基于循环网络结构的算法都采用分组的方式重建,虽然设置了组与组之间的信息传输机制,但其组波段特征的流通在组间和组内不够灵活。

针对上述问题,本文提出了一种基于空谱邻域和多流融合的高光谱图像超分辨率网络。首先,设计了空谱邻域输入模块,以更好地挖掘大范围的细节特征和互补信息。其次设计了双向多流循环网络以增加组间特征流通的灵活性,其中包括前向和反向循环单元,以分别提取空间和光谱信息。

2. 网络结构

2.1. 空谱邻域输入模块

Figure 1. Schematic diagram of the null spectrum neighbourhood input module

1. 空谱邻域输入模块示意图

图1所示,给定低分辨率高光谱图像 X LR R h×w×C ,采用滑动窗口的方式对原始图片进行切分,得到一组图像块。对于单个图像块 I LR R p1×p2×C ,沿着光谱方向进行分组,最终得到 C 组输入,每组对应一个光谱块及其相关特征。具体来说,第 t 组输入包括图像块 I LR t R p1×p2 、空间邻域块 I ne t R p1×p2×8 和光谱邻域块 G LR t R p1×p2×2m 三部分,上述过程可以描述为:

I LR t , I ne t , G LR t =group( patch( X LR ) ),t[ 1,C ] (1)

其中, patch group 分别表示裁剪图像块算子和分组算子。 I LR t 表示当前低分辨率图像块的第 t 维光谱。 I ne t I LR t 的第 t 维光谱块周围的8个图像块组成,可以为 I LR t 提供局部相似纹理和细节信息。 G LR t I LR t 的前后各 m 个光谱块组成,一共包含了 2m 个波段,可以为 I LR t 提供互补的波段信息。

2.2. 双向循环多流网络

目前文献已表明,循环神经网络对于序列数据处理十分有效[19]。高光谱图像在光谱维度方向上可以建模为一种序列数据,基于分组方式重建的类循环网络已经取得了成功[16]。高光谱图像超分辨率既要恢复图像的空间纹理和细节又要保证光谱相关性,针对该问题,设计了前向单元和反向单元。两个单元分别重建图像的空间细节和光谱细节,并对每个单元的结果施加不同的损失函数,单元之间的信息传递灵活且高效。整体网络结构如图2所示,其中红色实线表示重建第 t 波段时的数据流向。

Figure 2. SSADFN structure diagram

2. SSADFN结构图

2.2.1. 前向单元

前向单元主要用于重建图像的空间细节信息。如图3(a)所示,前向单元由通道扩充卷积、M个多流空间融合残差块MSFRB-Spa、上下文融合模块、上采样模块构成。首先,针对第 t 维光谱图像块,前向

单元 Ne t f 接受空间邻域块 I ne t I LR t 的并行输入,层内前向传递上一个组波段的隐状态 h f t1 。在前向循环过程中,空间特征被不断细化,同时光谱信息积累并向后传递,最后得到高分辨率空间图像 I SR_f t ,具体

可以描述为:

h f t , I SR_f t =Ne t f ( I ne t , I LR t , h f t1 ) (2)

Figure 3. Structure diagram of forward and backward unit

3. 前向单元和反向单元结构图

残差融合空间块MSFRB-Spa的结构如图3(a)所示。空间邻域块 I ne t I LR t 并行输入MSFRB-Spa模块, I ne t 以较低成本的方式扩大了输入图像块的感受野。在提取特征之后,使用Pixel Attention [20]自适应筛选重要的像素特征,以融合不同空间位置的特征,最后将特征汇入上侧的 I LR t 特征流,不断细化此特征流的空间信息。与PFRB [21]不同,PFRB中的特征流具有相同的语义,而本文中MSFRB的输入具有不同的语义。以 I LR t 特征流为例,MSFRB-Spa的操作可以描述为:

X=SiLU( Conv( I LR t ) ) (3)

Y=SiLU( Conv( I ne t ) ) (4)

f 1 =PA( SiLU( Conv( Concat[ X,Y ] ) ) ) (5)

f LR 1 =SiLU( Conv( Concat( [ f 1 ,X ] ) ) )+ I LR t (6)

f ne 1 =SiLU( Conv( Concat( [ f 1 ,Y ] ) ) )+ I ne t (7)

其中, SiLU [22]表示激活函数, Concat 表示张量拼接操作, Conv 表示卷积操作。本文采用卷积层来实现上下文特征融合,最后采用上采样模块重建高分辨率图像。

2.2.2. 反向单元

反向单元主要用于重建图像的光谱细节信息。如图3(b)所示,反向单元由特征拼接模块、N个多流光谱融合残差块MSFRB-Spec、上下文融合模块、上采样模块构成。针对第 t 维波段图像块,反向单元 Ne t b 接受五个输入,分别为 I LR t 、前向单元输出 h f t 、光谱邻域块 G LR t 、层内隐状态 h b t+1 、前向单元输出 h f t1 。在反向循环过程中,基于前向单元不同组波段的输出,探索光谱相关性。反向单元重建得到光谱图,和高分辨率空间图像 I SR spa 相加得到最终的重建结果 I SR ,保证了光谱相关性。具体可以描述为:

I SR_b t =Ne t b ( I LR t , G LR t , h f t , h b t+1 , h f t1 ) (8)

特征拼接模块将五个输入特征整合为三个特征。首先将 I LR t 和前向单元输出 h f t 拼接得到空间特征 b 1 0 ,保留前向单元提取的高分辨率空间特征。前向单元输出 h f t1 和层内隐状态 h b t+1 包含了反向和前向局部光谱范围内的光谱特征,因此将 G LR t 前后 m 个波段拆分,并分别与隐状态 h f t1 h b t+1 拼接得到另外两个特征 b 2 0 b 3 0 。以上操作可以描述为:

b 1 0 =Concat( [ I LR t , h f t ] ) (9)

b 2 0 =Concat( [ G LR t [ ,0:m ], h f t1 ] ) (10)

b 3 0 =Concat( [ G LR t [ ,m:2m ], h b t+1 ] ) (11)

图3(b)所示,MSFRB-Spec的流程和MSFRB-Spa类似,区别在于融合时采用两个Channel Attention块来有序融合光谱特征,避免光谱紊乱。

2.3. 损失函数

网络最终得到两个重建结果,分别为初步恢复得到的高分辨率空间图像 I SR spa 和经过光谱校准过后的 I SR ,本文对于两个结果采用不同的损失函数。

2.3.1. 空间损失函数

在目前的文献中, L 1 L 2 损失是最常用的损失函数。但是 L 2 损失函数往往会得到过于平滑的结果[11],因此本文采用 L 1 损失来衡量 I SR spa I SR 的空间重建精度。 L 1 损失函数表达式如公式(12)所示:

L 1 ( X,Y )= XY 1 (12)

其中XY表示两幅尺寸一致的图像。图像的相邻像素在空间域是相关的,本文又引入了空间梯度损失来约束重建结果 I SR spa 。空间梯度损失函数表达式如公式(13)所示:

L g ( X,Y )= h X h Y 1 + w X w Y 1 (13)

其中 h w 表示图像空间域上的水平梯度和垂直梯度。因此,对于高分辨率空间图像 I SR spa 的损失函数可以表示为公式(14):

L spa = L 1 ( I SR spa , I HR )+ L g ( I SR spa , I HR ) (14)

2.3.2. 光谱损失函数

然而, L 1 损失函数仅仅测量两个像素点之间的空间误差。虽然可以很好保留空间信息,但难以恢复高光谱图像中丰富的光谱信息。因此,为了同时保留空间信息和光谱信息,本文进一步加入了光谱角损失,计算方法如公式(15)所示:

SAM( X,Y )=arccos( X,Y | | X | | 2 | | Y | | 2 ) (15)

2.3.3. 总损失函数

最终得到的损失函数如公式(16)所示:

L= L spa + L 1 ( I SR , I HR )+SAM( I SR , I HR ) (16)

3. 实验结果与分析

3.1. 数据集

实验使用Chikusei和Pavia Centre数据集对本文所提出的SSADFN进行验证,将缩放因子分别设置为×2、×4、×8。

Chikusei数据集是由Headwall Hyperspec-VNIR-C传感器于日本筑西市(Chikusei)拍摄,它的光谱范围介于343-1018纳米。该高光谱图像有128个波段,空间分辨率为2517 × 2335。由于硬件设备的限制,选择第50个波段至第80个波段之间的光谱,并居中将图像裁剪,最终得到图像分辨率为2304 × 2048 × 31。选取目标图像顶部512 × 2048 × 31作为测试集合。剩下分辨率为1792 × 2048 × 31的图像作为训练集。对于训练集,HR图像被裁剪为以下三种尺寸的HR图像patch块:32 × 32、64 × 64、128 × 128。对三种尺寸的图像块分别以×2、×4、×8为缩放因子做下采样,得到16 × 16的LR图像块。通过双三次插值得到和HR块分辨率一致的LR高光谱图像块。对于测试集,提取512 × 512 × 31像素的非重叠高光谱图像,一共得到四张测试图像。

Pavia Centre是由ROSIS传感器获得的高光谱遥感图像。该高光谱图像一共有115个波段,空间分辨率为1096 × 1096。选取中间的31个波段,最终获得的图像分辨率为1096 × 715 × 31。选取目标图像左侧1096 × 512 × 31作为训练图像,剩下分辨率为1096 × 203 × 31为测试图像。具体而言,对于训练图像,提取64 × 64 × 31像素的重叠块作为训练集,重叠距离为32像素。对于这些训练块进行下采样,分别得到空间分辨率为32 × 32、16 × 16、8 × 8的图像块,缩放因子分别为×2、×4、×8。对于测试集,提取256 × 203 × 31像素的非重叠高光谱图像,一共得到四张测试图像。

3.2. 实验细节及评价指标

本文实验服务器采用的硬件设备CPU为32GB RAM的i9-9900 KF,GPU为Nvidia RTX 2080Ti,显存为11G。在此硬件环境下使用基于Python 3.7的Pytorch深度学习框架进行实验训练。实验中采用Adam优化器来更新参数,学习率设置为1 × 10−4,权重衰减系数设置为0.1,batch size设置为16,训练300个epoch。在上采样模块中,采用Pixelshuffle [23]算子将图像上采样2倍,当放大系数为×4和×8时,分别设置了2个和3个Pixelshuffle算子。

目前在超分辨率重建领域没有一个判断图像重建效果的标准,一般都通过参照多个评价指标来衡量图像重建效果。本文分别使用峰值信噪比PSNR、光谱角制图SAM、互相关性CC、相对无量纲全局误差ERGAS四个指标来评估网络的超分辨率性能。PSNR和CC这两个指标越高,则SAM和ERGAS这两个指标越低,说明图像失真程序越小,图像质量越好。

3.3. 实验结果分析

为了验证本方法的重建性能,实验中增加了一系列对比模型在相同数据集上的重建结果。对比模型包括四个高光谱图像超分辨率方法3DMSMAN [10]、GELIN [24]、ERCSR [9]、MCNet [8],以及三个自然图像超分辨率方法SAN [25]、RCAN [26]、EDSR [27]。接下来从定性和定量两个方面对结果进行分析。

3.3.1. 客观定量分析

Table 1. Experimental results of different models on Chikusei and Pavia Centre test dataset

1. 不同模型在Chikusei和Pavia Centre测试集上的实验结果

S

ALGO

Chikusei

Pavia Centre

PSNR

SAM

CC

ERGAS

PSNR

SAM

CC

ERGAS

2

Ours

46.4236

0.8722

0.9906

2.3102

39.7280

1.9225

0.9901

2.6028

3DMSMAN

45.9218

1.0591

0.9890

2.4230

39.7106

1.9259

0.9902

2.6051

GELIN

46.2079

0.9684

0.9897

2.3352

39.1159

1.9403

0.9888

2.7995

ERCSR

46.3557

1.0711

0.9901

2.3069

39.6589

1.9743

0.9901

2.6269

MCNet

46.3675

1.0201

0.9865

2.8130

39.4289

2.0047

0.9895

2.6981

SAN

46.2404

0.8917

0.9897

2.3322

39.4305

2.2919

0.9895

2.6991

RCAN

46.3019

0.8810

0.9899

2.3198

39.4689

2.2659

0.9896

2.6883

EDSR

46.0781

0.9908

0.9901

2.3644

39.7172

2.2834

0.9902

2.6032

Bicubic

43.0807

1.5356

0.9795

3.4058

36.7611

2.0456

0.9806

3.6696

4

Ours

39.2011

2.2930

0.9468

5.3925

33.1239

2.4853

0.9541

5.5956

3DMSMAN

38.9243

2.4877

0.9440

5.4723

33.0615

2.5603

0.9538

5.6384

GELIN

38.6203

2.4916

0.9400

5.6951

32.3219

2.6856

0.9454

6.1349

ERCSR

38.9461

2.6063

0.9444

5.5017

32.9030

2.7789

0.9523

5.7519

MCNet

39.0905

2.4981

0.9452

5.4470

32.8823

2.8859

0.9523

5.7420

SAN

38.6088

2.3450

0.9398

5.6931

32.4114

3.0205

0.9464

6.0684

RCAN

38.6142

2.4072

0.9397

5.6885

32.4460

3.0350

0.9470

6.0396

EDSR

38.8517

2.6381

0.9440

5.4903

32.9415

3.0795

0.9525

5.7060

Bicubic

37.3114

3.2857

0.9201

6.6677

31.8138

2.5812

0.9387

6.5340

8

Ours

35.1478

3.9535

0.8604

8.6126

29.0695

3.0818

0.8832

8.9685

3DMSMAN

34.9330

4.3999

0.8552

8.7606

28.7701

3.1311

0.8813

8.9702

GELIN

34.5125

4.5889

0.8409

9.2147

28.0224

3.5097

0.8487

10.101

ERCSR

34.8609

4.5184

0.8534

8.8657

28.6764

4.178

0.8695

9.3827

MCNet

35.0949

4.1783

0.8639

8.7474

28.6439

3.9706

0.8679

9.4365

SAN

34.6982

4.5238

0.8465

8.9535

28.0365

4.5170

0.8481

10.105

RCAN

34.8935

4.4390

0.8535

8.7755

28.2033

4.4358

0.8541

9.9149

EDSR

35.0459

4.3541

0.8588

8.6186

28.5622

4.1054

0.8657

9.4852

Bicubic

34.1351

5.1718

0.8261

9.6783

28.3289

3.1192

0.8596

9.8225

表1左侧为SSADFN和其他模型在Chikusei数据集上的对比结果。在PSNR和SAM上,无论缩放因子为多少,SSADFN均优于其他模型,这得益于空谱邻域输入模块。除了PSNR和SAM外,其他指标也达到了对比模型中的前列水平。在所有对比方法中,基于邻近像素插值的Bicubic方法最简单,效果最差。EDSR对空间信息重建较好,但是没有考虑到高光谱图像的光谱相关性,因此SAM值较高;而RCAN和SAM对于空间信息的重建不如EDSR,但是在SAM指标上表现更好。基于卷积操作的MCNet、ERCSR、GELIN和3DMSMAN,对于图像的重建能够兼顾空间信息和光谱信息,综合效果优于自然图像。表1右侧为SSADFN和其他模型在Pavia Centre数据集上的对比结果。这些方法各有千秋,而SSADFN逐步重建空间信息和光谱信息,同时得益于空谱邻域策略,最终得到最好的重建结果。在缩放因子×2、×4、×8下,SSADFN的PSNR、ERGAS和SAM全部优于其他对比模型。仅仅在缩放因子×2下,SSADFN的CC以0.0001低于3DMSMAN。

光谱反射率是物体表面所反射辐射量和它所接受辐射量的比值。为了多方面地证明SSADFN的光谱重建能力,在图4中展示了SSADFN与对比方法在Chikusei测试集中第3张图像上的光谱反射率差值。本文随机选取了3个像素位置来衡量光谱角,坐标分别为(67, 97)、(234, 463)和(162, 161)。光谱向量的夹角可能存在正和负,越接近0越好。综合来看,本文提出的SSADFN方法(红色曲线)重建的图像光谱差曲线是最靠近0的。这也证明了所提出的SSADFN方法具有更好的光谱重建能力,与表1分析的一致。

Figure 4. Reconstructing spectral curves of Chikusei dataset using different methods

4. 不同方法重建Chikusei数据集的光谱曲线

3.3.2. 主观视觉效果

Figure 5. Reconstructed result of the 26th dimension spectrum of the 4th image of the Chikusei test dataset with the scaling factor of 4

5. 缩放因子×4时,Chikusei测试集第4张图像第26维光谱的重建结果

为了更直观地感受SSADFN的重建效果,分别选用Chikusei测试集第4张图像的第26维光谱和Pavia Centre测试集第4张图像的第30维光谱,展现出不同模型在缩放因子为×2、×4时的重建视觉效果对比。如图5图6所示,第一行是整个重建结果,第二行和第三行分别是红框区域的重建结果和平均绝对误差图像。Chikusei图像中的场景主要包含街道、梯田、植被和房屋等,颜色以红色和土黄色为主。在图5中能够观察到,Bicubic算法所重建的图像较为模糊,重建效果最差。EDSR的重建结果较模糊,但是在重建田地块之间的纹理时,EDSR的效果要好于Bicubic;相对来说,针对高光谱图像的模型ERCSR、GELIN、3DMSMAN、MCNet的表现要优于前者,同时田地块的视觉效果也更接近真实图像。得益于空谱领域策略,在重建大范围相似田地块和相邻纹理时,SSADFN的效果要优于其他模型,视觉效果最好。当然,本文模型在缩放因子较大时与原图相比仍然有差距。在图6中,SSADFN对于房屋、树林的重建效果最好,尤其是不同物体之间的边缘。

Figure 6. Reconstructed result of the 30th dimension spectrum of the 4th image of the Pavia Centre test dataset with the scaling factor of 2

6. 缩放因子×2时,Pavia Centre测试集第4张图像第30维光谱的重建结果

3.4. 模型复杂度对比分析

Table 2. Comparison table of parameters, computational complexity, and PSNR for different models

2. 不同模型的参数量、计算量和PSNR对照表

模型

参数量(M)

FLOPs (G)

PSNR

SSADFN

1.994

24.691

39.2011

3DMSMAN

2.133

124.563

38.9243

GELIN

24.429

202.790

38.6203

ERCSR

1.594

69.689

38.9461

MCNet

2.174

70.056

39.0905

SAN

15.855

4.231

38.6088

RCAN

12.647

3.393

38.6142

EDSR

3.458

1.242

38.8517

表2所示,在对比多个超分辨率模型的性能时,可以看到SSADFN在参数量和计算复杂度方面表现出色。具体而言,SSADFN的参数量为1.994 M,相对较小,意味着它在存储和计算资源的消耗上更具优势。虽然参数量大于ERCSR,但是SSADFN的计算量远小于ERCSR的69.689。在PSNR方面,SSADFN达到39.2011,优于所有模型,如3DMSMAN和MCNet。这表明SSADFN在图像质量上具有明显优势,能够更有效地恢复图像细节。整体而言,SSADFN表现出其在超分辨率任务中的有效性,具备进一步优化和应用的潜力。

3.5. 消融实验

本文提出的SSADFN网络包含三个核心组件,即空谱邻域输入模块(SSAIB)、前向单元和反向单元。第一小节探索是否采用空谱邻域输入模块和空谱邻域范围对结果产生的影响。第二小节探讨像素注意力模块(PA)、通道注意力(CA)、多流融合残差块数量对结果的影响。具体将通过对这些模块进行替换以及修改数量来证明它们的有效性以及对网络性能的影响。这些实验的训练集和测试集采用放大因子×4的Chikusei数据集。

3.5.1. 验证空谱邻域输入模块的有效性

空谱邻域输入模块缓解了因为切块导致的输入图像信息缺失问题,空间邻域块 I ne t 为重建图像提供了丰富的高频细节。为充分验证空谱邻域输入模块的有效性,设计相关消融实验。消融实验中设计验证了采用不同数量的空谱邻域块的效果。实验结果如表3所示,其中 m 表示前侧和后侧波段个数, n 表示空间邻域块的个数。当 n=0 时,表示网络采用原始的光谱分组输入,不采用空谱邻域输入模块。此时将 G LR t I LR t 拼接起来作为 I ne t R p×p×( 2m+1 ) 输入,即空间邻域块就是重建块本身。当 n=3 时,将重建灰度图像块 I LR t 周围的三个图像块(左、上和左上)拼接得到 I ne t R p×p×3 。当 n=8 时,即为本章3.1.2描述的情况。通过观察表4可知,随着空间域内邻近块的增加,PSNR和参数量也随之提升,同时更多的光谱邻域块也使重建结果略微增强。在配置 m=4,n=8 的时候,网络的效果达到最好。因此,SSADFN网络的空谱邻域输入模块是有效的,空间邻域和光谱邻域分组均有助于提升网络的重建性能。

Table 3. Validity verification of input module for spatial spectral neighborhood

3. 空谱邻域输入模块有效性验证

m

n

PSNR

SAM

CC

ERGAS

SSIM

RMSE

参数量(M)

3

0

38.4218

2.2901

0.9401

5.4092

0.9199

0.0129

1.602

3

3

39.0713

2.2923

0.9418

5.4015

0.9247

0.0121

1.611

3

8

39.1971

2.2955

0.9441

5.3941

0.9321

0.0120

1.936

4

8

39.2011

2.2930

0.9468

5.3925

0.9359

0.0118

1.994

3.5.2. 验证多流融合残差块的有效性

此消融实验首先验证SSADFN中MSFRB-Spa和MSFRB-Spec块个数对网络重建性能的影响。实验结果如表4所示,其中M表示MSFRB-Spa块个数,N表示MSFRB-Spec块个数。可见,随着M、N的增加,重建效果逐渐提升。M = 3、N = 2时重建图像的PSNR和SAM都达到了最佳水平。然而,M = 3、N = 3时重建图像的PSNR略有下降,而SAM略有上升,此时模型参数量增加了0.347 M。

Table 4. Selection of the number of MSFRB

4. 多流融合残差块数量选取

M

N

PSNR

SAM

CC

ERGAS

SSIM

RMSE

参数量(M)

2

1

37.5321

3.6831

0.9171

5.4520

0.8812

0.0198

1.329

2

2

38.8256

2.3255

0.9316

5.4241

0.9166

0.0144

1.676

3

1

39.1192

2.3670

0.9424

5.4069

0.9287

0.0126

1.647

3

2

39.2011

2.2930

0.9468

5.3925

0.9359

0.0118

1.994

3

3

38.1913

2.2921

0.9460

5.3918

0.9361

0.0119

2.341

MSFRB模块内部的像素注意力模块(PA)、通道注意力(CA)在融合图像特征上具有关键作用,特征的高效提取和融合增强了网络的学习能力。为了证明它们的作用,本小节将它们替换为普通的卷积模块作为对比。从表5中可以看出,Net w/o PA和Net w/o CA的测试结果指标均差于完整的SSADFN网络。

Table 5. Validity verification of pixel attention and channel attention

5. 像素注意力和通道注意力的有效性验证

结构

PSNR

SAM

CC

ERGAS

SSIM

RMSE

参数量(M)

Net w/o PA

39.1194

2.4107

0.9410

5.4103

0.9273

0.0135

2.311

Net w/o CA

39.1318

2.4219

0.9424

5.4173

0.9290

0.0132

2.682

Net

39.2011

2.2930

0.9468

5.3925

0.9359

0.0118

1.994

4. 总结

针对高光谱图像超分辨率算法中因其裁剪为小图像块导致的空间信息丢失,以及光谱数比较多导致的无法充分挖掘空间光谱信息等问题,本文提出了一种基于空谱邻域和多流融合的超分辨率网络。空谱邻域输入模块充分挖掘了图像块局部范围内的空间信息和光谱信息,相似的边缘和纹理有助于提高重建图像的质量。双流融合网络使用光谱分组、前向单元和反向单元以及信息共享等策略,既能有效融合多个数据流的特征,又降低了网络参数量。此外,分别为空间特征和光谱特征的提取设计了不同的模块,同时采用不同的损失函数来重构高分辨率空间特征和光谱相关性。最后,实验结果表明,SSADFN在Chikusei数据集上的平均PSNR值最高,达到42.4236 dB,SAM达到了0.8722,重建后的图像既保证了光谱相关性,又恢复了更多的高频细节,纹理细节丰富,更接近于原始图像。

虽然本文方法在高光谱遥感图像超分辨率重建中取得了不错的效果,但是仍然存在问题。由于本文采用了双向循环单元结构,尽管网络参数量和计算量不大,但重建时间相比其他同量级的方法更长,此外,类似于循环神经网络在处理长序列问题时可能出现的“遗忘”问题,光谱特征会随着流经波段数的增加而减弱。因此,在光谱分组、逐波段重建的条件下,如何更好地恢复光谱信息和平衡循环单元的计算时间是今后需要研究的方向。

参考文献

[1] Green, R.O., Eastwood, M.L., Sarture, C.M., Chrien, T.G., Aronsson, M., Chippendale, B.J., et al. (1998) Imaging Spectroscopy and the Airborne Visible/Infrared Imaging Spectrometer (AVIRIS). Remote Sensing of Environment, 65, 227-248.
https://doi.org/10.1016/s0034-4257(98)00064-9
[2] Karim, S., Qadir, A., Farooq, U., Shakir, M. and Laghari, A.A. (2022) Hyperspectral Imaging: A Review and Trends Towards Medical Imaging. Current Medical Imaging Formerly Current Medical Imaging Reviews, 19, 417-427.
https://doi.org/10.2174/1573405618666220519144358
[3] Rajabi, R., Zehtabian, A., Singh, K.D., Tabatabaeenejad, A., Ghamisi, P. and Homayouni, S. (2024) Editorial: Hyperspectral Imaging in Environmental Monitoring and Analysis. Frontiers in Environmental Science, 11, Article 1353447.
https://doi.org/10.3389/fenvs.2023.1353447
[4] Mei, S., Yuan, X., Ji, J., Zhang, Y., Wan, S. and Du, Q. (2017) Hyperspectral Image Spatial Super-Resolution via 3D Full Convolutional Neural Network. Remote Sensing, 9, Article 1139.
https://doi.org/10.3390/rs9111139
[5] Li, Q., Wang, Q. and Li, X. (2020) Mixed 2D/3D Convolutional Network for Hyperspectral Image Super-Resolution. Remote Sensing, 12, Article 1660.
https://doi.org/10.3390/rs12101660
[6] Li, Q., Wang, Q. and Li, X. (2021) Exploring the Relationship between 2D/3D Convolution for Hyperspectral Image Super-Resolution. IEEE Transactions on Geoscience and Remote Sensing, 59, 8693-8703.
https://doi.org/10.1109/tgrs.2020.3047363
[7] Hu, J., Tang, Y., Liu, Y. and Fan, S. (2022) Hyperspectral Image Super-Resolution Based on Multiscale Mixed Attention Network Fusion. IEEE Geoscience and Remote Sensing Letters, 19, 1-5.
https://doi.org/10.1109/lgrs.2021.3124974
[8] Jiang, J., Sun, H., Liu, X. and Ma, J. (2020) Learning Spatial-Spectral Prior for Super-Resolution of Hyperspectral Imagery. IEEE Transactions on Computational Imaging, 6, 1082-1096.
https://doi.org/10.1109/tci.2020.2996075
[9] Liu, D., Li, J. and Yuan, Q. (2021) A Spectral Grouping and Attention-Driven Residual Dense Network for Hyperspectral Image Super-Resolution. IEEE Transactions on Geoscience and Remote Sensing, 59, 7711-7725.
https://doi.org/10.1109/tgrs.2021.3049875
[10] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T. and Houlsby, N. (2020) An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv preprint arXiv:2010.11929.
[11] Zhang, M., Zhang, C., Zhang, Q., Guo, J., Gao, X. and Zhang, J. (2023) ESSAformer: Efficient Transformer for Hyperspectral Image Super-Resolution. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, 1-6 October 2023, 23016-23027.
https://doi.org/10.1109/iccv51070.2023.02109
[12] Jia, S., Zhu, S., Wang, Z., Xu, M., Wang, W. and Guo, Y. (2023) Diffused Convolutional Neural Network for Hyperspectral Image Super-Resolution. IEEE Transactions on Geoscience and Remote Sensing, 61, 1-15.
https://doi.org/10.1109/tgrs.2023.3250640
[13] Schuster, M. and Paliwal, K.K. (1997) Bidirectional Recurrent Neural Networks. IEEE Transactions on Signal Processing, 45, 2673-2681.
https://doi.org/10.1109/78.650093
[14] Wang, Q., Li, Q. and Li, X. (2021) Hyperspectral Image Super-Resolution Using Spectrum and Feature Context. IEEE Transactions on Industrial Electronics, 68, 11276-11285.
https://doi.org/10.1109/tie.2020.3038096
[15] Wang, X., Cheng, Y., Mei, X., Jiang, J. and Ma, J. (2022) Group Shuffle and Spectral-Spatial Fusion for Hyperspectral Image Super-Resolution. IEEE Transactions on Computational Imaging, 8, 1223-1236.
https://doi.org/10.1109/tci.2023.3235153
[16] Li, Q., Yuan, Y., Jia, X. and Wang, Q. (2022) Dual-Stage Approach toward Hyperspectral Image Super-Resolution. IEEE Transactions on Image Processing, 31, 7252-7263.
https://doi.org/10.1109/tip.2022.3221287
[17] Wang, X., Ma, J. and Jiang, J. (2022) Hyperspectral Image Super-Resolution via Recurrent Feedback Embedding and Spatial-Spectral Consistency Regularization. IEEE Transactions on Geoscience and Remote Sensing, 60, 1-13.
https://doi.org/10.1109/tgrs.2021.3064450
[18] Wang, H., Wang, C. and Yuan, Y. (2023) Asymmetric Dual-Direction Quasi-Recursive Network for Single Hyperspectral Image Super-Resolution. IEEE Transactions on Circuits and Systems for Video Technology, 33, 6331-6346.
https://doi.org/10.1109/tcsvt.2023.3268178
[19] Oruh, J., Viriri, S. and Adegun, A. (2022) Long Short-Term Memory Recurrent Neural Network for Automatic Speech Recognition. IEEE Access, 10, 30069-30079.
https://doi.org/10.1109/access.2022.3159339
[20] Zhao, H., Kong, X., He, J., Qiao, Y. and Dong, C. (2020) Efficient Image Super-Resolution Using Pixel Attention. In: Bartoli, A. and Fusiello, A., Eds., Lecture Notes in Computer Science, Springer International Publishing, 56-72.
https://doi.org/10.1007/978-3-030-67070-2_3
[21] Yi, P., Wang, Z., Jiang, K., Jiang, J. and Ma, J. (2019) Progressive Fusion Video Super-Resolution Network via Exploiting Non-Local Spatio-Temporal Correlations. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October 2019-2 November 2019, 3106-3115.
https://doi.org/10.1109/iccv.2019.00320
[22] Elfwing, S., Uchibe, E. and Doya, K. (2018) Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning. Neural Networks, 107, 3-11.
https://doi.org/10.1016/j.neunet.2017.12.012
[23] Shi, W., Caballero, J., Huszar, F., Totz, J., Aitken, A.P., Bishop, R., et al. (2016) Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 1874-1883.
https://doi.org/10.1109/cvpr.2016.207
[24] Wang, X., Hu, Q., Jiang, J. and Ma, J. (2022) A Group-Based Embedding Learning and Integration Network for Hyperspectral Image Super-Resolution. IEEE Transactions on Geoscience and Remote Sensing, 60, 1-16.
https://doi.org/10.1109/tgrs.2022.3217406
[25] Dai, T., Cai, J., Zhang, Y., Xia, S. and Zhang, L. (2019) Second-Order Attention Network for Single Image Super-Resolution. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 11057-11066.
https://doi.org/10.1109/cvpr.2019.01132
[26] Zhang, Y., Li, K., Li, K., Wang, L., Zhong, B. and Fu, Y. (2018) Image Super-Resolution Using Very Deep Residual Channel Attention Networks. In: Ferrari, V., Hebert, M., Sminchisescu, C. and Weiss, Y., Eds., Lecture Notes in Computer Science, Springer International Publishing, 294-310.
https://doi.org/10.1007/978-3-030-01234-2_18
[27] Lim, B., Son, S., Kim, H., Nah, S. and Lee, K.M. (2017) Enhanced Deep Residual Networks for Single Image Super-Resolution. 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, 21-26 July 2017, 1132-1140.
https://doi.org/10.1109/cvprw.2017.151