1. 引言
高光谱图像(Hyperspectral Image, HSI)是通过成像技术对目标区域的几十甚至几百个波段同时成像得到的图像,不仅覆盖了丰富的地表空间信息也包含广泛的光谱信息,因此被广泛应用于图像分类 [1] [2] 、目标检测 [3] [4] 和变化侦测 [5] [6] 等多种图像后处理领域。但由于成像系统的限制,为了保证较高的信噪比,捕获图像在覆盖到大量且连续光谱带的同时,会以一定的空间信息为代价,所以高光谱图像往往会有较低的空间分辨率,从而限制了它的应用和发展。为了更好地进行高光谱图像研究,我们需要获取同时具有高空间分辨率和高光谱分辨率的高光谱图像(HR-HSI)。
随着高光谱领域的不断研究,大多数学者采用高空间分辨率的多光谱图像(HR-MSI)与高光谱图像(LR-HSI)的融合技术来提高高光谱图像的分辨率。这种融合方式通常可以分为两类:基于模型的融合方法和基于深度学习的融合方法。基于模型的融合方法 [7] [8] [9] 通常需要手工设置先验信息再进行融合,但这些先验信息不一定能很好地代表高光谱图像的内部结构;而基于深度学习的融合方法通过借助深度学习强大的学习能力,目前已有很大的发展 [10] [11] [12] 。虽然上述深度学习的方法已经实现了一定的融合效果,但在融合过程中,大多数方法仅使用静态卷积来提取图像的特征,没有很好地关注不同图像中的重要信息,从而限制了融合效果。为解决这个问题,本文引入了动态卷积 [13] [14] ,提出了一种基于动态卷积的高光谱图像融合网络(DHIF)。该模型主要从三个分支来用于HSI、MSI和串联图像的特征提取与图像重构。对于特征提取阶段的串联分支,本文使用动态卷积代替大部分网络中的静态卷积来提取串联特征;而对于其他两个单图像的输入分支,分别设计高光谱动态卷积子网络HDCN和多光谱动态卷积子网络MDCN来提取它们的光谱与空间信息。在图像重构阶段,三个分支提取的特征信息一方面被用于图像融合,另一方面还作为损失函数的一部分来约束网络模型的训练。综上而言,本文的主要贡献为:
(1) 本文提出一种基于动态卷积的高光谱图像融合算法(DHIF),用于高光谱和多光谱图像的融合,并引入动态卷积对图像中有效信息进行提取。
(2) 本文分别设计了高光谱动态卷积子网络HDCN和多光谱动态卷积子网络MDCN提取原始HSI和MSI的空间光谱信息,并将提取的先验信息用于损失函数中,更好地保留两类图像中的原始信息。
(3) 本文在三个高光谱数据集PU、PC和Botswana上实现了所提出的算法DHIF,并与其他九种目前较好的融合算法进行比较,从主观视觉和客观数据两方面都证明,本文模型实现了最好的融合效果。
2. 本文模型
本文将HR-HSI表示为
,其中W、H和C分别表示HR-HSI的空间宽度、高度和通道数;LR-HSI和HR-MSI分别表示为
和
,w、h和C为LR-HSI的宽度、高度和光谱通道数,而W、H和c为MSI的空间宽度、高度和光谱通道数。因为HSI包含大量的光谱信息,MSI包含丰富的空间信息,因此HSI的w和h远小于MSI的W、H,而通道数C远大于c,而HR-HSI则同时具有较高的空间分辨率W、H和光谱分辨率C。
表示HSI与MSI的缩放因子。通常情况下,在进行融合时,将观测到的HSI作为HR-HSI,即参考图像GT (GroundTruth),而用于融合的LR-HSI和HR-MSI分别由其退化而成,所以三者的关系可以表示为:
(1)
其中,
表示将三维张量展开成二维矩阵,而
为它的逆操作,即将二维矩阵还原成三维张量。
、
分别表示模糊矩阵和空间下采样矩阵,是将Z在空间维度进行模糊和下采样生成X,
为光谱下采样矩阵,是将Z在光谱维度进行下采样生成Y。
本文主要是通过X和Y经融合网络DHIF生成
,来近似高分辨率的高光谱图像Z,因此整个融合过程可表示为:
(2)
其中,
表示本文所使用的融合网络DHIF,
则表示融合生成的HR-HSI。
图1展示了本文DHIF的整体网络模型结构,主要分为两个阶段进行高光谱图像的融合:特征提取阶段与图像重构阶段。在特征提取阶段,主要从三个分支分别提取HSI、MSI和它们的串联特征的信息,然后各分支提取的特征被串联输入图像重构阶段,用于高分辨率高光谱图像的融合和重构。

Figure 1. The overall structure of DHIF
图1. DHIF的整体结构
2.1. 特征提取阶段
受文献 [13] 中动态卷积的影响,本文在特征提取阶段引入动态卷积,即在传统静态卷积的基础上增加注意力机制,通过输入特征的加权来更好提取图像中的重要信息。
如图1所示,对于中间分支即高光谱和多光谱的联合特征,本文将HSI通过双三次上采样后与MSI串联然后输入进网络,再设计动态卷积块和静态卷积块,共同实现串联特征和光谱空间相关性特征的提取。串联之后的特征可表示为:
(3)
其中
表示串联操作,
表示双三次上采样操作,
表示HSI和MSI串联之后的图像特征。

Figure 2. The structure of Dynamic convolution Block (Dyconv)
图2. 动态卷积块(Dyconv)的结构
图2展示动态卷积块的结构,
表示动态卷积块的输入特征,
表示动态卷积块的输出特征。从图中可以看出,本文采用的动态卷积块包括2个3 × 3的卷积核
和
,而且注意力机制Attention采用 [13] 中的经典模式,即包括全局平均池化GAP、全连接层FC、激活函数Relu、全连接层FC和激活函数Softmax五个部分。全局平均池化首先将输入的信息进行压缩,然后通过全连接层和激活函数生成正则化的权重
和
。计算到的权重分别与对应卷积核进行相乘并逐元素相加后,形成一个新的卷积操作,再通过正则化BN和激活函数Relu,得到经动态卷积后提取的图像的浅层特征。可表示为:
(4)
其中
表示串联分支
经动态卷积块后得到的权重,包括2个权重参数
和
,
表示卷积核矩阵,即
和
。
表示向量之间的乘积操作,
表示加权后的卷积核,
表示经动态卷积后所提取的串联分支的浅层特征。
提取完串联分支的浅层特征后,本文再使用静态卷积块进行深层特征的提取。如图1中所示,静态卷积块包含两个3 × 3的卷积核和一个Relu激活函数,且每个卷积后跟着一个残差块Res Block [15] ,通过信息的传递来减少因网络加深带来的模型退化问题。静态卷积块的操作可表示为:
(5)
其中
表示残差块,
表示该分支提取的深层HSI-MSI特征。
对于其他两个分支,本文分别设计了高光谱动态卷积子网络HDCN和多光谱动态卷积子网络MDCN,同样引入了动态卷积,来提取HSI和MSI独有的光谱和空间信息。图3分别展示了HDCN和MDCN的具体结构。

Figure 3. The structure of HDCN and MDCN
图3. HDCN和MDCN的结构
从图中可以看出,高光谱动态卷积子网络HDCN和多光谱动态卷积子网络MDCN都包含一个动态卷积块和一个静态卷积。此处的动态卷积块也采用了图2中动态卷积块的结构,只是在HDCN中采用了2个3 × 3的卷积核,而在MDCN中采用了2个5 × 5的卷积核。这是考虑了HSI和MSI尺度不同的结果。而且在动态卷积块之后,HSI和MSI也通过跳连接被加到网络中,以增加原始特征的传递。最后一个卷积被用来进行光谱维度的转换,将提取特征的光谱维度调整到64,便于图像重构阶段的串联与融合。所以HDCN的操作可表示为:
(6)
MDCN的操作可以表示为:
(7)
其中,
和
分别表示X和Y在输入动态卷积块后经注意力机制得到的权重,
和
分别表示两个子网络中的卷积核矩阵。
和
表示在HDCN和MDCN中两个动态卷积块形成的新卷积核,
表示向量之间的求和操作。
和
表示X和Y经动态卷积块后提取的光谱空间特征,而
和
表示经过HDCN和MDCN两个子网络后提取的HSI和MSI的所有特征。
2.2. 图像重构阶段
在进行图像重构时,通过特征提取阶段的三个分支分别得到的HSI、MSI和串联图像的特征,被一起作为图像重构阶段的输入,然后经过一系列操作,实现最终HR-HSI的融合。这些操作主要包括两个3 × 3的静态卷积核,一个Relu激活函数和一个3 × 3的静态卷积核。Relu激活函数在经过两个卷积核的特征提取后将图像信息映射到非线性空间,然后再通过一个卷积来匹配原来的HSI维度。上述操作可表示为:
(8)
(9)
其中,
表示图像重构阶段的输入特征,
表示最后融合的HR-HSI。
2.3. 损失函数
在进行模型训练时,本文不仅使用融合图像与真实图像的差值来约束网络,还使用提取的光谱空间先验信息与原始HSI、MSI的差值共同作为DHIF的损失函数,以进一步提高它的融合能力。本文的损失函数可表示为:
(10)
(11)
其中,
表示融合图像与真实图像的差值,
和
分别表示HDCN和MDCN子网络中提取的空间光谱信息与原始HSI和MSI的差异,L则表示模型DHIF整体的损失函数,N为像素的总个数。
3. 实验
为更好地评估本文所提出网络模型DHIF的融合性能,本文分别在三个高光谱数据集上进行了消融实验和对比实验,并从数量和质量两方面分析模型的实验结果。下面先介绍实验所用的数据集、相关评价指标和实现细节,再分析具体的实验结果。
3.1. 实验设置
3.1.1. 数据集
· Pavia University (PU)
PU数据集是通过ROSIS传感器在意大利北部的Pavia地区获取的。它包含103个光谱带和610 × 610的空间像素,且空间分辨率为1.3 m。
· Pavia Centre (PC)
和PU数据集类似,PC数据集也是由ROSIS传感器在Pavia地区捕获到的。但这个图像包含102个光谱带和1096 × 1096的空间像素。
· Botswana
Botswana数据集是由NASA EO-1卫星传感器在Botswana上空所捕获的。它包含242个光谱带和30 m的像素分辨率,且覆盖的光谱范围从400 nm到2500 nm不等。去掉未校准和噪声光谱带后,剩余145个光谱带。
在去除图像中大量空白的无效信息后,本文分别选择三个数据集每个光谱带左上部分的610 × 340、1096 × 715和1476 × 256的空间像素,用于模型的训练和测试。
3.1.2. 评价指标
本文采用了5个广泛使用的数量评价指标来对所提出的模型DHIF进行定量评估,它们分别为均方根误差(RMSE)、峰值信噪比(PSNR)、光谱角匹配(SAM) [16] 、结构相似性(SSIM) [17] 和相对无量纲全局误差(ERGAS) [18] 。其中RMSE用来估计融合图像和真实图像的强度差,PSNR评估图像整体的融合质量,SAM和SSIM分别反映融合图像的光谱保真度和空间结构相似性,ERGAS用来反映全局质量的好坏。对于指标RMSE、SAM和ERGAS,数据值越小,融合效果越好;相反,PSNR和ERGAS则是值越大,结果越好。
3.1.3. 实现细节
通常情况下,将所获取的高光谱图像作为参考图像即HR-HSI,然后根据Wald准则 [19] 合成相应的LR-HSI和HR-MSI。在具体实验中,HR-HSI被放进网络后首先按照32的步长被切割成64 × 64的小块,然后LR-HSI由HR-HSI经过大小为8 × 8,方差为2的高斯模糊核下采样得到。根据下采样因子的不同,得到的HSI大小也不同。本文的实验采用了4、8和16的缩放因子,所以获得的HSI的大小分别16 × 16、8 × 8和4 × 4。而HR-MSI是通过HR-HSI乘以相应的光谱转换矩阵得到的。此外,在模型训练过程中,设置batchsize为16,即每次以16个块同时进行训练,并且在300 epochs后结束训练。同时使用ADAM优化器最小化损失函数,设置初值
为0.9,学习率
为1e−4。在测试阶段,采用不重叠且大小为64 × 64的图像块来进行模型结果的评估。本文在PyTorch实现了所提出的网络DHIF,并且使用的软件系统平台为Ubuntu 18.04.3 LTS,硬件设备CPU为32 GB RAM的i9-9900 KF,GPU为11 GB的NVIDIA GeForce RTX 2080Ti。
3.2. 量化分析
3.2.1. 消融实验
因为DHIF相较于以往的融合网络引入了动态卷积,所以本文在PU数据集上分别对特征提取阶段三个分支中的动态卷积块进行消融实验。“DHIF_S0”和“DHIF_S1”是将串联分支和其他两个子网络HDCN和MDCN中的动态卷积块分别替换成了2个静态卷积核,且卷积核的大小与原来相同;而“DHIF_S2”仅使用融合图像和真实图像的差值即
作为模型的损失函数,不包括子网络中提取的空间光谱先验。
表1显示了在HSI和MSI的缩放因子为4时PU数据集的消融实验结果,最好的结果被加粗显示。从表中可以看出,不使用动态卷积的情况下,“DHIF_S0”和“DHIF_S1”的5个指标结果都低于DHIF,说明在本文引入的动态卷积中,通过对重要信息权重的增加,可以更好提取图像中的有效特征,抑制无效特征;而且“DHIF_S2”的所有结果也都低于本文提出的模型,说明从HSI和MSI中提取的先验信息在也有助于图像的融合重构。综上而言,上述三个消融实验的结果都证明了本文所设计的动态卷积网络和损失函数的有效性。

Table 1. The quantitative results of ablation study on PU data set (×4)
表1. DHIF在PU数据集上的消融实验结果(×4)
3.2.2. 对比实验
在对比实验部分,本文使用了一个基于模型的融合方法IR-TenSR [20] 和8个目前为止最优的基于深度学习的融合方法TFNet [21] 、HyperPNN [22] 、SSRNET [23] 、MSDCNN [24] 、DARN [25] 、DBDEnet [26] 、SSFCNN [27] 以及MSSJFL [28] ,与所提出的模型DHIF进行比较。上述深度学习方法都在Pytorch上被重新实现,并且在训练时使用了和DHIF相同的参数设置。下面具体分析各对比实验在3个数据集上的结果。
· Pavia University (PU)
首先,在PU数据集上实现了DHIF和其他对比方法。表2分别展示了当缩放因子为4、8和16时所有方法在PU数据集上的对比结果,最好的结果被加粗显示。

Table 2. The quantitative results obtained by using different methods on PU data set
表2. 各对比方法在PU数据集上的实验结果
从表中的结果可以看出,不论缩放因子是4、8还是16,DHIF在所有的数据指标上都表现出最好的结果,尽管其他对比方法采用了编码解码、多尺度和残差块等结构。当缩放因子为4时,本文提出的DHIF的RMSE、PSNR、SAM、SSIM和ERGAS的结果分别为0.0179、32.5340、4.4637、0.9582和2.9816,相较于其他方法中次好的结果0.0202、31.6072、4.6833、0.9492和3.3305,分别相差0.0023、0.9268、0.2196、0.0090和0.3489。并且随着缩放因子的增大,这些差距也会越来越大,说明本文提出的模型在高光谱图像的缩放因子较大时仍具有很好的适应性。

Figure 4. Visual fusion results and error maps on PU data set with the scaling factor ×4
图4. 各对比方法在缩放因子为4时PU数据集的融合图像和差值图像
除了数量上的评估结果,本文随机选取了PU数据集中的一部分测试结果来进行视觉上的评估。图4中第一行分别展示了缩放因子为4时,各对比方法和DHIF的融合结果,第二行表示的是融合结果与GT参考图像的差值图像。从图中可以看出,MSSJFL产生了最模糊的融合结果,与GT的差别最大。SSFCNN、DBDEnet、SSRNET、MSDCNN和DARN产生了一定程度的色彩偏差和伪影,而HyperPNN、TFNet和IR-TenSR的融合结果相对较好,但在局部细节的恢复上仍有不同程度的差异。相比之下,DHIF不管是融合结果还是差值图像都和GT最接近,说明本文所设计结构的有效性。
· Pavia Centre (PC)

Table 3. The quantitative results obtained by using different methods on PC data set
表3. 各对比方法在PC数据集上的实验结果
表3展示了DHIF和其他对比方法在不同缩放因子的情况下,PC数据集的各项指标结果。从表中可以看出,当缩放因子为4时,IR-TenSR的PSNR优于本文的方法DHIF,但差距不是很大,仅为0.6123。而在其他情况下,所提出方法DHIF的各项指标仍然具有最优的结果。整体而言,DHIF的各项指标结果相较于其他方法,仍保持有最低的RMSE、SAM和ERGAS,与最高的PSNR和SSIM,再次证明本文引入的动态卷积和设计的卷积网络的特征提取能力。
本文随机截取了PC数据集中的一部分测试图像,用于评估各方法的融合效果。图5分别展示了在缩放因子为4时,各融合算法在PC数据集上的融合图像和差值图像。可以直观地看出,IR-TenSR、MSSJFL、SSFCNN、DBDEnet、SSRNET和DARN与GT都存在一定的差异,其中MSSJFL与GT的差值最大,融合结果也最模糊。而MSDCNN、HyperPNN和TFNet的融合结果相对较好,这与数量上的评估结果一致。但总体上来讲,DHIF在中间细节与纹理的恢复上都实现了更好的效果,且与GT最接近,证明DHIF具有更好的特征提取与融合能力。

Figure 5. Visual fusion results and error maps on PC data set with the scaling factor ×4
图5. 各对比方法在缩放因子为4时PC数据集的融合图像和差值图像
· Botswana
最后,本文分析了各方法在Botswana数据集的数量结果和视觉质量结果。表4展示了各方法在不同的缩放因子的条件下Botswana数据集的5个评价指标结果。可以看出,Botswana数据集也是在缩放因子为4时,IR-TenSR的PSNR相比于本文的模型略好。但整体而言,在其他情况下,DHIF的各项数量指标的结果上依旧优于其他的方法,表现出最好的结果。

Table 4. The quantitative results obtained by using different methods on Botswana data set
表4. 各对比方法在Botswana数据集上的实验结果
续表

Figure 6. Visual fusion results and error maps on Botswana data set with the scaling factor ×4
图6. 各对比方法在缩放因子为4时Botswana数据集的融合图像和差值图像
图6展示了在缩放因子为4时,各方法在Botswana数据集上的融合效果和差值图像,本文随机选取了其中一个测试结果进行说明。从结果来看,MSSJFL、DBDEnet、SSRNET、DARN和HyperPNN几乎很难得到可视化的融合结果,而且SSFCNN也产生了一定的色彩偏差。MSDCNN、TFNet和IR-TenSR相较于DHIF在局部边缘信息的保留上,都与GT存在或多或少的差别。而本文的方法DHIF相较于GT,仅存在一些细微的差距,并且其他部分都和GT最接近,再次证明了本文提出模型的优越性和强大的融合性能。
4. 结论
为更好地提取HSI和MSI中的有效信息,并用于高光谱和多光谱图像的融合,本文提出了一种基于动态卷积的高光谱图像融合网络DHIF,其主要包含两个阶段:特征提取与图像重构。在特征提取阶段,本文引入动态卷积,并通过三个分支分别设计了高光谱动态卷积子网络HDCN、多光谱动态卷积子网络MDCN和动态卷积块,以提取HSI、MSI和串联特征的光谱空间信息。在图像重构阶段,两个子网络中提取的图像信息一方面被作为该部分的输入,另一方面还被加到损失函数中,进一步约束模型的训练。通过在三个高光谱数据集PU、PC和Botswana上所做的相关消融实验和对比实验,证明不论是在数量指标还是主观视觉上,本文的模型DHIF都具有最好的融合效果。