1. 引言
高光谱图像(Hyperspectral Image, HSI)通过连续数十至数百个窄波段对场景进行成像,能够捕捉地物独特的光谱信息。这种特性使其在精准农业(如作物病害监测[1])、环境遥感(如水质污染评估[2])、矿物勘探等领域具有不可替代的作用。然而,受限于成像传感器物理特性,高光谱相机的空间分辨率与光谱分辨率存在显著权衡关系:高光谱分辨率要求更长的积分时间,导致单像元光通量降低,迫使采用大像元尺寸以保证信噪比[3]。这种物理限制使得获取高空间–光谱分辨率的高光谱图像成为极具挑战性的任务。
传统高光谱超分辨率(Super-Resolution, SR)方法主要基于最大后验概率(Maximum Posterior Probability, MAP)框架,通过构建退化模型
(其中
为空间下采样矩阵,
为模糊核,
为噪声)并引入先验约束(如低秩性[4]、稀疏性[5])进行优化求解。然而,这类方法存在两大根本缺陷:其一,实际成像系统的退化过程具有空间非均匀性,简单的线性模型难以刻画复杂的光学像差与运动模糊;其二,手工设计的先验模型,如全变分正则化(Total Variation, TV) [6],虽能抑制噪声,但其全局权重策略会导致边缘过度平滑。
近年来,深度学习方法通过端到端的非线性映射,在单图超分辨率领域取得突破性进展。ResNet [7]、U-Net [8]等架构通过残差连接有效缓解了梯度消失问题,这些神经网络可以用于逐波段地重建HSI,但因其未考虑HSI中光谱的相关性,导致重建的HSI光谱存在偏差。而诸如SSPSR [9]、GDRRN [10]等专门设计于高光谱图像超分辨率的方法,往往是从高光谱图像中截取一部分用作训练集,剩下部分作为测试集,但在现实中,同一场景下不同分辨率的高光谱图像往往难以获得,且不同高光谱图像波段不同。因此,此类方法难以应用到现实中。此外,现有深度学习方法大多采用均方误差(Mean Square Error, MSE)与空间光谱全变分(Spatial-Spectral Total Variation, SSTV) [9]作为损失函数,虽能提升峰值信噪比(Peak Signal to Noise Ratio, PSNR)指标,但易导致重建结果过于平滑,丢失关键纹理细节。
根据以上存在的问题,本文提出了均值方差预测超分辨率网络(Mean Variance Prediction Super-Resolution Network, MVPSR Network),掩码全变分损失(Masked Total Variation Loss, MTV)与波段生成网络(Band Generation Network, BGN)。其中,MVPSR网络提出了一种误差波动机制用于指导图像超分辨率重建,MTV设计了一种掩码机制,动态调整全变分损失的权重分布,强化关键区域的空间细节重建,BGN用于生成HSI的下一个波段,不需要高分辨率的HSI图像进行训练。
2. 模型
2.1. 正态误差模型
图1展示了在超分辨率中存在的误差。图1存在四张图。其中(a)为高分辨率(High Resolution, HR)图像,(b)为低分辨率(Low Resolution, LR)插值后的图像,(c)是高低分辨率间的绝对值误差。通过统计(c)中的误差值,可以在(d)的直方图中表示。从图(d)可以看到,大部分误差值集中在0附近,且误差整体呈现为正态分布。由此我们可以假设插值后的LR图像(b)与HR图像(a)间,每个像素的误差可认为互相独立且服从均值为
,方差为
的正态分布。
Figure 1. Errors and their distribution in image super-resolution
图1. 图像超分辨率中的误差及其分布情况
2.2. MVP网络架构
图2展示了均值方差预测(Mean-Variance Prediction)网络结构。其中卷积层均为3 × 3卷积核且在四周填充1个像素保证卷积后图像大小不变。RB层为残差块,用于更好地提取图像特征,防止梯度消失。Tanh,Sigmoid与ReLU为激活函数,其中Tanh将数值约束在−1到1,Sigmoid将数值约束在0到1,ReLU将数值的负数部分赋值为0。MVP网络用于预测输入的LR插值图像与HR图像之间的误差图
与误差的变化范围图像
。在MVP网络上方为均值预测分支,由于在上一小节中提到LR插值图像与HR图像之间的误差服从一个正态分布,即大部分像素的误差分布在某个均值附近,因此均值预测分支主要用于预测每个像素在HR图像中的误差,即均值附近的误差。虽然LR图像中大部分像素的误差分布在均值附近,但仍存在部分像素其误差值与均值有很大的差距。因此,下方分支的方差预测,提供了一个误差的变化范围图像
,
的每个像素值,描述了在误差图
中每个对应像素的变动范围,为更准确的误差图预测提供参考。
Figure 2. Network architecture of MVP
图2. MVP网络架构
MVP网络需要单独训练以保证网络预测的误差图
与变化范围图像
的准确性。对于训练的损失函数,构建了均值方差联合(Joint Mean Variance, JMV)损失函数:
(1)
其中
是像素的位置索引,
是像素总数,
是插值后的LR图像与HR图像间的误差图像中的第
个像素,
是预测的误差图像的第
个像素,
是预测的变化范围图像的第
个像素。求和的第一项表示对于第
个像素,预测的误差图像
应当与真实的误差图像
的距离更小,且该距离会受到变动范围
的缩放。求和的第二项表示对于第
个像素,预测的变动范围应该要小,以达到更准确的变动范围估计。当
减小时,求和的第一项
误差会被放大,也就要求MVP网络预测一个更准确的
。
2.3. MVPSR网络架构
图3展示了均值方差预测超分辨率网络MVPSRN的架构。首先将MVP网络生成的误差预测图
与变动范围图
按像素相乘,记为
,是更新了变动范围的误差图,约束了误差的变化上限。再将
与误差预测图
拼接再一起,即将MVP预测的误差与最大误差变动图像的信息汇集到一起,约束了误差的下限,其中下限为误差图
。然后将误差的上限与下限经过多层卷积与残差块进行特征融合,得到预测的误差图像,再与插值后的LR图像相加并经过ReLU去除图像中的负值部分,得到超分辨率的图像。
Figure 3. Network architecture of MVPSR
图3. MVPSR网络架构
MVPSR网络使用了已经训练完成的MVP网络,仅需单独训练网络的后半部分。对于训练的损失函数,使用了绝对误差损失函数
与掩码全变分损失函数
,其中绝对误差损失函数为:
(2)
其表示HR图像与SR图像中每个像素的绝对误差之和的平均值。对于MTV损失函数,将于下一小节详细介绍。
2.4. MTV损失函数
全变分(Total Variation, TV)正则化是一种基于变分原理的图像处理技术,由Rudin、Osher和Fatemi于1992年首次提出(ROF模型),其核心思想是通过最小化图像的全变分能量函数实现图像重建。与传统线性滤波方法不同,TV算法通过引入梯度域的稀疏性约束,作为局部平滑约束重建图像,尤其适用于医学影像、遥感图像等对边缘信息敏感的场景。
在深度学习中,使用TV正则化的超分辨率数学模型可表述为以下目标最小化问题:
其中,
为HR观测图像,
为待求的SR图像,
为全变分正则项
的权重参数。其中
为
的全变分图像:
即水平相邻像素间的梯度
与垂直相邻像素之间的梯度
的和。TV正则化虽然可以作为一个平滑约束降低图像中的噪声,但在超分辨率问题中,对图像需要恢复的高频纹理区域也有同样程度的平滑约束,使得SR图像的纹理区域过于平滑。如图4所示,为
与
的图像。
(a) (b)
Figure 4. Image of
and
图4.
与
的图像
而MTV损失函数作为一种监督学习的损失函数,会首先将HR图像的梯度
与
中属于边缘纹理的像素位置提取出来,作为掩码图像
,其计算方法为:
(3)
(4)
即先求出
与
中的最大像素值,
为约束阈值,
与
中像素值分别高于
与
的像素被标为1,其余为0,得到掩码图像
与
,如图5所示,即掩码中为1的像素被划分为纹理部分,为0的部分被划分为平滑部分。
(a) (b)
Figure 5. Image of
and
图5.
与
的图像
之后MTV会将SR图像的梯度与HR图像的梯度做差,分别跟
与
相乘并取绝对值求和,得到SR图像的边缘部分与HR图像边缘部分的误差,由此可以定义边缘损失函数:
(5)
其中
为按元素相乘,得到边缘损失函数后,图像的平滑部分损失函数可以定义为:
(6)
其中
为全1矩阵,大小与掩码矩阵
相同,减去全1矩阵后,掩码矩阵
中为0的平滑部分变成−1,为1的纹理部分变成0,再乘上−1后,平滑部分的值为1,
即可表示图像的平滑部分的掩码。而平滑部分损失函数将所有的平滑部分像素的绝对值相加,对图像的非纹理部分施加了平滑约束。最后,MTV损失函数可以表示为:
(7)
该函数通过已知的HR图像约束了纹理部分的位置,也要求SR图像的非纹理部分要足够平滑,相较于传统的TV损失函数,更加灵活。
2.5. BGN架构
在前文中提到,高光谱图像超分辨率时往往难以获得同场景的训练样本,而使用单波段的超分辨率方法又会引入光谱误差。因此,结合MVPSR网络提出了BGN架构,用于HSI的超分辨率,其网络架构如图6所示。
Figure 6. Architecture of BGN
图6. BGN架构
其中
表示LR-HSI第
个波段的图像,经过MVPSR网络后得到超分辨率的图像
,通过BGN生成下一个波段的图像
。同时
表示LR-HSI第
个波段的图像,经过MVPSR网络后得到超分辨率的图像
。由于HSI的光谱是一个平滑曲线,表现为相邻波段间较为平滑,因此在训练BGN时,在
与
间采用光谱TV损失函数
,保证光谱的平滑,同时利用
与
间的绝对误差损失函数
约束BGN的生成范围:
(8)
(9)
BGN在训练时只需要使用LR-HSI,考虑到能用于训练HSI图像数量较少,因此使用结构简单的对称式U-Net作为BGN的网络架构,其网络架构如图7所示。
Figure 7. Architecture of BGN-U-Net
图7. BGN- U-Net架构
BGN在训练完成后,便可以只使用LR-HSI的第一个波段经过MVPSR网络,生成第一个波段的SR图像,后将SR图像传入BGN中得到下一个波段的SR图像,如此重复传入BGN,得到最终SR后的HSI图像。
3. 实验分析
为了全面评估本文提出的网络性能,本文采用了B100自然图像数据集,作为MVPSR网络的训练集,并在CAVE高光谱数据集上进行测试,验证网络性能,并使用PSNR,SAM指标进行定量分析。由于没有实验高光谱图像作为训练样本,本文将与一些自然图像超分辨率网络,如:SRCNN [11],FIWHN [12],HiT-SR [13]进行比较,这些网络在CAVE测试集上需要逐波段对图像进行超分辨率。
3.1. 实验结果
表1列出了使用所有比较方法在不同缩放因子下在CAVE数据集上的平均定量指标。我们可以看到,所提出的网络在所有缩放因子的所有平均定量指标方面表现优于其他对比方法。平均PSNR值在缩放因子×2,×4,×6,×8上分别高于次优方法1.06 dB、0.57 dB、0.45 dB和0.28 dB,光谱角SAM均低于次优方法。所有这些优势表明,所提出的网络在高光谱SR中有着更好的准确性与更少的光谱误差。
Table 1. Average metrics of four methods under different scaling factors on the CAVE dataset
表1. CAVE数据集上4种方法在不同缩放因子下的平均指标
缩放因子 |
×2 |
×4 |
×6 |
×8 |
Method |
PSNR↑ |
SAM↓ |
PSNR↑ |
SAM↓ |
PSNR↑ |
SAM↓ |
PSNR↑ |
SAM↓ |
SRCNN |
37.88 |
3.80 |
26.66 |
21.51 |
22.68 |
25.72 |
24.30 |
21.94 |
FIWHN |
38.23 |
4.51 |
31.61 |
4.99 |
28.63 |
7.34 |
26.97 |
9.55 |
HiT-SR |
38.26 |
3.02 |
31.48 |
4.96 |
28.46 |
7.08 |
26.55 |
9.23 |
本文方法 |
39.32 |
1.64 |
32.18 |
3.21 |
29.08 |
4.85 |
27.25 |
6.01 |
在实验结果中,我们发现在缩放因子×2,×4,×6,×8中,SRCNN的表现最差。原因之一可能是使用自然图像进行训练时,图像亮度与HSI不一致,而SRCNN由所有卷积块组成,与其他网络方法相比缺乏残差块,导致亮度分布不一致。此外,所有神经网络方法的表现都不如本文方法,这也说明神经网络在使用自然图像训练,逐步段恢复SR图像时的效果并不令人满意。
此外,本文在CAVE数据集中选择两幅测试图像进行视觉比较。图8和图9显示了不同方法在柠檬图像第31波段和埃及雕像图像第25波段分别以比例因子×4和×8进行比较的结果。在两幅图中,本文所提出的方法重建结果在视觉上更接近真实情况,细节更好,边缘和纹理误差更小。
Figure 8. Reconstructed images, enlarged images and error images of lemon at the 31st band for the scaling factor ×4 by various methods
图8. 采用各种方法对柠檬图像在第31波段,缩放因子×4的重构图像、放大图像和误差图像
Figure 9. Reconstructed images, enlarged images and error images of Egyptian_statue at the 25th band for the scaling factor ×8 by various methods
图9. 采用各种方法对埃及雕像图像在第25波段,缩放因子×8的重构图像、放大图像和误差图像
此外,为了比较本文方法在减小光谱误差上的优越性。图10显示了不同方法在柠檬图像位于第(70, 150)与(171, 167)像素的光谱反射率以比例因子×4进行比较的结果。图11显示了不同方法在埃及雕像图像位于第(173, 218)与(169, 94)像素的光谱反射率以比例因子×8进行比较的结果。在两幅折线图中,本文所提出的方法重建结果在光谱曲线上(绿圆圈)更接近真实情况(蓝五角星),能够减小光谱误差。
Figure 10. Results of comparison of spectral reflectance of various methods at pixel (70, 150) and pixel (171, 167) of lemon image with scale factor ×4
图10. 各种方法在柠檬图像的第(70, 150)与(171, 167)像素的光谱反射率以比例因子×4进行比较的结果
3.2. 消融实验
为了确定本文所提出的方法各个模块的有效性。表2列出了本文方法每次去掉其中一个模块后,在CAVE数据集上缩放因子×2的平均定量指标。我们可以看到,所提出的网络在消除其中任一模块后,性能均有所减弱。因此,该实验说明了各模块对于网络的性能均有较好的提升。
Figure 11. Results of various methods in comparison of spectral reflectance at pixel (173, 218) versus (169, 94) of Egyptian statue image with scale factor ×8
图11. 各种方法在埃及雕像图像的第(173, 218)与(169, 94)像素的光谱反射率以比例因子×8进行比较的结果
Table 2. Average metrics under ablation of different modules on the CAVE dataset
表2. CAVE数据集上消融不同模块下的平均指标
消融模块 |
Without MVP |
Without MTV |
Without BGN |
All applied |
|
PSNR↑ |
SAM↓ |
PSNR↑ |
SAM↓ |
PSNR↑ |
SAM↓ |
PSNR↑ |
SAM↓ |
本文方法 |
38.02 |
2.89 |
38.94 |
1.96 |
39.13 |
2.87 |
39.32 |
1.64 |
4. 结论
本文提出了MVPSR网络,BGN波段生成网络以及MTV损失函数,旨在解决无HR高光谱训练数据的前提下实现高光谱图像超分辨率。以图像超分辨率中正态分布的插值误差入手,MVPSR网络结合了均值方差预测方法,对输入图像进行超分辨率。BGN波段生成网络结合MVPSR网络,将其迁移到高光谱图像超分辨率。MTV损失函数讨论了传统TV损失函数的问题,结合掩码机制,使训练中保持图像的纹理不会过度平滑。在实验对比中,本文方法较于其他超分辨率方法有更准确的结果,同时在消融实验中也说明了各模块的有效性。然而,本文方法仍存在诸多需要改进的地方,如BGN网络在生成SR图像时,对于不同的高光谱图像,需要重新训练BGN网络。在MVPSR和BGN中,网络结构并非最佳选择,也可考虑其他图像特征提取网络进行搭建。在未来的工作中,这些问题都需要进一步讨论和解决。