基于AutoFusion的高光谱图像循环反馈融合网络

doi:10.12677/mos.2025.146478

期刊菜单

基于AutoFusion的高光谱图像循环反馈融合网络
Hyperspectral Image Cyclic Feedback Fusion Network Based on AutoFusion

DOI: 10.12677/mos.2025.146478, PDF, HTML, XML,
作者: 梅景：上海理工大学光电信息与计算机工程学院，上海
关键词: 高光谱图像融合；深度学习；AutoFusion；循环反馈；GRU；Hyperspectral Image Fusion； Deep Learning； AutoFusion； Recurrent Feedback； GRU

摘要: 针对高光谱图像(HSI)与多光谱图像(MSI)融合中光谱信息整合与超分辨率性能的挑战，本文提出了一种基于AutoFusion和循环反馈的高光谱图像融合网络。该网络首先通过光谱分组对低分辨率HSI进行超分辨率重建，利用循环反馈机制迭代更新初始超分辨率图像，结合自适应融合模块(AutoFusion)动态融合多源信息，生成每组的高质量超分辨率特征。其次，通过特征提取网络分别处理融合特征和MSI特征，结合上采样和点卷积操作进一步优化特征表示。最后，将每组特征输入GRU模块生成注意力权重，用于加权调整各组超分辨率结果，重构最终的高分辨率高光谱图像(HR-HSI)。实验在CAVE和Harvard数据集上验证了Net模型，与七种主流融合算法相比，该网络在PSNR、SSIM和SAM等指标上表现优异，证明了其在高光谱图像融合领域的先进性。

Abstract: Aiming at the challenges of spectral information integration and super-resolution performance in the fusion of hyperspectral images (HSI) and multispectral images (MSI), this paper proposes a hyperspectral image fusion network based on AutoFusion and cyclic feedback. This network first performs super-resolution reconstruction of the low-resolution HSI through spectral grouping, iteratively updates the initial super-resolution image using the cyclic feedback mechanism, and dynamically fuses multi-source information in combination with the adaptive fusion module (AutoFusion) to generate high-quality super-resolution features for each group. Secondly, the fused features and MSI features are processed respectively through the feature extraction network, and the feature representation is further optimized by combining upsampling and dot convolution operations. Finally, each group of features is input into the GRU module to generate attention weights, which are used to weighted adjust the super-resolution results of each group and reconstruct the final high-resolution hyperspectral image (HR-HSI). The experiments verified the Net model on the CAVE and Harvard datasets. Compared with seven mainstream fusion algorithms, this network performed outstandingly in indicators such as PSNR, SSIM and SAM, proving its advancement in the field of hyperspectral image fusion.

文章引用：梅景. 基于AutoFusion的高光谱图像循环反馈融合网络[J]. 建模与仿真, 2025, 14(6): 84-98. https://doi.org/10.12677/mos.2025.146478

1. 引言

高光谱图像(Hyperspectral Image, HSI)通过在数十至数百个光谱波段上捕获目标区域的信息，提供了丰富的空间和光谱数据，因而在土地覆盖分类[1]、环境监测[2]和目标检测[3]等领域具有广泛应用。然而，由于成像系统的限制，高光谱图像为了保证高光谱分辨率和信噪比，通常以牺牲空间分辨率为代价，导致其空间细节不足，限制了在需要高精度空间信息的应用中的表现[4]。例如，在农业监测中，低空间分辨率可能导致难以精确区分作物类型[5]；在目标检测中，模糊的细节可能降低检测精度[6]。因此，开发高效的高光谱图像融合超分辨率方法，以生成同时具有高空间分辨率和高光谱分辨率的高分辨率高光谱图像(HR-HSI)，已成为推动其在各领域稳健发展的关键，同时也是一项极具挑战性的任务。

为了克服高光谱图像空间分辨率的局限性，研究人员广泛采用融合高空间分辨率的多光谱图像(HR-MSI)与低分辨率高光谱图像(LR-HSI)的方法[7]。这种融合技术旨在利用MSI的高空间分辨率和HSI的高光谱分辨率，生成兼具两者优势的HR-HSI [8]。传统的融合方法，如基于矩阵分解或稀疏表示的模型[9]，通常依赖手工设计的先验信息，这些先验难以充分捕捉HSI和MSI的复杂空间–光谱相关性[10]。近年来，深度学习技术的快速发展为高光谱图像超分辨率(HSI-SR)提供了新的解决方案[11]。卷积神经网络(CNN) [12]-[14]、注意力机制[15]和Transformer [16]等方法通过强大的特征提取能力，显著提升了超分辨率性能。其中，He [13]等人提出了RAFNet，一种循环注意力融合网络，利用变分自编码器融合低分辨率高光谱和高分辨率多光谱图像，该方法采用层次循环神经网络和注意力机制，有效建模光谱序列。在公开数据集上的实验表明，其在光谱保真度和空间细节重建方面表现优异。Zhang等人[14]提出了用于高光谱和多光谱图像融合的互惠Transformer，采用双交叉Transformer模型，通过双向注入光谱和空间信息，该方法实现了先进的性能，适合处理长距离依赖关系，但计算成本较高。Li等人[15]开发了一种深度卷积神经网络用于高光谱和多光谱图像融合，专注于特征提取和图像重建，该方法通过卷积层结合空间和光谱特征以提高分辨率，早期应用表明其在资源受限场景下具有较高的计算效率。Wei等人[16]提出了双分支卷积神经网络，分别从高光谱和多光谱图像中提取特征，通过全连接层融合特征，重构高分辨率高光谱图像，同时其双分支设计充分利用了两种图像的互补信息，减少光谱失真。然而，现有深度学习方法在多模态信息融合和光谱一致性保持方面仍面临挑战。例如，静态卷积难以动态适应不同模态的特征贡献[15]，而光谱维度的相关性未被充分利用，导致重建图像可能出现光谱失真。

针对上述问题，本文提出了一种基于AutoFusion和循环反馈的高光谱图像融合网络(AutoFusion and Recurrent Feedback Net, ARF-Net)，来更有效地进行信息融合和超分辨率重建，本文的主要贡献为：

(1) 本文提出通过光谱分组对LR-HSI进行超分辨率重建，利用循环反馈机制迭代更新初始超分辨率图像，结合自适应融合模块(AutoFusion)动态整合HSI的光谱特征与上一组的特征信息。随后，通过特征提取网络分别处理HSI和MSI，结合上采样和点卷积操作优化特征表示。

(2) 提出GRU注意力权重，将每组初始超分辨率的特征输入GRU模块生成注意力权重，用于加权调整各组超分辨率结果，重构最终的HR-HSI。

(3) 实验在CAVE和Harvard数据集上验证了Net模型的性能，与九种主流融合算法相比，ARF-Net在峰值信噪比(PSNR)、结构相似性(SSIM)和光谱角映射器(SAM)等指标上均表现出色，证明了其在高光谱图像融合领域的先进性。

2. 本文模型

高光谱融合超分辨率技术的目标是通过融合低分辨率高光谱图像(LR-HSI)和高分辨率多光谱图像(HR-MSI)，恢复出同时具有高空间分辨率和高光谱分辨率的高分辨率高光谱图像(HR-HSI)。这种融合方法充分利用了两种图像的互补特性，为后续应用提供了更高质量的数据支持。为了实现融合超分辨率这一目标，首先需要明确图像退化的过程及其数学建模。以下从空间退化和光谱退化两个方面对生成LR-HSI和HR-MSI的过程进行描述。

空间退化主要源于光学系统的模糊和分辨率空间退化主要源于光学系统的模糊和分辨率降低，通常由模糊核和下采样过程来模拟。对于HR-HSI (记为 $Z$ )，其维度为 $H \times W \times C$ ，H、W、C分别表示高度、宽度和光谱波段数，空间退化生成LR-HSI (记为 $X$ )，其维度为 $h \times w \times C$ ，且 $h < H$ ， $w < W$ ，空间退化过程可表示为：

$X = fold (unfold (Z) \times B \times D) + N_{x}$ (1)

其中，unfold表示将三维张量展开为二维矩阵，为它的逆操作，也就是将二维矩阵还原成三维张量， $D$ 为下采样算子， $B$ 为模糊核(模拟点扩散函数)， $N_{x}$ 为空间噪声(通常假设为高斯噪声)。光谱退化描述了HR-HSI如何通过光谱响应函数生成HR-MSI (记为)，其模型为：

$Y = fold (R \times unfold (Z)) + N_{y}$ (2)

其中 $R$ 为光谱降采样矩阵，表示传感器对不同波段的响应特性， $N_{y}$ 为光谱噪声， $Y$ 的尺寸为 $H \times W \times C$ ，其中c为多光谱波段数，且 $c < C$ 。这种退化导致光谱分辨率降低，但空间分辨率保持不变。

空间退化模型和光谱退化模型为融合超分辨率提供了理论依据，本文融合的目标是从 $X$ 和 $Y$ 通过ARF-Net恢复 $Z$ ，从而达到融合超分辨率的效果，如图1所示。

2.1. 基于AutoFusion的循环反馈网络

在高光谱图像(HSI)融合超分辨率重建中，通常直接将LR-HSI或HR-MSI作为一个整体输入，会让网络难以学习其复杂的映射关系，同时也不能充分利用到高光谱图像本身的光谱相关性。为了解决这个问题，本文设计了循环反馈网络，通过光谱分组和迭代更新机制，动态优化低分辨率HSI的空间分辨率，同时确保光谱信息的完整性。循环反馈网络的结构由多个反馈融合块构成，其核心在于通过多次特征融合和结果更新，逐步增强模型对复杂空间–光谱相关性的建模能力，从而生成高质量的高分辨率高光谱图像(HR-HSI)，其中反馈融合块如图2所示。

Figure 1. The overall network structure of ARF-Net

图1. ARF-Net的整体网络结构

Figure 2. The structure of feedback fusion

图2. 反馈融合块结构图

反馈融合块的主要功能是将输入的低分辨率LR-HSI，维度为为 $C \times h \times w$ ，其中C为光谱通道数， $h \times w$ 为空间分辨率，分成G组，并对每组进行独立的超分辨率重建，分组策略的采用源于高光谱图像的光谱维度具有高度相关性，分组处理可以降低计算复杂度，同时保留局部光谱特征。设当前组为第g组，每个光谱组首先通过双三次上采样提升至目标分辨率 $H \times W$ ，通过卷积核和LeakyReLU后生成初始特征 $f_{L R}^{g}$ 。随后，这些特征与前一迭代的超分辨率图像经过卷积核LeakyReLU后的特征 $f_{S}^{g}$ ，进行一次AutoFusion块融合，获得上一组和本组的融合特征 $f_{Fusion 1}^{g}$ ，公式为：

${\begin{cases} f_{L R}^{g} = LeakyReLU (C_{3 \times 3} (H_{L R}^{g})) \\ f_{S}^{g} = LeakyReLU (C_{3 \times 3} (H_{S R}^{g - 1})) \\ f_{Fusion 1}^{g} = AutoFusion (f_{L R}^{g}, f_{S}^{g}) \end{cases}$ (3)

其中 $H_{L R}^{g}$ 代表当前第g组LR-HSI， $H_{S R}^{g - 1}$ 代表上一组的超分辨率结果，用来进行组与组之间隐状态的传递， $C_{3 \times 3}$ 代表3 × 3卷积。在重建第一组时， $H_{S R}^{0}$ 为全零张量。通过不同的特征提取块分别提取 $H_{L R}^{g}$ 和 $H_{S R}^{g - 1}$ 的特征，得到多模态特征，再通过自适应融合模块(AutoFusion)整合后，生成每组的特征融合结果 $f_{Fusion 1}^{g}$ 。

高光谱图像融合的核心挑战在于如何有效整合HSI的丰富光谱信息和MSI的高空间分辨率细节，传统融合方法通常采用静态卷积或简单的特征拼接，难以根据输入特征的特性动态调整融合策略。为此，本文受文献[17]的的启发，设计了自适应融合模块(AutoFusion)用于高光谱融合网络，通过动态加权机制增强多模态特征的融合效率，从而生成更具代表性和鲁棒性的融合特征。AutoFusion模块的主要功能是接收来自不同特征提取网络的输入，例如LR-HSI特征 $f_{L R}^{g}$ 、MSI特征 $f_{M S I}^{g}$ 和前一迭代的超分辨率特征 $f_{S}^{g}$ 。这些特征分别代表HSI的光谱信息、MSI的空间细节和循环反馈过程中的中间结果。AutoFusion通过注意力机制对输入特征进行全局分析，生成加权系数，动态调整每种特征的贡献度。当S的特征在某些区域更为关键时，AutoFusion会分配更高的权重给S的特征；反之，若LR-HSI的光谱信息更重要时，则LR-HSI特征的权重会增加。这种自适应性确保融合特征能够平衡多模态信息的优势，避免单一模态主导融合结果，图3显示了AutoFusion的过程。

Figure 3. AutoFusion mechanism

图3. AutoFusion融合机制

AutoFusion的设计动机源于高光谱图像融合的复杂性。LR-HSI和HR-MSI在空间和光谱维度上的特性差异较大，静态融合方法难以适应不同场景的需求。AutoFusion通过全局池化和多层感知机生成权重，实现了特征的动态整合，显著提升了融合效果。融合后的特征通过进一步的卷积处理，生成高维表示，为后续超分辨率重建提供高质量输入。AutoFusion通过全局特征分析增强了模型对多模态信息的建模能力，使其适用于复杂的高光谱融合任务。AutoFusion过程可表示为：

${\begin{cases} W = Sigmoid (Linear (ReLU (Linear (S P (F_{1}) \oplus S P (F_{2}))))) \\ [W_{Z}, W_{T}] = Split (W) \\ F_{fusion} = {Conv}_{3 \times 3} (W_{Z} \otimes F_{1} + W_{T} \otimes F_{2}) \end{cases}$ (4)

其中SP代表空间池化，Split代表将光谱分成两份， $\oplus$ 表示逐元素加操作， $\otimes$ 表示广播权重矩阵的维度，使得权重矩阵的维度和特征的维度相同，然后逐像素相乘。AutoFusion模块通过注意力机制动态分配权重，确保HSI的光谱信息和S的空间细节得到平衡利用，增强了多模态信息的整合效率。

接下来，将第一次AutoFusion的融合特征，与提取HR-MSI后的特征进行进一步融合，再次使用AutoFusion模块，以充分融合 $f_{Fusion 1}^{g}$ 的光谱信息与HR-MSI的空间细节信息，从而使得模型关注空间–光谱的一致性，其过程可以表示为：

${\begin{cases} f_{MSI}^{g} = LeakyReLU (C_{3 \times 3} (H_{MSI}^{g})) \\ f_{Fusion 1}^{g} = LeakyReLU (BN (C_{3 \times 3} (f_{Fusion 1}^{g}))) \\ f_{Fusion 2}^{g} = AutoFusion (f_{MSI}^{g}, f_{Fusion 1}^{g}) \end{cases}$ (5)

其中BN表示批归一化，最后将融合后的特征 $f_{Fusion 2}^{g}$ 进一步通过卷积提取特征，并用LeakyReLU激活后，用点卷积降至该组本身光谱的维度，从而生成本组的粗略超分辨率结果。另外，本模块还设计了残差跳连接，将本组的 $f_{L R}^{g}$ 进行双三次上采样后，与网络的结果逐像素加，从而在融合超分辨率的过程中不丢失浅层信息，公式为：

${\begin{cases} H_{S R}^{g} = C_{1 \times 1} (LeakyReLU (C_{3 \times 3} (f_{Fusion 2}^{g}))) \\ H_{S R}^{g} = H_{S R}^{g} \oplus Bicubic (H_{L R}^{g}) \end{cases}$ (6)

该组 $H_{S R}^{g}$ 的结果将流向下一组指导下一组的融合超分辨率重建，最后，将 $H_{S R}^{g}$ 经过GRU注意力嵌入后，生成该组的GRU特征，提供给后续GRU注意力块进行反馈特征权重计算。

循环反馈的意义在于通过迭代更新，模型能够逐步优化超分辨率图像的质量。每次迭代利用前一组的超分辨率信息，增强后续组的特征提取和融合效果，从而避免单一处理的局限性。通过循环传递信息减少深层网络中的信息损失，确保HSI的光谱信息和MSI的空间细节在多次融合中得到平衡保留。最终，每组超分辨率结果通过点卷积和上采样操作进一步精细化，生成粗糙的 $H_{S R}^{g}$ ，为后续处理奠定基础。

2.2. GRU注意力重建

高光谱图像的光谱维度具有高度相关性，如何充分利用这种相关性以提升超分辨率结果的光谱一致性是融合网络设计的关键。为此，本文受文献[14]中序列建模技术的启发，引入GRU (Gated Recurrent Unit)注意力模块，通过对光谱分组特征的序列建模，生成动态注意力权重，优化每组超分辨率结果的贡献度，从而生成光谱一致性更高的HR-HSI。

GRU注意力模块的主要功能是处理每组超分辨率结果，生成注意力权重，用于加权调整最终输出。模块的工作流程如下：首先，每组超分辨率结果通过全局平均池化降维为低维特征向量，随后通过线性映射层转换为高维特征表示。这些特征按光谱组顺序堆叠为序列后输入GRU模块。GRU通过其门控机制捕捉光谱组之间的序列依赖性，生成序列输出，随后通过全连接层和Sigmoid激活函数生成注意力权重。这些权重用于加权每组超分辨率结果，最终拼接为HR-HSI，其结构如图4所示。

GRU注意力模块的采用有以下原因：首先，光谱维度的相关性使得单一特征处理难以捕捉全局光谱特性，而GRU通过序列建模能够有效挖掘组间依赖关系。其次，注意力权重允许模型动态调整每组的贡献度，例如增强光谱信息丰富的组，抑制噪声较大的组，从而提升光谱保真度。相比传统的静态加权方法，GRU注意力模块具有更强的适应性和建模能力。本文通过GRU模块实现了光谱维度的全局优化，确保HR-HSI在空间分辨率提升的同时保持光谱一致性。最终，每组超分辨率结果通过注意力权重加权调整，并拼接为HR-HSI输出：

$H_{S R}^{} = Concat ([W^{1} \otimes H_{S R}^{1}, W^{2} \otimes H_{S R}^{2}, \dots, W^{G} \otimes H_{S R}^{G}])$ (7)

Figure 4. GRU attention architecture

图4. GRU注意力架构

其中，Concat表示沿光谱维度拼接，GRU模块通过序列建模捕捉光谱组间的相关性，确保加权后的结果在光谱维度上更加一致。

2.3. 损失函数

为优化BRFTN的训练过程，本文设计了综合损失函数，包括像素级损失(MSE)和光谱一致性损失(SAM)，以平衡空间细节恢复和光谱保真度之间的关系。像素级损失(MSE)用于衡量网络输出与真实HR-HSI之间的像素级差异，其定义为：

$L_{MSE} = \frac{1}{N} \sum_{i = 1}^{N} {(G_{S R}^{i} - H_{S R}^{i})}^{2}$ (8)

其中N为训练批次中的样本数， $G_{S R}^{i}$ 和 $H_{S R}^{i}$ 分别为第 $i$ 个真实HR-HIS和融合HR-HIS。仅使用MSE损失可能过于关注像素的差异，导致图像过于平滑，造成光谱失真，为解决这一问题，引入光谱一致性损失(SAM)作为辅助损失，以确保光谱信息的保真度：

$L_{SAM} = \frac{1}{N} \sum_{i = 1}^{N} \frac{1}{π} \arccos (\frac{G_{S R}^{i} (l, m) \cdot H_{S R}^{i} (l, m)}{{‖ G_{S R}^{i} (l, m) ‖}_{2} {‖ H_{S R}^{i} (l, m) ‖}_{2}})$ (9)

其中 $G_{S R}^{i} (l, m)$ 和 $H_{S R}^{i} (l, m)$ 为位置 $(l, m)$ 处的真实和融合HR-HSI的光谱向量，arccos计算光谱向量间的夹角，1/π将结果归一化至0到1。SAM通过衡量光谱向量间的角度差异，关注光谱曲线的整体形状相似性，而非绝对像素值差异，能够有效约束网络生成结果在光谱维度上的一致性，特别适合高光谱图像超分辨率任务中需要保持光谱特征的需求。

为了在训练过程中考虑和平衡空间重建和光谱恢复的质量，总损失函数设计为两者的加权和：

$L_{total} = α \cdot L_{MSE} + β \cdot L_{SAM}$ (10)

其中权重 $α$ 和 $β$ 在实验中分别设为0.7和0.3，以平衡空间和光谱维度的优化目标。MSE和SAM的结合能够同时约束网络在空间分辨率和光谱保真度上的表现，确保生成的高分辨率HR-HSI既具有清晰的空间细节，又能准确保留光谱信息。

3. 实验

3.1. 实验设置

3.1.1. 数据集

实验选用了三个广泛使用的高光谱图像(HSI)基准数据集：CAVE、Harvard和Chikusei数据集，分别代表自然场景和遥感场景，能够有效验证Net模型在不同场景下的泛化能力和融合精度。

CAVE数据集由哥伦比亚大学和乌特勒支大学联合创建，包含32幅高光谱图像，常用于计算机视觉研究。每幅图像的空间分辨率为512 × 512像素，覆盖31个光谱波段，波长范围从400 nm到700 nm，间隔10 nm。在实验中，随机选取25幅图像用于训练，1幅用于验证，6幅用于测试。

Harvard数据集由哈佛大学收集，包含77幅高光谱图像，涵盖多种自然场景，反映不同物体和场景的光谱特性。每幅图像的空间分辨率为1392 × 1040像素，覆盖31个光谱波段，波长范围从420 nm到720 nm，间隔10 nm。本实验使用其中50幅图像，其中46幅用于训练，1幅用于验证，3幅用于测试。

Chikusei数据集由日本筑西政府提供，为遥感高光谱数据集，图像空间分辨率为2517 × 2335像素，包含128个光谱波段，波长范围从363 nm到1018 nm。实验中，从左上角裁剪出1000 × 2200的区域用于训练，从剩余区域裁剪6个不重叠的区域用于测试。

在训练阶段，原始参考高光谱图像(HR-HSI)被分割为64 × 64的重叠块，步幅为32。测试时使用不重叠的64 × 64块进行评估。

3.1.2. 评价指标

为全面评估ARF-Net模型的融合性能，本文采用了六个常用的定量评价指标：峰值信噪比(PSNR) [18]、结构相似性(SSIM) [19]，光谱角映射(SAM) [20]、均方根误差(RMSE) [21]、相对无量纲全局误差(ERGAS) [22]和相关系数(CC) [23]。这些评估指标从多元维度对模型重建质量展开量化考量：RMSE (均方根误差)用于衡量融合图像与真实图像间绝对差异大小，其值越小，表明二者绝对偏差越低，融合效果越佳；PSNR侧重评估图像整体融合质量，数值越大，代表融合图像整体质量越高，融合表现越理想；SAM聚焦于反映融合图像的光谱保真度，值越小意味着融合图像光谱特性与真实图像越贴近，光谱信息保留越好；SSIM衡量融合图像与真实图像在空间结构上的相似程度，通常其值越接近1，空间结构相似性越高，融合效果越出色；ERGAS用于评判图像全局质量，该值越小，反映的全局质量越优，融合效果也就越好，CC判断重建的图像与真实图像的相似性，其值越接近1越好。

3.2. 量化分析

3.2.1. 消融实验

为验证ARF-Net模型中各核心模块的有效性，本文在Harvard数据集上进行消融实验，分析循环反馈网络、AutoFusion模块和GRU注意力模块的作用。实验设置缩放因子为4，在Harvard数据集上对比，分别移除或替换各模块，观察对性能的影响。以下是三种消融设置：

(1) ARF-Net_S0：移除循环反馈机制，仅对每组HSI独立进行超分辨率重建。

(2) ARF-Net_S1：将AutoFusion模块替换为静态卷积融合，保持其他结构不变。

(3) ARF-Net_S2：移除GRU注意力模块，直接拼接各组超分辨率结果，不使用注意力加权。

表1详细展示了消融实验的结果，其中最优性能指标以粗体标示，以突出各组件对模型性能的贡献。首先，移除循环反馈机制(ARF-Net_S0)后，峰值信噪比(PSNR)明显下降，同时光谱角映射(SAM)值显著增加。这一结果表明，循环反馈通过多轮迭代更新，能够有效增强特征融合的效果，从而提升模型在光谱信息恢复方面的表现。将AutoFusion模块替换为静态卷积操作(ARF-Net_S1)导致均方根误差(RMSE)增加，PSNR进一步降低。这一现象说明AutoFusion的动态加权机制在多模态特征整合中具有显著优势。相较于传统的静态卷积，AutoFusion能够根据输入数据的特性自适应地调整融合权重，从而更高效地整合多源信息。移除GRU注意力模块(ARF-Net_S2)后，SAM值显著上升，光谱一致性明显下降。这一结果验证了GRU模块在捕捉全局光谱相关性中的关键作用。

Table 1. The quantitative results of ablation study on Harvard dataset (×4)

表1. ARF-Net在Harvard数据集上的消融实验结果(×4)

模型	MPSNR	RMSE	SAM	SSIM	ERGAS	CC
ARF-Net_S0	48.6456	0.0067	4.0963	0.9964	3.0659	0.9934
ARF-Net_S1	47.1347	0.0084	3.9785	0.9936	2.6947	0.9941
ARF-Net_S1	48.4567	0.0037	4.0197	0.9954	2.9645	0.9960
ARF-Net	50.1296	0.0028	3.4603	0.9976	2.2456	0.9969

3.2.2. 对比实验

为全面评估ARF-Net模型在高光谱图像融合任务中的优越性，本文将其与七种代表性的高光谱图像融合方法进行了系统性对比，涵盖了基于模型的传统方法和基于深度学习的先进方法，包括基于矩阵分解的CNMF [15]，以及基于深度学习的GDD [24]、SSRNet [25]、UAL [26]、TFNet [27]、PMI-RFCoNet [28]和UDTN [29]。实验在三个公开高光谱数据集——CAVE、Harvard和Chikusei上进行，为进一步探索ARF-Net在不同分辨率增强场景下的表现，实验测试了缩放因子为4和8的两种设置，评估指标包括峰值信噪比(MPSNR)、均方根误差(RMSE)、光谱角度映射(SAM)、结构相似性(SSIM)、相对全局误差(ERGAS)和相关系数(CC)，这些指标从空间细节、光谱保真度和全局一致性等多个维度量化了融合效果。

(1) CAVE数据集

表2展示了CAVE数据集上各方法的定量结果，最优和次优结果分别以粗体和下划线标出。从表2可以看出，ARF-Net在指标下均表现出最佳性能。以缩放因子4为例，ARF-Net的PSNR为48.9899 dB，比次优方法UDTN高0.9333 dB，RMSE降低0.0016，SAM降低0.7022，SSIM提高0.0022，ERGAS降低1.2457，CC提高0.0021。这些结果得益于ARF-Net的三大核心设计：循环反馈网络通过光谱分组和迭代优化机制，动态提升空间分辨率并保留光谱细节；AutoFusion模块采用自适应加权融合策略，有效整合HSI的光谱特征、MSI的空间细节以及前一阶段的超分辨率结果；GRU注意力模块通过序列建模生成动态注意力权重，增强光谱组间的相关性，从而显著提升HR-HSI的光谱一致性和空间精确性。

Table 2. The quantitative results obtained by using different methods on CAVE dataset

表2. 各对比方法在CAVE数据集上的实验结果

模型	缩放因子	MPSNR	RMSE	SAM	SSIM	ERGAS	CC
CNMF	×4	47.2693	0.0097	3.4963	0.9856	2.1632	0.9965
SSRNET	×4	44.1256	0.0069	4.6233	0.9806	3.5644	0.9975
GDD	×4	45.4639	0.0049	3.4856	0.9941	1.7195	0.9979
UAL	×4	46.7012	0.0081	2.5204	0.9952	1.6363	0.9989
TFNet	×4	42.9432	0.0079	4.3666	0.9886	3.4596	0.9975
PMI-RFCoNet	×4	46.5622	0.0066	4.9645	0.9912	3.0456	0.9963
UDTN	×4	48.0566	0.0052	3.1523	0.9949	2.9601	0.9971

续表

ARF-Net	×4	48.9899	0.0036	2.4501	0.9971	1.7144	0.9992
CNMF	×8	43.6499	0.0099	3.4658	0.9941	2.5012	0.9961
SSRNET	×8	41.3165	0.0084	4.4696	0.9906	3.0964	0.9964
GDD	×8	42.1238	0.0066	3.7598	0.9941	1.9348	0.9951
UAL	×8	43.9462	0.0095	3.1366	0.9910	2.3662	0.9949
TFNet	×8	42.3694	0.0075	4.4506	0.9869	3.1944	0.9965
PMI-RFCoNet	×8	40.6459	0.0151	4.0566	0.9845	4.0635	0.9941
UDTN	×8	44.4635	0.0053	2.3653	0.9949	1.7902	0.9984
ARF-Net	×8	45.7896	0.0042	2.0104	0.9966	1.7360	0.9989

图5展示了CAVE数据集“superball”在第20波段的融合结果及差值图像。第一行为第20波段的融合图像，第二行显示与真实图像(GT)的差值图像，其中(a)表示真实图像，(b)~(h)分别为CNMF，SSRNET，GDD，UAL，TFNet，PMI-RFCoNet，UDTN和ARF-Net方法的融合结果图。从图中可看出，CNMF和SSRNet产生一定的噪声，细节存在模糊；GDD和TFNet在边缘区域存在伪影；UAL和PMI-RFCoNet重建的图像仍有一些空间偏差；UDTN虽接近GT，但在局部细节仍存差异。对比所有的方法ARF-Net的融合结果清晰，细节丰富，差值图像误差最小，验证了其优越的融合能力。

Figure 5. The fusion result display diagram of “superball” in the CAVE dataset

图5. CAVE数据集的“superball”的融合结果展示图

(2) Harvard数据集

表3展示了Harvard数据集上各方法的定量结果。从表中可以看出，在Harvard数据集上，ARF-Net在所有缩放因子下的指标均优于其他方法。以缩放因子8为例，ARF-Net的PSNR比次优方法UDTN高1.8929 dB，SAM降低0.4294，SSIM提高0.0057，ERGAS降低0.1026，CC提高0.0049。

Table 3. The quantitative results obtained by using different methods on Harvard dataset

表3. 各对比方法在Harvard数据集上的实验结果

模型	缩放因子	MPSNR	RMSE	SAM	SSIM	ERGAS	CC
CNMF	×4	39.8806	0.0069	4.0567	0.9801	3.4689	0.9796
SSRNET	×4	44.4360	0.0075	3.9877	0.9898	3.6498	0.9806
GDD	×4	48.0632	0.0042	5.0139	0.9846	3.7584	0.9777

续表

UAL	×4	41.0265	0.0109	4.6566	0.9754	5.4652	0.9924
TFNet	×4	44.0695	0.0046	4.5689	0.9865	3.2599	0.9852
PMI-RFCoNet	×4	46.0365	0.0069	4.1365	0.9912	2.9456	0.9901
UDTN	×4	48.9632	0.0047	3.9785	0.9941	2.7177	0.9914
ARF-Net	×4	50.1296	0.0028	3.4603	0.9976	2.2456	0.9969
CNMF	×8	36.7985	0.0078	4.3811	0.9606	3.6532	0.9604
SSRNET	×8	43.1365	0.0086	4.1170	0.9699	3.7959	0.9712
GDD	×8	42.4652	0.0047	5.7024	0.9615	4.2563	0.9656
UAL	×8	41.6532	0.0139	4.0408	0.9542	4.1364	0.9721
TFNet	×8	41.1559	0.0061	5.8100	0.9755	4.1549	0.9613
PMI-RFCoNet	×8	43.4569	0.0075	4.6355	0.9812	3.4855	0.9809
UDTN	×8	44.1525	0.0080	4.0363	0.9809	2.7025	0.9800
ARF-Net	×8	46.0454	0.0029	3.6069	0.9866	2.5999	0.9849

图6展示了Harvard数据集“imagh1”在第20波段的融合结果及差值图像。第一行为20波段的融合图像，第二行显示与真实图像(GT)的差值图像，其中(a)表示真实图像，(b)~(h)分别为CNMF，SSRNET，GDD，UAL，TFNet，PMI-RFCoNet，UDTN和ARF-Net的融合结果图。CNMF生成的图像中存在一些噪声，影响了整体清晰度。UAL在复杂纹理区域的处理上表现不足，细节模糊，与真实图像相比存在一定偏差。SSRNET在精细结构的重建上表现不佳，图像整体较为模糊。MHF-Net生成的图像呈现出一定的空间结构不一致性，影响了视觉效果。ResTFNet在边缘区域的重建中出现了一定的变形，边界线条不够自然。相比之下，UDTN在减少失真方面表现较好，细节还原度较高，但仍存在一定的纹理模糊问题。ARF-Net在高分辨率高光谱图像融合任务中表现尤为突出，其融合结果清晰度高，细节还原准确，颜色和边缘与真实图像高度一致。

Figure 6. Comparison chart of the fusion results of “imagh1” from Harvard

图6. Harvard的“imagh1”融合结果对比图

(3) Chisukei数据集

表4展示了Chikusei数据集上各方法的定量结果。从表中可以看出，在Chikusei数据集上，ARF-Net在所有缩放因子下均取得最佳结果。以缩放因子4为例，ARF-Net的PSNR为41.0105 dB，比次优方法UDTN高1.2516 dB，RMSE降低0.0048，SAM降低0.4436，SSIM提高0.0069，ERGAS降低0.6376，CC提高0.0110。ARF-Net在Chikusei数据集上的优异表现得益于其创新的循环反馈机制、动态加权融合策略以及全局光谱相关性建模能力。这些设计使其能够高效整合多模态信息，显著提升高光谱图像的重构质量。

Table 4. The quantitative results obtained by using different methods on Chikusei dataset

表4. 各对比方法在Chikusei数据集上的实验结果

模型	缩放因子	MPSNR	RMSE	SAM	SSIM	ERGAS	CC
CNMF	×4	31.6592	0.0199	2.9056	0.9045	4.4622	0.8946
SSRNET	×4	38.6521	0.0215	3.1042	0.8965	4.9684	0.8989
GDD	×4	36.4695	0.0141	4.3257	0.9156	4.6952	0.9065
UAL	×4	41.4152	0.0120	2.4544	0.9412	4.2562	0.9169
TFNet	×4	41.0698	0.0126	4.9642	0.9346	5.0695	0.9152
PMI-RFCoNet	×4	40.8456	0.0165	2.1525	0.9431	4.6563	0.9163
UDTN	×4	42.7589	0.0149	2.4448	0.9419	3.6545	0.9346
ARF-Net	×4	44.0105	0.0101	2.0012	0.9488	3.0169	0.9456
CNMF	×8	30.2602	0.0155	4.4524	0.9163	4.4695	0.9056
SSRNET	×8	32.1652	0.0147	4.1625	0.9065	5.0563	0.8856
GDD	×8	34.4152	0.0161	4.4856	0.9146	6.2365	0.8954
UAL	×8	36.5695	0.0106	2.5117	0.9215	4.1526	0.9065
TFNet	×8	37.1201	0.0144	4.4953	0.9209	5.1659	0.8985
PMI-RFCoNet	×8	38.8544	0.0145	2.9653	0.9264	3.8956	0.9145
UDTN	×8	38.9759	0.0161	2.6412	0.9304	3.4806	0.9101
ARF-Net	×8	39.4128	0.0114	2.1209	0.9465	3.4162	0.9350

Figure 7. The fusion result map of the first region of Chikusei

图7. Chikusei第1个区域的融合结果图

图7展示了Chikusei数据集第一块区域在第9波段的融合结果及差值图像。第一行为第9波段的融合图像，第二行显示与真实图像(GT)的差值图像，其中(a)表示真实图像，(b)~(h)分别为CNMF，SSRNET，GDD，UAL，TFNet，PMI-RFCoNet，UDTN和ARF-Net方法的融合结果图。从图中可以观察到，对比方法中，ARF-Net实现了最清晰且最准确的融合结果，其在空间域和光谱域的保真度均表现出色。这得益于其精心设计的循环反馈机制、AutoFusion模块的动态特征融合策略以及基于GRU的注意力机制所实现的光谱一致性增强。首先，循环反馈机制通过迭代优化逐步精炼特征表示，有效提升了空间分辨率的重建精度。其次，AutoFusion模块能够自适应地融合多源特征，根据输入特征的特性动态调整权重，从而在空间和光谱维度上实现高效的信息整合。此外，基于GRU的注意力机制进一步增强了光谱一致性，通过捕捉光谱序列的时序依赖关系，生成针对每组光谱通道的精细化权重，使得重建结果在光谱特性上与真实图像高度吻合。综合这些创新策略，该方法在空间细节的恢复和光谱信息的保真度上均表现出色，其重建图像在视觉效果和量化指标上均与真实高分辨率图像最为接近，显著优于传统超分辨率方法。

4. 结论

为更有效地提取高光谱图像(HSI)和多光谱图像(MSI)中的互补信息，并实现高分辨率高光谱图像(HR-HSI)的融合重建，本文提出了一种基于AutoFusion和循环反馈的高光谱图像融合网络(ARF-Net)。该网络主要包含三个核心模块：循环反馈网络、AutoFusion模块和GRU注意力模块。在光谱分组超分辨率重建阶段，循环反馈网络通过光谱分组和迭代更新机制，动态优化HSI的空间分辨率，同时保留其光谱信息；AutoFusion模块通过自适应加权融合，高效整合HSI的光谱特征与上一组的超分辨率结果以及MSI的空间细节；GRU注意力模块通过序列建模生成动态注意力权重，增强光谱组间的相关性，提升最终HR-HSI的光谱一致性。通过在CAVE、Harvard和Chikusei三个高光谱数据集上开展的参数分析、消融实验和对比实验，证明ARF-Net模型在定量指标(PSNR、RMSE、SAM、SSIM、ERGAS和CC)以及主观视觉效果上均显著优于现有主流方法，展现了其在高光谱图像融合领域的先进性和鲁棒性。ARF-Net通过创新的模块设计和多阶段优化策略，成功解决了高光谱和多光谱图像融合中的关键挑战，即如何在提升空间分辨率的同时最大程度保留光谱信息。其循环反馈网络通过迭代优化实现了动态的空间分辨率增强，AutoFusion模块通过自适应融合充分利用了HSI和MSI的互补特性，而GRU注意力模块则显著提升了光谱组间相关性和融合结果的整体一致性。实验结果不仅在定量指标上展现了ARF-Net相较于现有方法的显著优势，还在视觉效果上体现了其在复杂场景下的优越表现。

致谢

本论文的完成得益于众多人士的帮助与支持，在此向他们致以最诚挚的谢意。

首先，我要衷心感谢我的导师。他在选题、研究方法及论文撰写等方面给予我悉心指导和宝贵建议，其严谨的治学态度和知识，以及精益求精的科研精神让我受益匪浅。我还要感谢课题组的老师和同学，在研究过程中为我提供了许多帮助和鼓励。

感谢评审专家和编辑对本文提出的宝贵意见和建议，使论文得以进一步完善。

参考文献

[1]	Ghamisi, P., Yokoya, N., Li, J., Liao, W., Liu, S., Plaza, J., et al. (2017) Advances in Hyperspectral Image and Signal Processing: A Comprehensive Overview of the State of the Art. IEEE Geoscience and Remote Sensing Magazine, 5, 37-78. https://doi.org/10.1109/mgrs.2017.2762087
[2]	Lu, B., Dao, P., Liu, J., He, Y. and Shang, J. (2020) Recent Advances of Hyperspectral Imaging Technology and Applications in Agriculture. Remote Sensing, 12, Article 2659. https://doi.org/10.3390/rs12162659
[3]	Li, W., Wu, G., Zhang, F. and Du, Q. (2018) Target Detection in Hyperspectral Images Using Deep Convolutional Networks. IEEE Transactions on Geoscience and Remote Sensing, 56, 3410-3420.
[4]	Loncan, L., de Almeida, L.B., Bioucas-Dias, J.M., Briottet, X., Chanussot, J., Dobigeon, N., et al. (2015) Hyperspectral Pansharpening: A Review. IEEE Geoscience and Remote Sensing Magazine, 3, 27-46. https://doi.org/10.1109/mgrs.2015.2440094
[5]	Wang, X., Hu, Q., Cheng, Y. and Ma, J. (2023) Hyperspectral Image Super-Resolution Meets Deep Learning: A Survey and Perspective. IEEE/CAA Journal of Automatica Sinica, 10, 1668-1691. https://doi.org/10.1109/jas.2023.123681
[6]	Lanaras, C., Bioucas-Dias, J., Galliani, S., Baltsavias, E. and Schindler, K. (2023) A Review of Hyperspectral Image Su-per-Resolution Based on Deep Learning. Remote Sensing, 15, Article 2853.
[7]	Yokoya, N., Yairi, T. and Iwasaki, A. (2012) Coupled Nonnegative Matrix Factorization Unmixing for Hyperspectral and Multispectral Data Fusion. IEEE Transactions on Geoscience and Remote Sensing, 50, 528-537. https://doi.org/10.1109/tgrs.2011.2161320
[8]	Dian, R., Li, S., Guo, A. and Fang, L. (2018) Deep Hyperspectral Image Fusion Using Convolutional Neural Networks. IEEE Transactions on Geoscience and Remote Sensing, 56, 7177-7188.
[9]	Simoes, M., Bioucas-Dias, J., Almeida, L.B. and Chanussot, J. (2015) A Convex Formulation for Hyperspectral Image Superresolution via Subspace-Based Regularization. IEEE Transactions on Geoscience and Remote Sensing, 53, 3373-3388. https://doi.org/10.1109/tgrs.2014.2375320
[10]	Mei, S., Yuan, X., Ji, J., Zhang, Y., Wan, S. and Du, Q. (2017) Hyperspectral Image Spatial Super-Resolution via 3D Full Convolutional Neural Network. Remote Sensing, 9, Article 1139. https://doi.org/10.3390/rs9111139
[11]	Chen, Y., He, W., Yokoya, N. and Huang, T. (2020) Hyperspectral Image Restoration Using Weighted Group Sparsity-Regularized Low-Rank Tensor Decomposition. IEEE Transactions on Cybernetics, 50, 3556-3570. https://doi.org/10.1109/tcyb.2019.2936042
[12]	Xing, C., Cong, Y., Wang, Z. and Wang, M. (2022) Fusion of Hyperspectral and Multispectral Images by Convolutional Sparse Representation. IEEE Geoscience and Remote Sensing Letters, 19, 1-5. https://doi.org/10.1109/lgrs.2022.3155595
[13]	Li, Y., Wu, X., Chu, J. and Wang, X. (2018) Hyperspectral and Multispectral Image Fusion Using Deep Convolutional Neural Network. IEEE Geoscience and Remote Sensing Letters, 15, 415-419.
[14]	Yang, J., Zhao, Y. and Chan, J.C. (2018) Hyperspectral and Multispectral Image Fusion via Deep Two-Branches Convolutional Neural Network. Remote Sensing, 10, 800. https://doi.org/10.3390/rs10050800
[15]	He, X., Yao, J., Zhang, B., Li, M. and Pan, C. (2021) RAFNet: Recurrent Attention Fusion Network for Hyperspectral and Multispectral Image Fusion. IEEE Transactions on Geoscience and Remote Sensing, 59, 6747-6760.
[16]	Zhang, L., Nie, J., Wei, W., Li, Y. and Zhang, Y. (2023) Reciprocal Transformer for Hyperspectral and Multispectral Image Fusion. Information Fusion, 93, 344-356.
[17]	Sahu, G. and Vechtomova, O. (2021) Adaptive Fusion Techniques for Multimodal Data. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, Online, 19-23 April 2021, 3156-3166. https://doi.org/10.18653/v1/2021.eacl-main.275
[18]	Huynh-Thu, Q. and Ghanbari, M. (2008) Scope of Validity of PSNR in Image/Video Quality Assessment. Electronics Letters, 44, 800-801. https://doi.org/10.1049/el:20080522
[19]	Wang, Z., Bovik, A.C., Sheikh, H.R. and Simoncelli, E.P. (2004) Image Quality Assessment: From Error Visibility to Structural Similarity. IEEE Transactions on Image Processing, 13, 600-612. https://doi.org/10.1109/tip.2003.819861
[20]	Yuhas, R.H., Goetz, A.F.H. and Boardman, J.W. (1992) Discrimination among Semi-Arid Landscape Endmembers Using the Spectral Angle Mapper (SAM) Algorithm. Summaries of the Third Annual JPL Airborne Geoscience Workshop, Pasadena, 1-5 June 1992, 147-149.
[21]	Willmott, C. and Matsuura, K. (2005) Advantages of the Mean Absolute Error (MAE) over the Root Mean Square Error (RMSE) in Assessing Average Model Performance. Climate Research, 30, 79-82. https://doi.org/10.3354/cr030079
[22]	Wald, L. (1999) Some Terms of Reference in Data Fusion. IEEE Transactions on Geoscience and Remote Sensing, 37, 1190-1193. https://doi.org/10.1109/36.763269
[23]	Lee Rodgers, J. and Nicewander, W.A. (1988) Thirteen Ways to Look at the Correlation Coefficient. The American Statistician, 42, 59-66. https://doi.org/10.1080/00031305.1988.10475524
[24]	Uezato, T., Hong, D., Yokoya, N. and He, W. (2020) Guided Deep Decoder: Unsupervised Image Pair Fusion. In: Vedaldi, A., Bischof, H., Brox, T. and Frahm, J.M., Eds., Lecture Notes in Computer Science, Springer International Publishing, 87-102. https://doi.org/10.1007/978-3-030-58539-6_6
[25]	Zhang, X., Huang, W., Wang, Q. and Li, X. (2021) SSR-NET: Spatial-Spectral Reconstruction Network for Hyperspectral and Multispectral Image Fusion. IEEE Transactions on Geoscience and Remote Sensing, 59, 5953-5965. https://doi.org/10.1109/tgrs.2020.3018732
[26]	Zhang, L., Nie, J., Wei, W., Zhang, Y., Liao, S. and Shao, L. (2020) Unsupervised Adaptation Learning for Hyperspectral Imagery Super-Resolution. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 3070-3079. https://doi.org/10.1109/cvpr42600.2020.00314
[27]	Liu, X., Liu, Q. and Wang, Y. (2020) Remote Sensing Image Fusion Based on Two-Stream Fusion Network. Information Fusion, 55, 1-15. https://doi.org/10.1016/j.inffus.2019.07.010
[28]	Qu, J., Liu, X., Dong, W., Liu, Y., Zhang, T., Xu, Y., et al. (2024) Progressive Multi-Iteration Registration-Fusion Co-Optimization Network for Unregistered Hyperspectral Image Super-Resolution. IEEE Transactions on Geoscience and Remote Sensing, 62, 1-14. https://doi.org/10.1109/tgrs.2024.3408424
[29]	Yang, J., Xiao, L., Zhao, Y. and Chan, J.C. (2024) Unsupervised Deep Tensor Network for Hyperspectral-Multispectral Image Fusion. IEEE Transactions on Neural Networks and Learning Systems, 35, 13017-13031. https://doi.org/10.1109/tnnls.2023.3266038

为你推荐

友情链接