基于双分支Transformer与动态图增强的多曝光图像融合方法

doi:10.12677/jisp.2026.151001

期刊菜单

基于双分支Transformer与动态图增强的多曝光图像融合方法
A Multi-Exposure Image Fusion Method Based on Dual-Branch Transformer and Dynamic Graph Enhancement

DOI: 10.12677/jisp.2026.151001, PDF, HTML, XML,
作者: 张志超, 李玉, 祁艳杰^*：太原科技大学电子信息工程学院，山西太原
关键词: 图像融合；Transformer；图结构增强；混合结构；多曝光图像；Image fusion； Transformer； Graph Structure Enhancement； Hybrid Architecture； Multiple Exposure Images

摘要: 多曝光图像融合(MEF)的目的是将不同曝光度的图像融合为一张细节清晰且亮度均衡的结果图像。针对现有方法在亮度调节不足、结构保持有限及多尺度特征建模不充分等问题，本文提出一种基于双分支Transformer与动态图增强的多曝光图像融合方法。通过双分支Transformer架构实现局部与全局特征的互补建模，有效兼顾细节清晰度与结构一致性的同时引入动态图增强机制，自适应捕捉跨曝光图像间的动态依赖关系，克服了传统静态融合的局限，进一步结合亮度调节与边缘保持策略，使得结果图像在视觉自然性与感知层次方面显著提升。在SICE、MEFB等公开数据集上的实验结果表明，本方法在主观感知与客观指标方面均优于现有方法，展现出良好的鲁棒性与视觉表现。

Abstract: Multi-exposure image fusion (MEF) aims to merge images with different exposure levels into a single result image featuring clear details and balanced brightness. Addressing limitations in existing methods—such as inadequate brightness adjustment, limited structural preservation, and insufficient multi-scale feature modeling—this paper proposes a multi-exposure image fusion approach based on a dual-branch Transformer and dynamic image enhancement. The dual-branch Transformer architecture enables complementary modeling of local and global features, effectively balancing detail clarity and structural consistency. Simultaneously, the introduction of a dynamic image enhancement mechanism adaptively captures dynamic dependencies across exposure images, overcoming the limitations of traditional static fusion. Furthermore, the integration of brightness adjustment and edge preservation strategies significantly enhances the visual naturalness and perceptual quality of the resulting images. Experimental results on public datasets such as SICE and MEFB demonstrate that our method outperforms existing approaches in both subjective perception and objective metrics, exhibiting robust performance and superior visual quality.

文章引用：张志超, 李玉, 祁艳杰. 基于双分支Transformer与动态图增强的多曝光图像融合方法[J]. 图像与信号处理, 2026, 15(1): 1-14. https://doi.org/10.12677/jisp.2026.151001

1. 引言

在自然场景中，成像设备的动态范围往往受限，单次曝光难以同时记录高光与阴影区域的完整细节。多曝光图像融合(Multi-Exposure Image Fusion, MEF)是一种图像增强技术，通过整合多张不同曝光的图像特征，生成既保留亮部与暗部细节又具备良好视觉效果的高质量图像。该技术已广泛应用于高动态范围图像合成、视频增强、医学成像和遥感等领域。

传统的多曝光融合方法主要分为空间域和变换域两类。空间域方法包括加权平均、多尺度金字塔融合等，但通常依赖人工设计特征权重，如局部对比度与亮度熵[1]；变换域方法包括离散小波变换(DWT)、主成分分析(PCA)、稀疏表示等，通过融合变换域系数完成图像重建，能在一定程度上保留细节与结构信息[2]，然而，此类方法依赖手工设计的特征选择准则，难以适应复杂多变的真实场景，难以满足高动态范围场景下的融合需求。

随着深度学习的发展，其在图像融合领域展现出了优秀的特征表示能力，例如，Ma等人提出基于深度稀疏网络的方法，在结构保留方面表现优异[3]；Wang等提出MEF-Net记忆增强融合网络，在信息选择与保持上显著提升[4]。然而，CNN受限于局部卷积核的感受野，其对长程依赖与全局语义信息的建模能力有限，难以在复杂光照环境下保持全局一致性。此外，CNN方法在跨曝光图像的动态关系建模方面不足，往往采用静态特征融合，导致细节保真度不高、边缘过渡不自然。TransMEF [5]首次引入Transformer结构，增强了模型的全局建模能力。Transformer结构凭借其自注意力机制(Self-Attention)在计算机视觉任务中取得了显著进展。与CNN相比，Transformer能够有效捕捉长程依赖，适用于全局特征建模。在MEF任务中，一些方法尝试将Transformer融入特征提取与融合过程，从而提升跨曝光图像的全局一致性。然而，单一的Transformer分支在局部细节建模方面表现不足，容易出现纹理模糊和细节丢失。此外，现有基于Transformer的方法大多仍采用静态的融合策略[6]，缺乏对跨曝光图像间动态关系的有效建模，导致在高对比度过渡区域和边缘细节处仍存在伪影。综合上述研究可以发现，传统方法在特征表达能力上不足，CNN方法在全局建模方面存在限制，而Transformer方法虽然能够捕捉长程依赖，但在局部细节保持和动态关系建模方面仍存在不足。

与现有方法相比，本文不仅在融合性能上取得了更优结果，更重要的是在方法层面提出了一种全新的思路：通过双分支结构与动态图建模的协同作用，实现了对跨曝光图像多层次、多关系特征的高效融合。该方法在局部细节保持与全局一致性之间实现了有效平衡，并首次利用动态图增强机制建模跨曝光图像间的动态依赖关系，突破了以往静态融合策略的局限。最终生成亮度均衡、细节清晰且感知自然的融合图像，为多曝光图像融合提供了一种高效而可靠的解决方案。

2. 网络架构

如图1所示，本文提出的多曝光图像融合框架采用编码器–解码器结构。该网络通过多阶段特征处理实现源图像信息的充分融合，采用信息引导、结构保留和语义重构的阶段优化策略，显著提高融合图像的质量，增强视觉一致性。

Figure 1. Network framework

图1. 网络框架

2.1. 图像预处理

为提升多曝光图像中欠曝光与过曝光区域的细节表现，现对输入图像进行逐级的亮度增强[7]。该模块由五个串联卷积层构成，采用Leaky ReLU激活，通道数逐层变化以提取低阶特征，增强非线性表达能力。最后一层卷积将输出通道数压缩为1，最终输出经Sigmoid激活生成增强因子{r}，范围为(0, 1)。为提升增强幅度控制性，添加偏置项将{r}调整至(0.8, 1.8)区间，实现合理曝光调节。增强过程如下：

$r^{'} = σ (F) + 0.8$ (1)

$X \hat{} = X + X - X^{r^{'}}$ (2)

其中：F表示经过若干卷积层提取的通道数为1的特征图；公式中的 $σ$ 与 $r^{'}$ 分别表示Sigmoid函数与增强因子图。 $X \hat{}$ 是每个像素位置的增强， $X^{r^{'}}$ 是对每个像素位置分别进行的幂运算。图1中展示了增强的效果图。

2.2. 编码器结构

在多曝光图像融合中，图像的曝光程度不同，不仅仅是亮度上的变化，其在边缘状况以及纹理细节等方面也有差异。因此要求融合网络具备多层次、跨尺度的特征建模能力，传统卷积网络在处理不同曝光程度图像时，往往无法有效提取关键信息，特别是针对不同曝光图像在亮度、结构与纹理方面的差异。本文提出由多尺度特征提取模块(MPEM)作为核心特征提取单元，与卷积层组成的编码器提升对复杂区域的建模能力。由图2可见，MPEM包含三部分：大核注意力模块(MLKA)、门控空间注意力单元(GSAU)与自适应多尺度卷积模块(AMSCM)。

Figure 2. MPEM feature extraction module

图2. MPEM特征提取模块

MLKA会先把特征进行分组，不同尺度的大核卷积被引入不同的分组来生成多尺度注意力图，通过空间门控机制对这些注意力图进行加权融合，提升特征选择的灵活性，增强全局表征能力。

GSAU把空间注意力和门控机制结合起来构建了一种轻量级的增强单元，输入特征经归一化后拆分为主分支与门控分支，前者提取主特征，后通过深度可分离卷积生成空间响应图，指导主分支增强。最终融合并残差连接，兼顾计算效率与细节表达。

AMSCM对输入特征进行不同尺度的深度卷积处理用于获得不同尺度的特征信息，将多样性的输出与可学习参数进行加权融合处理操作：

$Y_{A M S C M} = X + \sum_{i = 1}^{S} α_{i} \cdot D W C o n v_{k i} (X)$ (3)

上式中S表示尺度数量， $D W C o n v_{k i}$ 表示第i个尺度的深度卷积操作， $α_{i}$ 为其对应的权重。该机制无需额外统计先验，通过端到端学习自动调节每个卷积尺度的贡献，适应不同图像区域的特征变化。

AMSCM模块能够依照图像各个区域所呈现出的特征来自行对多尺度特征响应的强度加以调整，进而使得细节表征得到增强，提高了整体的鲁棒性。MPEM同时整合了大核注意力建模能力、空间选择机制与多尺度结构感知能力，使特征提取兼顾局部精细结构与全局一致性。通过模块化设计与高效注意力机制的集成，MPEM在提升网络表达能力的同时有效控制计算复杂度。此解码器是由带有卷积层的MPEM模块所构成的，它借助重建经过增强处理的多尺度特征这一方式，来对图像细节予以恢复，进而生成具备高质量的融合结果。

2.3. 动态图建模增强

在初始特征提取完成后，为了增强边缘结构的清晰度，本文提出了动态图建模增强模块(DAGEM)来对像素之间的动态关系进行建模，如图3所示该模块通过动态聚合与更新特征，生成表达能力更强的融合特征图。

Figure 3. DAGEM feature enhancement module

图3. DAGEM特征增强模块

把根据输入特征图构建的四个方向的边特征作为输入，聚合后的边特征图作为输出，通过对特征信息进行构建和聚合来获取图像中相邻像素之间的关联信息。

设输入特征图为 $X \in R^{B \times C \times H \times W}$ ，将图像中的每个像素位置视为图结构中的节点，并构建四个方向的边连接，定义每条边的特征为该像素与其邻接像素特征的逐元素乘积。

DAGEM模块引入了图神经网络(GNN)的想法[8]，图像像素被当作了节点，相邻像素相互间的关系被作为边，以这种方式构建出图结构并且描绘出特征的局部关系。该模块通过生成器构建图结构，并利用聚合器对节点和边进行更新。这样就能对分类响应进行像素级和不规则权重调制，增强目标区域响应，弱化背景区域响应，让特征在复杂背景下更容易识别。大幅度提升模型对特征的理解与分类能力。

在此基础上，DAGEM模块把偏移学习和可变形卷积整合进来，这样模型可以自适应的调整卷积核的采样位置，来对不同形状和不同尺度的特征进行有效建模。再通过残差连接进一步提升特征的提取能力，缓解了深度神经网络中常见的梯度消失问题，这一机制显著提升了模型捕捉图像中复杂几何信息的能力，有助于训练更深的网络结构，还能融合原始输入特征和卷积处理后的特征，保留更多原始信息，进一步增强了特征提取的效果。

在最终的聚合过程中，DAGEM模块把可变形卷积得到的特征与更新后的特征进行拼接，以此来实现信息的高效融合。这种拼接方式既充分地混合了不同特征又增强了特征的多样性，使聚合后的特征包含更丰富的信息。

2.4. DAE主干融合模块

为提升多曝光图像在融合过程中的细节保留程度与亮度的均衡性，本文设计了一种改进的Transformer融合模块，见图4。该模块继承了Transformer的长距离建模能力，并通过结构上的改进能够更好地适应图像重建任务中多尺度特征与非均匀曝光信息的融合。

Figure 4. DAE feature fusion module

图4. DAE特征融合模块

MPEM模块进一步提取多尺度上下文感知特征，结合轻量化注意力机制，提高关键区域的判别能力。DAGEM模块通过图建模方式强化了局部空间之间的结构一致性和语义传播能力。然而，经过多级特征增强之后，融合特征呈现出多样性强、层级复杂的特点。此时需要一个具备强表达能力、跨尺度建模能力和高效融合能力的模块，对最终的多源特征进行统一处理。因此，图4 DAE作为主融合模块被引入，旨在完成特征间的信息整合与图像重构。

QKVProjection层将输入特征图映射到查询向量Query、键向量Key和值向量Value。其输入为特征图矩阵 $X \in R^{B \times C \times H \times W}$ ，通过1 × 1卷积操作将其映射到3C的维度 $X \in R^{B \times 3 C \times H \times W}$ ，在按照注意力头数L进行拆分，从而把张量重排成B × L × 3d × H × W的形状。每个头 $d = c / L$ ，这样每个头都拥有一份完整的Q、K、V，随后QKV被按通道划分为两个分支。

SPSA模块用于捕获图像的空间特征以及使局部窗口内的像素交互，占据 $L_{s p} = 0.75 L$ 个头。

将特征图划分为8 × 8大小的窗口并且引入相对位置偏置B₁以建模窗口内像素的相对位置关系，设d_k为特征维度，对窗口内的Q、K、V进行归一化和点积操作，计算空间注意力权重矩阵SPSA(X)，公式如下：

$SPSA (X) = Softmax (\frac{Q \cdot K^{T}}{\sqrt{d_{k}}} + B_{1}) \cdot V$ (4)

CHSA模块则侧重通道间的特征相关性，占据 $L_{s p} = 0.25 L$ 个头。通过通道自注意力机制生成通道特征图，接着利用通道自注意力去计算通道特征响应：

$CHSA (X) = Softmax (\frac{Q \cdot K^{T}}{\sqrt{d_{k}}}) \cdot V$ (5)

两个分支通过并行运行的方式去分别计算注意力权重，再通过线性融合的方法，来有效避免信息丢失。这种并行运行的方式增强通道与空间特征的协同建模能力。

SCFM组件则被用于增强SPSA和CHSA的输出。其结构包括三个卷积层，通过逐点卷积1 × 1，将输入特征图的通道数扩展128，引入非线性变换。通过3 × 3深度卷积，在空间维度上进行特征提取，保持通道数不变。在经过1 × 1逐点卷积，将通道数还原回64，实现特征融合和增强。再次经过全局平均池化、一维卷积操作捕捉通道间的长距离依赖关系，生成通道注意力权重，将输入特征图与通道注意力权重进行逐元素相乘，得到增强后的特征图。SCFM组件旨在在保持轻量计算成本的前提下，实现空间与通道特征的高效交互。模块通过深度可分离卷积与通道自注意力的联合建模，既降低了参数量，又增强了特征的表达多样性。该设计可在不增加显著计算负担的情况下改善局部细节建模能力与特征一致性，从而对整体融合质量产生正向影响。

模块引入DropPath正则化，以降低过拟合风险。在训练中随机丢弃部分特征路径，从而增强模型的泛化能力，模块结合ReshapeLayer-Norm对特征进行归一化，使其保持零均值和单位方差。设计中加入残差连接，将输入与输出相加，以促进梯度流动并加快收敛。

$F_{r e s} = F_{i n p u t} + F_{d r o p}$ (6)

随后利用由两个逐点卷积层加一个GELU激活函数组成的前馈网络(FFN)对特征进行非线性变换，以增强其表达能力。

$F_{f i n a l} = F_{r e s} + FFN (F_{r e s})$ (7)

2.5. ASCEF色彩增强

色彩增强(Color Enhancement, CE)模块基于HSL颜色空间的亮度(L)与饱和度(S)计算图像的色彩调整参数。模块首先将输入的RGB图像转换为亮度和饱和度指标，通过建模亮度与饱和度的关系，自适应调节色彩增益因子。

当增益因子呈现为正值的时候，模块会凭借增大像素值和亮度中心之间的差值这种方式，来提高饱和度，进而实现颜色的提高效果；当增益因子表现为负值的时候，会采用线性衰减的策略去降低饱和度，这样可以让图像的色彩变得更加柔和。

在多曝光图像融合(MEF)中，尽管融合算法能整合不同曝光的信息，但输出图像常常存在色彩偏灰、饱和度不足等问题，尤其是在亮度梯度丰富区域(如天空、灯光、阴影过渡带)。

为此，我们提出一种基于HSL亮度建模的自适应饱和度增强算法(ASCEF)，结合融合图像的亮度信息与局部色彩差异，对饱和度进行逐像素增强。为了进一步提升融合图像的视觉感知质量，尤其是在图像整体曝光正常但局部区域颜色偏灰或饱和度不足的情况下，我们在得到融合结果后再次使用了一种基于亮度与饱和度估计的自适应色彩增强模块，用于提升图像色彩的饱和度与真实感。

具体地，设融合图像为三通道RGB图像 $I \in R^{H \times W \times 3}$ ，我们首先对每个像素计算其亮度值L与近似饱和度S。亮度估计使用RGB各通道的最大值与最小值进行归一化计算，饱和度则参考HSL色彩空间中饱和度的定义，分别对低亮度( $L < 0.5$ )与高亮度( $L > 0.5$ )区域采用不同公式：

$δ = \frac{\max (R, G, B) - \min (R, G, B)}{255}$ (8)

$V = \frac{\max (R, G, B) + \min (R, G, B)}{255}$ , $L = \frac{V}{2}$ (9)

$S = {\begin{array}{l} \frac{δ}{V}, & L < 0.5 \\ \frac{δ}{2 - V}, & L \geq 0.5 \end{array}$ (10)

接下来，设定的增强幅度参数increment，我们构建了一个非线性的调节因子 $\partial$ ，用于控制饱和度增强强度。该调节因子在图像饱和度较低区域更强，而在原本色彩鲜明区域则较弱，以避免过度增强导致的失真。

$\partial = \frac{1}{\max (1 - increment, s)} - 1$ (11)

在增强阶段，RGB各通道值围绕亮度中心 $L \cdot 255$ 做差，并乘以调节因子后叠加至原图，最终实现逐像素的色彩增强：

$I_{c}^{o u t} (x, y) = I_{c} (x, y) + (I_{c} (x, y) - L (x, y) \cdot 255) \cdot \partial (x, y), c \in {R, G, B}$ (12)

最后，对输出结果进行归一化并裁剪至0到1范围，确保输出图像的显示效果。

2.6. 损失函数

为了实现高质量的多曝光图像融合，本文设计了一种多维复合损失函数，从像素强度、梯度信息、感知特征和边缘结构等方面对融合过程进行综合约束。具体而言，该复合损失函数由以下四个子损失项组成，其中，强度损失约束融合图像在整体亮度与对比度上与源图像保持一致，定义如下：

$L_{i n t e n s i t y} = \frac{1}{N} \sum_{i = 1}^{n} {(I_{f}^{i} - \frac{1}{M} \sum_{j = 1}^{M} I_{j}^{i})}^{2}$ (13)

式中N为图像像素个数，M为源图像个数， $I_{f}^{i}$ 为融合后图像在第i个位置的像素值， $I_{j}^{i}$ 为第j个源图像在第i个像素位置的像素值。

通过Sobel算子提取图像边缘，保持细节清晰：

$L_{g r a d} = \frac{1}{N} \sum_{i = 1}^{n} | G_{f} (i) - G_{\max} (i) |$ (14)

$G_{f} (i)$ 为融合图像在第i个像素位置的梯度值，由Sobel算子获得； $G_{\max} (i)$ 表示每个源图像在该像素位置的梯度值的最大值。

通过预训练的VGG网络提取感知损失，提取融合图像和源图像的高级特征，公式如下：

$L_{V G G} = \frac{1}{C H W} {‖ Φ (I_{f}) - \frac{1}{M} \sum_{j = 1}^{M} Φ (I_{j}) ‖}_{2}^{2}$ (15)

式中为VGG网络的relu3_3层提取的特征图，C、H、W分别为通道数、高度、宽度。

为保持融合图像对源图像边缘结构的保留，采用拉普拉斯算子进行约束，计算公式为：

$L_{e d g e} = \frac{1}{N} \sum_{i = 1}^{n} | E_{f} (i) - E_{\max} (i) |$ (16)

上述公式中， $E_{f} (i)$ 为融合图像第一个像素位置的边缘响应值， $E_{\max} (i)$ 为源图像该像素位置的最大边缘响应值。综合上述各项损失，整体融合损失函数表示为公式：

$L_{f u s i o n} = L_{i n t e n a i t y} + L_{V G G} + ω_{g r a d} \cdot \partial^{e} \cdot L_{g r a d} + ω_{e d g e} \cdot L_{e d g e}$ (17)

在总损失中， $ω_{g r a d}$ 和 $ω_{e d g e}$ 分别为梯度损失和边缘保持损失的权重系数，用于平衡不同损失在融合过程中的贡献； $\partial$ 表示0到1之间的衰减因子，e表示训练轮数。这种权重设置方式使梯度损失的影响力随训练逐渐减小，使模型在前期聚焦基本梯度信息保留，后期平衡其他损失优化，从而实现更稳定有效的融合效果。通过这种多维度、综合性的损失函数设计，融合过程从像素强度、空间细节、结构信息、感知质量和边缘特征等多个方面得到全面约束，生成的多曝光图像融合结果在保留细节、自然外观呈现和视觉感知质量方面达到较好平衡。

3. 实验结果及分析

3.1. 实验设置

本文所用网络在SICE [8]数据集上训练，该数据集包含589组多曝光图像序列。我们随机选择了539个序列进行训练，而剩下的选取了50个序列保留用于测试。为了进一步评估我们所提出的方法的有效性，我们对另外在MEFB数据集与dataset3数据集上进行了实验，MEFB数据集分别包括100对多曝光图像，dataset3 [9]数据集包括177对曝光图像，随机挑选两个数据集各自12张图片用于测试。我们的网络在NVIDIA GeForce RTX 3090 24GB、12th Gen Intel(R) Core(TM) i7-12700上训练，编程语言是python 3.6，批量大小为2，每次100 epochs。我们利用ADAM优化器和余弦退火学习率调整策略，学习率为1e−4，权重衰减为1e−4。在训练阶段，我们使用了256 × 256的补丁大小，并应用了随机翻转和旋转等数据增强技术。

3.2. 融合图像主观评价

为了直观地展示本文方法在多曝光图像融合任务中的效果，选择图5中的典型场景进行主观视觉比较。同时，本文与近年来提出的8种代表性方法在SICE、MEFB及dataset3数据集上进行了对比实验。图5展示了各方法在公共数据集上的定性结果。

Figure 5. Qualitative comparison of different methods on the SICE, MEFB, and dataset3 datasets

图5. 不同方法在SICE、MEFB及dataset3数据集上的定性比较

我们从两个方面对图5中的这些结果进行了分析，观察到在这些图中，我们的方法显然表现得最好，在高曝光区域，如天空、光源等处，本文方法能保留更多层次感，避免了其他方法如MEFNET出现的“过曝溢出”或亮斑区域失真现象，融合图像在整体亮度与对比度上具有更高的视觉自然度，较好地兼顾了多曝光图像间的信息融合，而不是简单取中或最大值。在颜色还原方面，本文方法展现出良好的色彩一致性与自然性。融合结果能够有效地结合不同曝光图像中的色彩信息，在不过度增强亮度或饱和度的前提下，保持整体图像的真实感和感知舒适度。相比之下，AGAL和FMMEF方法在高亮区域存在色彩漂移现象，如天空呈现非自然的青蓝色调，而IFCNN方法虽然在保持复杂细节方面表现出很强的性能，但在暗部区域出现颜色压暗或偏色问题。在图像细节方面，本文方法在暗部细节增强与亮部层次恢复上均展现出优秀性能。对于低曝光区域，如建筑阴影、墙体纹理等，融合结果能够有效挖掘隐藏信息，细节清晰可辨；同时在高曝光区域，如云层、灯光反射等，本文方法可避免过曝导致的信息丢失，保留了纹理层次与边缘结构。由于我们的网络结合了DAGEM和DAE，前者可以有效地从增强源图像中挖掘出潜在的特征信息，而后者可以将这些信息充分地混合到生成过程中，从而得到细节丰富而复杂的图像。此外，我们所提出的色彩相关演算法ASCEF，可确保最终产生的影像具有鲜明且多样的色彩。

3.3. 融合图像客观评价

实验结果表明，本文方法在不同数据集上的大多数指标上均取得了最优或次优表现，体现了其在亮度调节、细节保持及结构一致性方面的综合优势。具体指标见表1~3，本文方法在EN和MI均达到最高值，表明融合图像包含更丰富的信息量和更高的跨曝光互补性。在STD与SF指标上同样取得领先，说明所生成图像在亮度对比度与纹理细节上表现更为突出。对于QAB/F与VIF，本文方法表现稳定，处于较优水平，反映了融合结果在感知质量与视觉一致性上的优势。与此同时，在CC与AG上的表现亦接近最优，进一步验证了融合结果在结构相关性与细节清晰度上的优越性。

3.4. 消融实验

为验证关键模块的有效性，本文分别移除动态图增强模块(DAGEM)与双分支残差注意力模块(DAE)进行实验对比。视觉对比结果见图6，在NO DAGEM的情况下，融合图像在高光与阴影区域出现亮度不均与细节缺失，整体自然感明显下降，说明缺乏动态依赖建模会削弱网络对复杂曝光差异的适应性。在NO DAE的情况下，尽管亮度均衡性得以保持，但边缘纹理和结构一致性显著退化，融合结果呈现模糊与细节不足。对比结果表明，DAGEM与DAE在框架中发挥了互补作用，前者提升了跨曝光特征的动态适应性，后者增强了局部细节与全局一致性的统一建模，两者协同确保了融合结果在亮度、细节与感知质量上的优势。

见表4所示，移除DAGEM或DAE后，各指标均出现不同程度的下降，表明其对信息保留与细节保持均具有正向贡献。

Table 1. Objective metrics for SICE dataset comparisons

表1. SICE数据集对比试验客观评价指标均值

Algorithms	EN	QAB/F	STD	MI	SF	VIF	CC	AG
DeepFuse [10]	6.5395	0.5215	53.7789	3.3005	17.1	0.7063	0.8374	4.8948
SPDMEF [11]	6.7381	0.4645	54.7658	4.4249	16.59	0.7231	0.8081	5.4693
MEFNET [12]	7.1164	0.6504	57.8747	5.1116	18.35	0.7654	0.7923	6.5785
U2Fusion [13]	7.1957	0.5264	53.0613	3.9385	19.49	0.7658	0.9128	6.376
IFCNN [14]	7.0011	0.6139	58.5336	3.4035	19.41	0.7894	0.8114	7.2323
AGAL [15]	7.2069	0.7318	52.1687	5.1445	18.68	0.771	0.9118	6.7674
FMMEF [16]	7.1592	0.7502	55.7351	3.9649	18.98	0.7836	0.8765	6.6789
DPEMEF [17]	7.2982	0.7132	60.7643	5.3132	19.55	0.7322	0.9034	7.046
Ours	7.3408	0.7141	60.9922	5.5351	21.15	0.7511	0.9107	6.9071

Table 2. Objective metrics for MEFB dataset comparisons

表2. MEFB数据集对比试验客观评价指标均值

Algorithms	EN	Q^AB/F	STD	MI	SF	VIF	CC	AG
DeepFuse	6.455	0.5579	49.6844	3.2111	17.12	0.512	0.786	5.7996
SPDMEF	7.2051	0.6212	51.9818	3.416	16.4	0.5244	0.8335	6.1526
MEFNET	7.1481	0.7148	52.9483	4.3197	18.63	0.5188	0.814	6.3207
U2Fusion	6.8828	0.587	56.9278	3.2438	18.42	0.5548	0.8649	6.4037
IFCNN	7.2165	0.6822	56.9369	3.6783	18.61	0.5161	0.7882	7.2421
AGAL	6.7351	0.6319	53.8574	3.9001	18.39	0.5588	0.8484	6.8673
FMMEF	7.1014	0.7491	53.1978	4.0397	19.97	0.5504	0.7934	6.7679
DPEMEF	7.0816	0.7032	56.8959	3.7817	19.72	0.537	0.8906	7.1488
Ours	7.2602	0.6293	58.7028	3.8713	21.03	0.5573	0.8823	7.2528

Table 3. Objective metrics for dataset3 comparisons

表3. Dataset3数据集对比试验客观评价指标均值

Algorithms	EN	Q^AB/F	STD	MI	SF	VIF	CC	AG
DeepFuse	6.7254	0.6033	56.3954	5.4648	18.55	0.6427	0.8743	6.3865
SPDMEF	6.9541	0.5968	58.8429	5.2285	18.84	0.6756	0.8535	6.5663
MEFNET	7.014	0.6864	55.7654	5.5742	19.58	0.6548	0.8335	6.6218
U2Fusion	6.8523	0.6235	60.2547	5.7391	19.34	0.6643	0.8743	6.8954
IFCNN	7.2165	0.7029	56.2584	5.7094	21.57	0.656	0.8543	7.1765
AGAL	7.2342	0.7267	61.5735	5.8365	22.39	0.6717	0.8972	7.1673
FMMEF	7.1728	0.7186	57.6842	5.6836	19.69	0.6585	0.883	7.0356
DPEMEF	7.2761	0.7205	56.8453	5.9817	21.72	0.6479	0.9138	6.9458
Ours	7.3215	0.6676	63.2546	5.763	23.67	0.6825	0.9042	7.1247

Figure 6. Visual comparison of ablation study results

图6. 消融实验结果视觉对比

Table 4. Objective metrics for ablation studies

表4. 消融实验客观指标

Algorithms	EN	Q^AB/F	STD	MI	SF	VIF	CC	AG
No DAGEM	7.0643	0.6403	56.6842	3.4582	17.2548	0.5365	0.8954	6.9546
No DAE	7.1875	0.6431	58.6323	3.7857	19.6328	0.5314	0.8774	7.1572

3.5. 效率

为验证本文方法的实际计算开销，我们基于PyTorch框架在NVIDIA RTX 3090 GPU上测试了模型复杂度。参数量与计算量通过THOP工具包计算，推理时间取模型加载后平均执行20次前向传播的时间均值，输入尺寸统一为256 × 256。硬件平台为NVIDIA RTX 3090 (FP32, batch = 1)。本文模型在保持优异融合性能的同时，计算复杂度控制在中等水平，显示出较好的平衡性与实用价值。

Table 5. Comparison of model complexity and inference efficiency across different methods

表5. 不同方法的模型复杂度与推理效率比较

	DeepFuse	SPDMEF	MEFNET	U2Fusion	IFCNN	AGAL	FMMEF	DPEMEF	Ours
Params (M)	17.5	26.8	23.7	8.7	12.9	21.5	19.1	28.9	22.4
GFLOPs	45	65.4	58.2	27.9	33.8	57.1	54.8	71.3	59.8
Time (s)	0.011	0.038	0.052	0.047	0.028	0.061	0.058	0.073	0.056

从表5中可见，不同方法在复杂度与效率上存在显著差异。早期基于卷积的模型(如DeepFuse、IFCNN)因结构浅且无全局建模模块，具有最低的参数量与计算量，但融合质量相对有限。基于多尺度卷积与特征提取的MEFNet、U2Fusion等模型在性能提升的同时，计算成本显著增加。AGAL、FMMEF引入全局注意力或Transformer结构的算法，虽然具备更强的特征建模能力，但也导致GFLOPs与推理时间显著上升。DPEMEF为双阶段深度Transformer架构，网络层次最深，注意力与前馈模块堆叠较多，因此拥有最高的参数规模与计算开销。

相比之下，本文提出的双分支Transformer与动态图增强网络在保证多层特征交互与全局建模能力的同时，有效控制了参数规模与计算量。在引入双分支Transformer与动态图增强机制的同时，显著提升了特征建模能力与融合精度，同时通过模块复用与通道压缩策略控制计算复杂度，使GFLOPs与参数量处于中等偏低水平。其推理速度较AGAL与DPEMEF明显更快，在性能与效率之间实现了良好的平衡。

4. 结论

本文针对多曝光图像融合过程中亮度调节不足、局部细节保持有限以及跨曝光特征依赖建模不充分等问题，提出了一种结合亮度调节、双分支结构与动态图增强机制的融合框架。通过在浅层阶段引入亮度调节模块，有效缓解了传统方法在高光与阴影区域亮度不均衡的问题；双分支结构实现了局部与全局特征的互补建模，显著提升了细节保持与结构一致性；而动态图增强机制则突破了以往静态建模的局限，能够自适应地刻画跨曝光图像之间的动态依赖关系，从而提升了融合结果的自然感与鲁棒性。大量实验结果表明，本文方法在主观视觉效果与客观评价指标上均优于现有主流方法，生成的融合图像在亮度均衡、细节清晰度以及整体感知质量方面展现出更优性能。更为重要的是，本研究在方法论层面提供了一种新的思路：通过动态图结构与多分支特征融合的协同作用，实现对多曝光图像跨尺度与跨依赖关系的有效建模。这不仅为多曝光图像融合任务提供了新的解决方案，也为相关的低光增强、高动态范围重建及其他跨域图像融合任务提供了潜在的研究启示。

NOTES

^*通讯作者。

参考文献

[1]	Mertens, T., Kautz, J. and Van Reeth, F. (2007) Exposure Fusion. 15th Pacific Conference on Computer Graphics and Applications (PG’07), Maui, 29 October-2 November 2007, 382-390. [Google Scholar] [CrossRef]
[2]	Liu, Y., Chen, X. and Ward, R.K. (2011) Image Fusion with Convolutional Sparse Representation. IEEE Signal Processing Letters, 20, 449-452.
[3]	Ma, Y., Ma, J., Zong, H., Huang, J. and Mei, X. (2021) Multi-Exposure Image Fusion via a Deep Sparse Denoising Network. Information Fusion, 76, 48-64.
[4]	Wang, X., Zhang, Y., Yang, J. and Zhang, L. (2022) MEF-Net: A Memory-Enhanced Fusion Network for Multi-Exposure Image Fusion. IEEE Transactions on Circuits and Systems for Video Technology, 33, 763-777.
[5]	Qu, L., Liu, S., Wang, M. and Song, Z. (2022) Transmef: A Transformer-Based Multi-Exposure Image Fusion Framework Using Self-Supervised Multi-Task Learning. Proceedings of the AAAI Conference on Artificial Intelligence, 36, 2126-2134. [Google Scholar] [CrossRef]
[6]	Xu, H., Haochen, L. and Ma, J. (2023) Unsupervised Multi-Exposure Image Fusion Breaking Exposure Limits via Contrastive Learning. Proceedings of the AAAI Conference on Artificial Intelligence, 37, 3010-3017. [Google Scholar] [CrossRef]
[7]	Mu, P., Du, Z., Liu, J. and Bai, C. (2023) Little Strokes Fell Great Oaks: Boosting the Hierarchical Features for Multi-Exposure Image Fusion. Proceedings of the 31st ACM International Conference on Multimedia, Ottawa, 29 October-3 November 2023, 2985-2993. [Google Scholar] [CrossRef]
[8]	Xu, H., Liu, H., He, X., Chen, Y. and Li, C. (2022) Deep Multiscale Fusion Network for Multi-Exposure Image Fusion. Neurocomputing, 507, 91-104.
[9]	Xu, Y., Liu, Z., Wu, X., Chen, W., Wen, C. and Li, Z. (2022) Deep Joint Demosaicing and High Dynamic Range Imaging within a Single Shot. IEEE Transactions on Circuits and Systems for Video Technology, 32, 4255-4270. [Google Scholar] [CrossRef]
[10]	Wang, J., Wei, Z., Zhang, T., et al. (2016) Deeply-Fused Nets. https://arxiv.org/abs/1605.07716
[11]	Ma, K., Li, H., Yong, H., Wang, Z., Meng, D. and Zhang, L. (2017) Robust Multi-Exposure Image Fusion: A Structural Patch Decomposition Approach. IEEE Transactions on Image Processing, 26, 2519-2532. [Google Scholar] [CrossRef] [PubMed]
[12]	Ma, K., Duanmu, Z., Zhu, H., Fang, Y. and Wang, Z. (2019) Deep Guided Learning for Fast Multi-Exposure Image Fusion. IEEE Transactions on Image Processing, 29, 2808-2819. [Google Scholar] [CrossRef] [PubMed]
[13]	Xu, H., Ma, J., Jiang, J., Guo, X. and Ling, H. (2019) U2Fusion: A Unified Unsupervised Image Fusion Network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 502-518. [Google Scholar] [CrossRef] [PubMed]
[14]	Zhang, Y., Liu, Y., Sun, P., Yan, H., Zhao, X. and Zhang, L. (2020) IFCNN: A General Image Fusion Framework Based on Convolutional Neural Network. Information Fusion, 54, 99-118. [Google Scholar] [CrossRef]
[15]	Liu, J., Shang, J., Liu, R. and Fan, X. (2022) Attention-Guided Global-Local Adversarial Learning for Detail-Preserving Multi-Exposure Image Fusion. IEEE Transactions on Circuits and Systems for Video Technology, 32, 5026-5040. [Google Scholar] [CrossRef]
[16]	Li, H., Ma, K., Yong, H. and Zhang, L. (2020) Fast Multi-Scale Structural Patch Decomposition for Multi-Exposure Image Fusion. IEEE Transactions on Image Processing, 29, 5805-5816. [Google Scholar] [CrossRef] [PubMed]
[17]	Han, D., Li, L., Guo, X. and Ma, J. (2022) Multi-Exposure Image Fusion via Deep Perceptual Enhancement. Information Fusion, 79, 248-262. [Google Scholar] [CrossRef]

友情链接