1. 引言
图像去模糊属于计算机视觉中的底层视觉任务,其目的是在减少目标图片的信息丢失的基础上,从低质量图像中恢复清晰度更高的图像;模糊原因来自图像捕捉过程中受相机抖动或场景内运动等,其主要包含运动模糊、失焦模糊、高斯模糊和混合模糊。借助扩散模型方程可将模糊过程转化为如下公式:
其中,
是与时间相关的模糊扩散系数,其用来控制模糊扩散的速度,
是进行图像各向同性模糊扩散的拉普拉斯算子;方程的解u表示不同模糊情景下清晰图像随时间t模糊的结果。
基于上述背景,本文提出了融合注意力机制的生成对抗网络图像去模糊模型,提升图像去模糊的效果。本文的主要贡献如下:
1. 提出了一种基于多注意力机制融合生成对抗网络的图像去模糊模型,提升了图像去模糊的效果。
2. 通过在多个公开数据集上进行实验,验证了所提方法在图像去模糊任务中的优越性能。
2. 相关工作
2.1. 传统图像去模糊
传统图像去模糊方法通过建模图像退化过程的先验信息,并利用优化算法来求解逆问题。其思想是将模糊图像
看作是清晰图像
与模糊核
的卷积,并加上噪声
,即
。
模糊核估计和非盲去模糊是常见的传统图像去模糊方法。在模糊核估计方面,主要包含基于边缘预测与基于显著性的方法。估计出模糊核后非盲去模糊转化为解卷积问题,常用维纳滤波[1]、Richardson-Lucy算法[2]以及基于稀疏先验的正则化优化方法[3]。
尽管传统方法具有深厚数理基础以及较强可解释性。然而,由于手工设计先验在应对复杂场景模糊去除时,其先验假设会失效,从而导致估计出的模糊核不准确问题,使得产生振铃效应和不自然的平滑效果。
2.2. 基于生成对抗网络的图像去模糊
生成对抗网络在图像去模糊领域取得了颠覆性的进展。
Kupyn [4]成功验证了GAN通过学习模糊–清晰图像对之间的映射关系,能够恢复出视觉感知上更清晰的图像,超越了传统优化方法的局限。Neji [5]将CycleGAN的对抗学习能力精准适配于文档图像盲去模糊任务。该方法首次实现了如运动模糊、失焦模糊等条件下对文档图像的恢复。随后,Zhao [6]对经典的CycleGAN框架进行了针对盲图像去模糊任务的改造,提出了轻量级域转换单元(LDCU)作为生成器核心,通过引入基于批量归一化(BN)的元结构和轻量级编码器–解码器(LED)设计,取代了原CycleGAN中不适合去模糊的实例归一化(IN)和复杂网络结构,有效解决了直接使用CycleGAN导致的色彩失真和伪影问题。Fanous [7]针对连续运动扫描显微成像的特殊性结合GAN的生成对抗学习机制设计了图像去模糊网络。其生成器采用U-Net架构,通过跳跃连接将编码器的低级特征与解码器的高级特征融合,从而在去模糊过程中有效保留细胞边界、纹理等细节信息;判别器则使用PatchGAN结构,专注于评估图像局部区域的真实性,迫使生成器恢复出更逼真的高频成分。
因而,GAN已将图像去模糊带入了一个数据驱动、端到端优化的新阶段,但仍面临训练稳定性等挑战。
2.3. 基于注意力机制的图像去模糊
近年来,注意力机制在图像去模糊研究中受到了广泛关注,并逐渐成为提升去模糊模型性能的关键技术之一。
该机制受人类视觉系统中注意力分配机制的启发,能够引导神经网络自适应地聚焦于图像中信息丰富的图像块。Chen [8]设计了结合通道注意力和像素注意力的多尺度去模糊网络模型,使网络更关注模糊区域和重要通道信息。通道注意力通过全局平均池化和卷积层计算通道权重;像素注意力进一步强化对局部模糊区域的关注。
随着自注意力机制在底层视觉任务中的突破。Cui [9]通过设计高效的空间注意力模块(SAM)和频率注意力模块(FAM),分别增强模型在空间域和频率域的模糊去除能力。Lee [10]在注意力模块中同时引入通道注意力和空间注意力。其根据输入特征自适应调整注意力分支和非注意力分支的权重,同时使用深度过参数化卷积替代普通卷积,增强特征表达能力。
Zhang [11]设计多尺度特征交叉融合模块融合编码器中不同层级的特征,增强多尺度特征表达能力。其设计的区域自注意力模块(RSAM)通过使用条带池化(Strip Pooling)捕捉水平和垂直方向的非均匀模糊区域,赋予不同模糊区域不同权重。并融合深度残差小波变换模块将空间特征转换到频域(小波域),从而利用高频子带恢复边缘和纹理细节来提升图像去模糊效果。
注意力机制的引入使得图像去模糊模型能够更好地捕捉长距离依赖关系和局部细节,从而显著提升了去模糊效果。但其计算复杂度与更高效的注意力机制去模糊模型仍需要探索。
2.4. 基于扩散模型的图像去模糊
近年来,扩散模型的先验学习和细节生成能力使其迅速被引入图像去模糊领域。其将模糊过程建模为从随机噪声向清晰图像逐步去噪的过程。
Chen [12]提出了一种基于扩散模型的图像去模糊方法,其将扩散模型作为潜在空间图像先验生成器。其在潜在空间中生成富含纹理细节的特征,并且融合交叉注意力机制引导Transformer主干网络进行去模糊。Wu [13]通过隐式扩散模型模拟连续运动轨迹,生成多样化的模糊图像,通过增强去模糊模型的训练数据来提升模型去模糊的泛化能力。
Feng [14]将扩散模型作为精细化残差生成器来进行图像去模糊。模型首先用一个轻量级网络进行预去模糊,得到一个基础结果;然后扩散模型通过学习“清晰图像”与“预去模糊结果”之间的细节差异提升去模糊图片的质量。Li [15]利用分数扩散模型学习清晰图像的概率分布,通过反向随机微分方程逐步重建清晰图像。除此以外,其还设计了适用于真实世界场景且无需成对训练数据的去模糊方法。Xie [16]使用扩散模型从单张模糊图像运动先验特征,模拟事件相机提供的运动信息,普通相机也能获得事件相机的去模糊优势,而无需真实事件输入。
总体而言,基于扩散模型的图像去模糊方法通过其强大的生成能力,显著提升了去模糊图像的质量和细节还原水平,但是其高计算成本和复杂的训练过程需要优化。
3. 本文模型
本文模型框架如图1所示,生成器将模糊图像去模糊,然后通过判别器反馈的信息优化生成器的图像去模糊性能。
Figure 1. Model flowchart
图1. 模型流程
3.1. 生成对抗网络的生成器
Figure 2. Generator flowchart
图2. 生成器流程图
本任务的生成器主要由新设计的融合多注意力机制的金字塔结构特征提取模块以及包含多头上采样部件的图像重建模块构成。其流程如图2所示。
具体来说,模糊图像首先通过多尺度金字塔特征提取模块提取不同尺度特征,该模块首先通过浅层特征提取模块提取为后续特征重建准备的浅层特征,随后通过多尺度空间特征增强模块(Multi-scale Spatial Feature Enhancement Module)和增强通道注意力模块(Enhanced Channel Attention)构成的融合注意力机制的特征提取模块提取浅层输入特征
的5个尺度的特征信息
。其数学表达如下所示:
其中,
表示基于金字塔结构创建的多尺度特征提取模块,其浅层特征提取模块由二维卷积块
和
实现。
随后通过包含深层卷积块和混合上采样的自适应特征模块将不同尺度的特征恢复到同一空间维度,以此作为图像去模糊的基础。
随后,使用张量拼接函数,融合不同层统一空间维度特征信息,进行初步的信息重建。其数学表达如下所示:
最后,通过两次smooth操作对图像的信息整合。该操作通过卷积网络处理后并且通过基础的张量拼接操作实现:
其中
表示基本的上采样操作。在经过上述处理后,通过对
进行clamp操作获得去模糊的图像。
1. 多尺度空间特征增强模块
多尺度空间特征增强模块通过对输入特征进行多尺度的空间卷积操作,获得不同层次的细致特征信息。其流程如图3所示。
多尺度空间特征增强模块将输入特征转化为三个分支,在各自分支提取细粒度不同的特征,来提升模型特征提取的能力。
Figure 3. Multi-scale spatial feature enhancement module
图3. 多尺度空间特征增强模块
首先,输入特征
通过2D卷积操作获得不同尺度的特征信息
,随后通过风格归一化和激活函数获得高频细节信息,为后续图像重建提供纹理特征,其数学表达如下所示:
其中,
表示1 × 1卷积操作,
为卷积核权重,
表示实例归一化操作,
和
分别为每个样本每个通道的均值和标准差,
和
为可学习的缩放和偏移参数;
表示整流线性单元激活函数,用于引入非线性变换;
和
分别表示输入和输出通道数。
其次,使用空洞卷积获得不同尺度下的局部特征信息。其数学表达如下所示:
其中,
表示第
个空洞卷积分支,
为对应的卷积核权重,
表示空洞率为
的空洞卷积操作,
表示批量归一化操作,
表示整流线性单元激活函数。
接着,通过全局平均池化提取图像块的局部级语义特征,然后通过卷积、归一化和激活函数增强特征表达能力,使全局特征与其他分支的特征图尺寸保持一致,其数学表达如下所示:
最终将不同尺度分支的特征图在通道维度上进行拼接,然后通过1 × 1卷积进行通道降维和特征整合,其数学表达如下所示:
在图像去模糊任务中,该模块通过显式建模不同空间尺度上的特征表达,使网络能够有效应对由相机抖动、物体运动等造成的、在图像中分布不均且尺度各异的模糊模式,为后续的特征融合与清晰图像重建提供鲁棒且信息丰富的多尺度特征基础。
Figure 4. Enhanced channel attention
图4. 增强通道注意力
2. 增强通道注意力模块
增强通道注意力模块目的是在网络浅层自适应获得通道特征;其流程如图4所示。
其功能是在浅层提取重要的通道信息为图像信息恢复做准备。
首先,使用全局平局池化计算输入特征逐通道的像素位置平均值,从而把单通道的二维特征压缩为一维标量特征。该操作进行求和平均消除输入特征空间位置维度的影响,为后续增强通道注意力权重的提取提供全局信息。其数学表达如下所示:
随后,维度转换
和
方法将4维张量转换为3维张量,为后续特征的卷积提取做准备,其数学表达如下所示:
其中
是将
的最后一个维度的数据移除得到形状为
的
特征,permute之后,将维度转换后的特征张量进行一维卷积
提取局部通道信息,并借助Sigmoid激活函数获得注意力权重
。其数学表达如下所示:
其中sigmoid函数用来归一化处理特征,使得重要通道接近一不重要通道接近零。
最后将原始输入与张量广播后的增强通道注意力权重逐个元素相乘后获得重要通道的注意力信息。其数学表达如公式所示:
增强通道注意力在图像去模糊中的作用是通过对输入特征增强通道注意力信息,从而提升模型对关键特征的关注度。借助这种方式,模型能够更好地捕捉到图像中的细节和纹理信息,提升去模糊效果。
3. 自适应特征激励模块
该模块包含局部特征提取与自适应特征增强部分,局部特征提取由步长为3的两个卷积层实现。其流程如图5所示:
Figure 5. Adaptive feature excitation module
图5. 自适应特征激励模块
首先通过特征变换操作获得输入特征
的通道权重向量。通过全局平均池化压缩空间维度进行特征聚合与维度转换,其数学表达如下所示:
随后通过两个全连接层深层捕获通道特征,首先通过降维减少参数量,再通过升维恢复原始通道,并使用ReLU和Sigmoid激活函数引入非线性,其数学表达如下所示:
其中,
和
分别为两个全连接层的权重矩阵,
表示ReLU激活函数。
最后将学习到的通道权重与原始输入特征进行逐通道相乘,实现特征重校准获得自适应激励特征,其数学表达如下所示:
该模块通过对特征融合过程中的特征进行自适应调节,能够有效地增强关键特征的表达能力,同时抑制冗余信息,从而提升图像去模糊的效果。通过这种方式,模型能够更好地捕捉到图像中的细节和纹理信息,提升去模糊效果。
3.2. 生成对抗网络的判别器
判别器主要将去模糊图像与真实清晰图像进行对比,获得生成器优化信息,帮助生成器优化模图像去模糊。本文判别器结构如图6所示:
Figure 6. Discriminator network flowchart
图6. 判别器网络流程图
首先,清晰图像和去模糊图像分别作为输入特征,
会分别通过卷积神经网络操作获取浅层特征。
其中,
表示由卷积层和激活函数构成的浅层特征提取块,该模块通过简单的卷积操作来获得输入图像的全局特征信息。
其次判别器通过中间特征提取块
提取图像的深层次的局部特征信息。该部分有多个卷积层、批量归一化层以及激活函数复合而成
最后通过仅带有二维卷积的卷积神经网络来输出为真实图像的概率反馈给生成器进行图像去模糊的优化。
其中,
表示由卷积层构成的特征提取块。
3.3. 生成对抗网络的损失函数
网络复合损失函数主要包含生成器损失、判别器损失。生成器损失函数主要包含内容损失、对抗性损失和感知损失。
其中,
表示内容损失,
表示对抗性损失,
表示感知损失。其数学表达如下所示:
在生成器损失函数中,内容损失(
)用于衡量生成图像(
)与目标图像(
)在像素级别的差异,本文采用L1范数计算并除以
进行归一化。
判别损失(
)通过生成器生成的图像欺骗判别器(
)来计算,其中
是从噪声分布
中采样的随机向量,
表示生成器生成的图像,
表示判别器将生成图像判断为真实图像的概率,模型对概率取负以最小化该损失。感知损失(
)则通过预训练的特征提取网络的多层特征图来计算,其中
表示输入图像
在第
层网络信息提取的特征映射,判别器损失函数主要包含对抗性损失和感知损失。其数学表达如下公式所示:
该损失函数由两部分组成:第一部分
鼓励判别器
将真实图像
正确识别为真实样本,其中
是从真实数据分布
中采样的图像,
表示判别器对真实图像的判别概率;第二部分
鼓励判别器将生成图像
正确识别为去模糊图像,其中
是从噪声分布
中采样的随机向量,
是生成器基于噪声
恢复的去模糊图像,
表示判别器对生成图像的判别概率。
4. 实验
本章节,首先介绍所使用的数据集与具体实验设置细节,其次通过本文模型与其他模型的对比实验与系统的消融实验,验证本文提出模型的有效性。
4.1. 对比实验
本实验使用GOPRO [17]数据集进行模型的训练,其训练集包含2103对模糊(清晰)图像,测试集包含1111对模糊(清晰)图像。为了保证实验可比性与快速验证新模型有效性,本文沿用与基线模型一致的实验配置,即采用GoPro训练集的一半作为训练集,测试集的十分之一进行训练,并在经典运动模糊数据集HIDE [18]和真实模糊数据集(RealBlur) [19]上与其他主流模型架构(多尺度架构、注意力框架)与经典算法进行性能对比。
本文模型与其他去模糊框架在GOPRO测试集和HIDE数据集上的客观指标对比由表1呈现,从表1可知,在相同的实验配置下,新模型在GOPRO测试集上PSNR结果比基线模型提升0.6861 dB,这一提升验证了模型中多尺度结构的有效性,新模型仍对不同尺度模糊核的适应能力。PSNR结果比传统的注意力模型提升了1.1299 dB,同时SSIM也有提升。由于传统注意力机制在处理图像时,仅简单计算所有像素区域间的依赖关系。这种方法可让的高频细节(如边缘、纹理)在全局的平滑化信息聚合中,从而导致复原图像在像素精度(PSNR)和结构保真度(SSIM)上均存在优化瓶颈。这表明新模型融合增强通道注意力后更合理的进行特征提取,使得去模糊效果得以保证。与之相比,新模型通过融合增强通道注意力机制,实现了更为合理的特征提取。该机制能够依据特征重要性自适应地校准通道响应,强化对细节敏感特征的输出。这种改进使得模型在复原过程中更好地保持高频内容,因而在去模糊效果上得到了可靠保证。在HIDE数据集上,新模型的PSNR相较于注意力模型大幅提升3.1864 dB的结果,凸显了自适应特征激励模块在去除真实场景运动模糊的独特价值。该模块能根据输入特征,自适应地校准并激励对恢复五官、轮廓等运动细节最为关键的特征响应,这使其在HIDE这类以真实运动模糊场景为评估核心的数据集上,优势被放大。
在真实昏暗场景数据集Real Image模糊去除的客观评估(表2)中,新模型的PSNR与SSIM指标均达到了良好效果,这表明其在光照不足与运动模糊耦合的复杂退化条件下,仍能实现稳定的图像去模糊效果。在子数据集Real Image R上,本文模型的PSNR值为30.7217 dB,较基线模型提升了0.5337 dB;但未达到最优,由于该数据集模糊不仅来自相机抖动,还有物体运动、景深变化引起的散焦等。即图像背景可能因为抖动产生整体模糊,前景物体却因为快速运动出现局部拖影,不同区域的模糊类型都不一样。本文的模型主要针对的是Gopro那种合成数据,在处理这种复杂、多变的真实模糊时,其泛化能力有待加强,但其SSIM达到了最高的0.9088,这说明本文模型对复合模糊背景下图像的结构恢复是有效。Real Image J数据集以真实昏暗场景下的复合模糊为核心特点,新模型所采用的多尺度空间特征增强模块整合不同尺度的空间上下文,使模型能够协同处理低照度下的噪声增强、对比度衰减与动态模糊等多重退化问题;但其客观结果未达到最优,其主要原因未真实图像中的模糊很多是小尺度、局部性的,而本文模型中的增强的通道注意力机制更偏向提取深层、大范围的特征,其会忽略掉一些对恢复细节很重要的浅层特征。这个问题在Gopro合成数据上不太明显,因为合成模糊大多是全局性的;但一到真实图像上,这种细节丢失就被放大了,导致在纹理丰富的区域恢复效果不够好,从而拉低了整体的PSNR和SSIM。这说明模型针对真实昏暗场景下的模糊去除需要优化浅层特征提取的能力,但本文模型仍与对比模型相近水平,因而在恢复昏暗场景中易丢失的细节与结构,本文模型仍具有一定的实用性。
Table 1. The comparison of results (PSNR/SSIM) for image denoising in mixed blur scenarios such as GoPro and HIDE
表1. 在GoPro和HIDE等混合模糊场景下去除结果对比(PSNR/SSIM)
数据集 |
评估方法 |
mul [20] |
Baseline [21] |
our |
Attention [22] |
Deblur Gan [4] |
HIDE |
PSNR |
16.5124 |
25.9518 |
26.5269 |
23.3405 |
24.8124 |
HIDE |
SSIM |
0.6802 |
0.8345 |
0.8597 |
0.7736 |
0.7671 |
GoPro |
PSNR |
16.7909 |
26.3403 |
27.0264 |
24.5758 |
26.0112 |
GoPro |
SSIM |
0.7221 |
0.8640 |
0.8791 |
0.7972 |
0.7886 |
Table 2. Comparison of objective results (PSNR/SSIM) for real-world image deblurring on the real image dataset
表2. 在real image数据集上的真实场景模糊去除的客观结果(PSNR/SSIM)对比
数据集 |
评估方法 |
mul [20] |
Baseline [21] |
our |
Attention [22] |
Deblur Gan [4] |
real image J |
PSNR |
21.5040 |
25.5982 |
25.5913 |
26.0613 |
26.3399 |
real image J |
SSIM |
0.7124 |
0.8060 |
0.7967 |
0.7821 |
0.7971 |
real inage R |
PSNR |
24.7256 |
30.1880 |
30.7217 |
31.8160 |
32.3532 |
real inage R |
SSIM |
0.5327 |
0.8872 |
0.9088 |
0.7548 |
0.9006 |
Figure 7. (1) Blurred image; (2) Sharp image; (3) Multi-scale model; (4) Baseline model; (5) Proposed model; (6) Attention model; (7) DeblurGAN model
图7. (1) 模糊图像;(2) 清晰图像;(3) 多尺度模型;(4) 基线模型;(5) 本文模型;(6) 注意力模型;(7) DeblurGAN模型
如图7所示,在GoPro数据集上对比了多尺度框架、注意力框架以及Deblur GAN模型的去模糊结果。结果表明,多尺度框架的去模糊图像出现了明显伪影,而注意力框架并未在人脸区域恢复出清晰细节,本文模型在多人物场景下不仅恢复更多的纹理细节且有效降低了伪影的产生;同时在建筑背景商店商标模糊去除上,本文模型恢复的清晰度优于基线模型。在人物背景的模糊去除上,本文模型恢复的清晰度优于Deblur GAN模型;以上效果得益于生成对抗网络的对抗学习机制,其确保了图像模糊的有效。同时,在金字塔框架中融合的多注意力机制,进一步增强了细节信息的恢复能力。因此,本文模型在真实场景图像去模糊任务中表现出了良好的有效性与鲁棒性。
4.2. 消融实验
本节在GoPro、HIDE与Real Image三个数据集上进行实验,通过在基线模型中依次引入多尺度空间特征增强模块(Multi-scale Spatial Feature Enhancement Module)、自适应特征激励模块(Adaptive Feature Excitation Module)、增强通道注意力(Enhanced Channel Attention)以及复合损失函数,验证了各组件对模型性能的有效性。
Table 3. Validation of whether MSFM and AFEM improve model performance, showing motion blur removal results on the HIDE and GOPRO datasets
表3. MSFM和AFEM是否存在对模型效果的验证,在HIDE和GOPRO数据集上运动模糊去除效果
数据集 |
评估方法 |
Baseline [21] |
无MSFM 有AFEM |
有MSFM 无AFEM |
有MSFM 有AFEM |
HIDE |
PSNR |
25.9518 |
26.5076 |
26.6839 |
26.6775 |
HIDE |
SSIM |
0.8345 |
0.8587 |
0.8611 |
0.8526 |
GoPro |
PSNR |
26.3403 |
27.0620 |
26.7762 |
27.1772 |
GoPro |
SSIM |
0.8640 |
0.8830 |
0.8748 |
0.8825 |
Table 4. Validation of the effectiveness of MSFM and AFEM models on real-world image datasets for real-scene deblurring
表4. MSFM和AFEM是否存在对模型效果的验证,在Real image数据集上的真实场景模糊去除效果
数据集 |
评估方法 |
Baseline [21] |
无MSFM 有AFEM |
有MSFM 无AFEM |
有MSFM 有AFEM |
real image J |
PSNR |
25.5982 |
25.3976 |
25.8126 |
25.3831 |
real image J |
SSIM |
0.8060 |
0.7874 |
0.7932 |
0.7965 |
real inage R |
PSNR |
30.1880 |
29.7164 |
30.7743 |
29.5419 |
real inage R |
SSIM |
0.8872 |
0.8694 |
0.8958 |
0.8465 |
从表3的结果可以看出,基线模型加入MSFM和AFEM模块后,PSNR和SSIM均有不同程度的提升,说明这两个模块对模型的去模糊效果有提升。以下将对其作用进行具体分析,首先,基线模型在仅加入MSFM模块时对HIDE数据集去模糊的效果最好,其PSNR和SSIM分别为26.6839 dB和0.8611。
这一结果与MSFM模块的多尺度特征融合能力相关,其通过提取并聚合不同感受野下的空间信息,有效增强图像重建的质量。
当同时引入MSFM与AFEM模块时,模型在GoPro测试集上的去模糊的PSNR提升至27.1772 dB;仅适用AFEM模块则将在GOPRO测试集上的客观指标SSIM提升到了0.8830。由此可见,MSFM模块和AFEM模块对模型运动模糊去除并恢复图像细节有很大帮助。
表4对比了AFEM与MSFM模块在Real Image数据集上进行真实场景模糊去除的客观指标。结果显示,在Real image J数据集上,AFEM模块和MSFM模块的加入同样使PSNR和SSIM均达到了基线的相近水平,并且有MSFM无AFEM情况下PSRN相较于基线提升了0.2144 dB,这表明MSFM模块在该数据集的去模糊任务中,对多尺度特征信息信息提取有更明显的作用。在Real image R数据集中,AFEM模块和MSFM模块的加入使得模型去模糊的客观指标达到了良好水平,同时,仅存在MSFM的情况下模型的去模糊效果提升更大,其PSNR和SSIM分别达到了30.7743 dB和0.8958。由此可得,MSFM模块和AFEM模块在Real Image数据集上能取得较好的去模糊效果。
Table 5. Maintaining the presence of ECA and MSFM, validating the effectiveness of the AFEM module. Motion blur removal on the HIDE and GoPro datasets
表5. 保持ECA和MSFM存在,验证AFEM模块有效性。在HIDE和GoPro数据集上运动模糊去除
数据集 |
评估方法 |
Baseline [21] |
our |
无AFEM |
HIDE |
PSNR |
25.9518 |
26.5269 |
26.2058 |
HIDE |
SSIM |
0.8345 |
0.8537 |
0.8529 |
GoPro |
PSNR |
26.3403 |
27.0264 |
25.7463 |
GoPro |
SSIM |
0.8640 |
0.8791 |
0.8517 |
表5为在固定MSFM与ECA模块的基础上,验证AFEM模块在HIDE和GoPro数据集上运动模糊去除效果的客观指标对比。根据该表结果。在GOPRO测试集和HIDE上,AFEM模块的加入使得PSNR和SSIM均有不同程度的提升,说明该模块对模型的去模糊重建能力提升有帮助;其次,在仅保留ECA模块和MSFM模块情况下,模型对GOPRO测试集和HIDE数据集的去模糊效果仅达到基线相近水平,其PSNR和SSIM分别为25.7463 dB和0.8517,AFEM模块凭借其自适应特征激励机制,有效增强了模型在运动模糊去除过程中的关键信息捕获能力。
表6是保持MSFM和ECA模块存在,验证AFEM模块在Real Image数据集上的真实场景模糊去除的有效性验证。
Table 6. Maintaining the presence of ECA and MSFM, validating the effectiveness of the AFEM module. Real-world scene blurring on the real image dataset
表6. 保持ECA和MSFM存在,验证AFEM模块有效性。在real image数据集上的真实场景模糊
数据集 |
评估方法 |
Baseline [21] |
our |
无AFEM |
real image J |
PSNR |
25.5982 |
25.5913 |
25.7566 |
real image J |
SSIM |
0.8060 |
0.7967 |
0.8100 |
real inage R |
PSNR |
30.1880 |
30.7217 |
29.9372 |
real inage R |
SSIM |
0.8872 |
0.9088 |
0.9267 |
根据表6,在Real image J数据集上,AFEM模块使得PSNR和SSIM均达到同基线相近效果,在仅保留ECA模块与MSFM模块,却无AFEM的情况下,模型对Real image J数据集的去模糊效果有大幅提升,PSNR和SSIM分别为25.7566 dB和0.8100。这一现象表明,在该真实场景数据集中,AFEM模块所具备的自适应特征激励机制,与场景特性未完全匹配,维持了模型的基础性能,但未能带来预期的提升效果;相反,ECA与MSFM的组合更有利于该场景下图像结构与细节的稳定恢复。在Real image R数据集上,ECA和AFEM模块的加入使得PSNR和SSIM均有不同程度的提升,说明ECA模块和AFEM模块对模型的去模糊重建有提升,综上,AFEM模块对于模型在运动场景下模糊去除必不可少。
Table 7. Objective metrics for motion blur removal using models trained with different loss functions on the HIDE and GoPro datasets
表7. 验证不同损失函数训练的模型,在HIDE和GoPro数据集上运动模糊去除的客观指标
数据集 |
评估方法 |
Baseline [21] |
our |
Losscontent |
lossdis |
HIDE |
PSNR |
25.9518 |
26.5269 |
26.2745 |
23.8425 |
HIDE |
SSIM |
0.8345 |
0.8537 |
0.8574 |
0.7693 |
GoPro |
PSNR |
26.3403 |
27.0264 |
27.1482 |
20.9830 |
GoPro |
SSIM |
0.8640 |
0.8791 |
0.8868 |
0.7334 |
根据表7在HIDE与GoPro数据集上进行的损失函数消融实验结果,可以看出不同损失项对模型性能的影响显著。当去除内容损失时,模型在测试集上的PSNR与SSIM均出现明显下降;而在仅使用内容损失、不引入判别损失的情况下,模型在GoPro数据集上仍能达到27.1482 dB的PSNR与0.8868的SSIM。这一对比说明,内容损失在训练过程中起到了关键作用,其通过约束输出与清晰图像在特征层面的一致性,高效引导生成器恢复图像结构和细节信息,从而保障模型去模糊性能。相比之下,判别损失虽有助于增强生成图像的视觉真实感,但在以定量指标为主的评价体系下,单独使用该损失对PSNR、SSIM等数值提升的作用有限。因此,将内容损失与判别损失相结合的复合损失函数,能够更全面地引导模型优化,从而取得更稳定的训练效果。
Table 8. Verification of the real-world image deblurring performance of models trained with different loss functions on the real image dataset
表8. 验证不同损失函数训练的模型,在real image数据集上的真实场景模糊去除效果
数据集 |
评估方法 |
Baseline [21] |
our |
losscontent |
lossdis |
real image J |
PSNR |
25.5982 |
25.5913 |
25.2957 |
24.9160 |
real image J |
SSIM |
0.8060 |
0.7967 |
0.7871 |
0.7508 |
real inage R |
PSNR |
30.1880 |
30.7217 |
30.1144 |
29.3280 |
real inage R |
SSIM |
0.8872 |
0.9088 |
0.8790 |
0.8386 |
表8展示了不同损失函数在Real Image数据集上的消融实验结果。可以看出,同时使用内容损失与判别损失的复合损失函数取得了最佳性能,这进一步印证了内容损失为图像重建提供了关键的结构约束,而判别损失则增强图像的视觉真实性,二者结合能更全面地促进模型优化。实验结果表明,在真实场景图像去模糊任务中,复合损失函数通过融合像素级保真度与对抗训练机制,有效保障并提升了模型的整体去模糊性能。
5. 结束语
在本实验中,我们提出融合注意力机制的生成对抗网络图像去模糊模型。实验结果所示,该模型在去除图像运动模糊效果良好,可有效重建清晰的图像。我们使用了多种评价指标进行实验结果对比,包括峰值信噪比(PSNR)和结构相似性指数(SSIM),结果表明新模型在这些指标上达到较好结果,进一步验证了在生成对抗网络中融合多注意力机制在图像去模糊任务中的有效性,未来将关注模型在目标检测等下游任务的应用。