1. 引言
作为图像处理和计算机视觉领域的经典逆问题,图像去模糊旨在从模糊图像中复原潜在的清晰图像[1]。现实场景中的模糊,往往源于相机抖动、物体运动或对焦不准等复杂因素,且由于其模糊核通常是未知的,使得这一任务充满挑战。基于上述背景,本文提出了基于Transformer的生成对抗网络图像去模糊模型,实现图像去模糊的特生。本文的主要贡献如下:
1) 针对真实场景的运动模糊去除提出了一种融合Transformer的生成对抗网络的图像去模糊模型;
2) 通过在Gopro和Hide等数据集上进行实验,验证了所提方法在图像去模糊任务中的有效性。
2. 相关工作
2.1. 基于生成对抗网络的图像去模糊
生成对抗网络在图像去模糊领域有着广泛应用,Neji [2]将CycleGAN的能力应用于文档图像盲去模糊任务。该方法首次实现了失焦模糊等条件下对文档图像信息的有效恢复。陈[3]针对粮仓仓内所存在粉尘弥漫,监控设备老化等问题,导致采集的图像出现严重的模糊的现象,其结合生成对抗网络的学习机制,在生成器网络中引入通道注意力机制,增强对关键特征的提取;其次,引入结构相似性损失函数,改善训练后的模型过度平滑问题。苏[4]针对低速旋转弹导引头因抖动导致的图像模糊问题,首次将生成对抗网络引入弹载图像盲去模糊领域,其设计了一个结合编码器–解码器与残差连接的生成器以及全卷积判别器的网络架构,并运用均方误差、对抗、梯度和总变差等多种损失函数进行联合优化,以提升去模糊后的图像质量和边缘保持度。
生成对抗网络通过生成器与判别器的对抗博弈,其并不需要固定的数学假设即可端到端学习数据分布,实现高质量的模糊去除,但其训练存在不稳定和模式崩溃等挑战。
2.2. 基于Transformer的图像去模糊
近年来,Transformer为图像去模糊带来了新的思路,尤其是通过自注意力机制[5]捕捉全局像素依赖,能够处理动态场景中复杂的非均匀模糊。Tsai [6]针对动态场景中的图像去模糊任务中模糊的方向性和区域特异性,设计了专门的条带注意力机制,具有较强的任务导向性,同时其使用对比学习损失增强特征判别能力,Zamir [7]关注到传统的CNN在图像恢复中表现良好,但存在感受野有限和无法动态适应输入内容的问题并且Transformer的自注意力的计算复杂度随图像分辨率呈平方增长,无法直接应用于高分辨率图像恢复的问题,其设计了基于Transformer的编码器–解码器架构。该模型训练初期使用小图像块和大批量,后期逐渐增大图像块、减小批量,帮助模型学习全局图像统计信息,提升模型泛化能力。Kong L [8]提出一种基于频域的高效Transformer模型,该方法以卷积定理为理论基础,通过将自注意力的计算转换至频域进行逐元素乘积操作,从而实现对空间域中自注意力的高效近似;同时受JPEG压缩算法启发,设计可学习的频域门控机制,自适应地保留对去模糊有用的低/高频信息。其提出的FSAS和DFFN模块具有良好的可解释性和实用性,为图像恢复任务提供了新思路。
Transformer在图像去模糊领域的核心优势在于其长距离建模能力和自适应能力,能够从根本上理解并修复由全局运动造成的复杂模糊;而其主要的短板则集中在计算效率高、对硬件要求高以及对海量数据的依赖上。
3. 本文模型
在本文的生成对抗网络模型中,生成器的任务是对输入的模糊图像进行去模糊,而判别器则通过对其输出进行评判,将优化信息反向传播给生成器,从而增强后者的图像模糊去除能力。
3.1. 生成对抗网络的生成器
本模型的生成器主要由新设计的融合局部–全局双元Transformer模块(Local-Global Dual Extraction Transformer Block)的特征提取模块以及包含残差融合的图像重建模块构成。其流程如图1所示。
Figure 1. Generator flowchart
图1. 生成器流程图
具体来说,模糊图像通过浅层特征提取模块提取为后续特征重建准备的浅层背景信息,随后通过4个encode模块逐层提取不同尺度的纹理特征,不同尺度纹理特征通过2D卷积操作获得更进一步的信息为后续特征融合做准备,其中encode4模块提取的高层信息在经过融合局部–全局双元Transformer模块提取细粒度更高的特征信息后进行特征融合;其数学表达如下所示:
随后通过包含深层卷积块将特征恢复到同一空间维度,以此作为图像去模糊的基础。
最后,通过两次smoothed操作对图像的信息整合。该操作通过卷积网络处理后并且通过基础的张量拼接操作实现:
其中
表示基本的上采样操作。
在经过2D卷积和残差融和处理后,通过对
进行clamp操作获得去模糊的图像。
1) 局部–全局双元Transformer模块
局部–全局双元Transformer模块(Local-Global Dual Extraction Transformer Block)是融合局部动态注意力和静态注意力,增强模型的长程特征重建能力。其流程如图2所示。其内容包括全局动态与静态注意力特征提取以及两者之间的残差融合。
Figure 2. Local-global dual extraction transformer block
图2. 局部–全局双元Transformer模块
首先,首先通过特征键嵌入
操作获得输入特征
的静态注意力
,其数学表达如下所示:
其中,非线性激活函数
是对二维批量归一化特征后的特征
进行更复杂的学习获得静态注意力,二维批量归一化特征后的特征
将保证输入特征在确定的范围内进行学习避免了梯度爆炸。
接着通过相同的特征值嵌入操作
获得输入特征
的待处理动态值特征
,其数学表达如下所示:
其中,去掉
激活函数的混合二维卷积
是对输入特征
进行特征提取,随后通过二维批量归一化并进行特征尺度变换后获得动态值特征
。
通过将静态键特征
和原始输入连接
进行合并操作并进行注意力嵌入
获得基础动态注意力值权重。该过程数学表达如下所示:
其中,
实现将静态特征
和原始输入特征
进行拼接操作,
是动态注意力嵌入操作,其借助降维变换等操作实现。该过程数学表达如下所示:
该操作通过卷积层和激活函数对拼接后的特征进行处理获得基础动态注意力值权重
。
基础动态注意力邻域权重经过张量重塑与均值操作处理后获得动态注意力权重,在注意力权重与注意力值特征进行逐元素相乘后获得动态注意力。其数学表达如下所示:
其中,
是张量重塑操作,
是对张量进行均值操作,
是将张量重塑为指定形状的操作。该操作通过对动态注意力邻域权重进行处理获得动态注意力权重。
最后在注意力权重与注意力值特征进行逐元素相乘后获得动态注意力后融合静态注意力和动态注意力获得最后的融合注意力,其数学表达如下所示:
3.2. 生成对抗网络的判别器
判别器通过对清晰图像和去模糊图像相似度的计算获得生成器优化信息,优化对生成器的去模糊性能。本文判别器结构如图3所示:
Figure 3. Discriminator network flowchart
图3. 判别器网络流程图
清晰图像和去模糊图像分别作为输入特征,
会分别通过上分支模块和下分支模块获得生成器优化信息。
其中,
首先通过二维卷积
激活函数获得浅层特征,随后通过三个包含
正则化操作的卷积块串行获得中层特征,最后通过二维卷积获得生成器优化信息。
采用与上分支模块相同的特征提取设置,但其隐藏卷积层数量增至五层,使得该分支可捕捉深层特征信息,供生成器进行图模糊性能的优化。
3.3. 生成对抗网络的损失函数
在本模型中损失函数通过生成器(G)和判别器(D)的协同训练参与模型优化。训练时,首先利用判别器计算对抗损失并更新判别器参数;随后生成器基于内容损失(如L1损失)和对抗损失的加权和得到进行反向传播,同时优化生成器参数。
生成器的损失函数如下所示:
其中,
表示内容损失,用于衡量去模糊图像与清晰图像在像素级别的差异。
表示对抗性损失,其借助判别器的对抗引导,优化生成器的去模糊训练过程。
判别器的损失函数其数学表达如下公式所示:
其中,第一部分是判别器
将真实图像
正确识别为真实样本的数学期望;第二部分是判别器将去模糊图像
正确识别为假图像的数学期望。
4. 实验
本章节,首先介绍所模型训练所使用的数据集与具体实验设置细节,其次通过本文模型与其他模型的对比实验与系统的消融实验,检验新模型的有效性。
4.1. 对比实验
为保证模型有效性的高效验证,本文采用与基线相同的配置,从GOPRO [9]数据集中选取其训练集的一半和测试集的十分之一进行训练,并在Hide [10]和RealBlur [11]数据集上与经典算法进行性能对比。
本文模型与基线模型以及DeblurGan模型据集上的客观指标对比如表1所示,从表中可知,在同等条件下,新模型在GOPRO测试集上PSNR结果比基线模型提升0.2306 dB,这一提升验证了模型中局部–全局双元Transformer模块的有效性,显示了其长程特征提取的能力。PSNR结果比传统的Deblur Gan模型提升了1.3652 dB,同时SSIM也有提升。这说明在该数据集上,新模型继承了生成对抗网络的对抗学习优势;在真实世界复杂动态场景HIDE数据集上,本文模型在PSNR和SSIM上并未达到最优,由于该数据集涉及大量跑步、跳跃、舞蹈、体育运动、手势交互等快速非刚性运动,其也涵盖自然光照下的户外场景(街道、操场)和人工光照下的室内场景(健身房、客厅),光照条件多变,从而进一步增加模糊的多样性。而本文模型在合成数据集上训练,其对复杂模糊场景模糊去除的泛化能力仍需要提升,同时这表明后续在生成对抗网络中融和Transformer时需要更有效的训练策略来提升模型的泛化能力,使其在HIDE这类以真实运动模糊场景为评估核心的数据集上,取得更好的结果。
Table 1. The comparison of results (PSNR/SSIM) for image denoising in mixed blur scenarios such as GoPro and Hide
表1. 在GoPro和Hide等混合模糊场景下去除结果对比(PSNR/SSIM)
数据集 |
评估方法 |
Baseline [12] |
our |
Deblur Gan [13] |
Hide |
PSNR |
26.6427 |
26.6223 |
24.8124 |
Hide |
SSIM |
0.8620 |
0.8589 |
0.7671 |
GoPro |
PSNR |
27.1458 |
27.3764 |
26.0112 |
GoPro |
SSIM |
0.8837 |
0.8881 |
0.7886 |
在真实低光照场景下的图像去模糊客观评测中(见表2),本文模型在SSIM指标上取得较好结果,这展现出其在光照不足与运动模糊耦合等复杂条件下,依然能实现稳定、高质量的去模糊效果。
Table 2. Comparison of objective results (PSNR/SSIM) for real-world image deblurring on the RealBlur dataset
表2. 在RealBlur数据集上的真实场景模糊去除的客观结果(PSNR/SSIM)对比
数据集 |
评估方法 |
Baseline [12] |
our |
Deblur Gan [13] |
RealBlur J |
PSNR |
25.5950 |
25.6807 |
26.3399 |
RealBlur J |
SSIM |
0.7982 |
0.8049 |
0.7971 |
real inage R |
PSNR |
29.9760 |
31.1520 |
32.3532 |
real inage R |
SSIM |
0.9256 |
0.9133 |
0.9006 |
在子数据集RealBlur R上,本文模型的PSNR值为31.1520 dB,较基线模型提升了1.1760 dB,但并未达到最优,这表明新模型在继承基线模型后取得了较好结果,然而,本文模型的去模糊效果与Deblur GAN相比仍有提升空间;未来的工作中,我们将考虑引入更优的网络架构,以期突破当前局限,实现更好的去模糊效果;对于RealBlur J数据集以真实昏暗场景下的复合模糊为核心特点,新模型同样未达到最优,由于峰值信噪比PSNR仅衡量底层像素差异,其与人类视觉系统基于结构感知、语义理解、纹理偏好的图像质量判断有所区别,然而,PSNR评估结果对训练过程中所选损失函数仍表现出一定敏感性,说明当前损失函数的设计尚未充分适配所引入的Transformer模块。后续工作可围绕该模块的特性,进一步优化损失函数的构成,例如引入与Transformer特征空间更匹配的损失项(如基于注意力特征图的特征匹配损失),或结合感知损失以提升复原纹理的视觉真实性,从而更充分地发挥Transformer在全局依赖建模方面的优势。整体而言,新模型的设计使模型在提升去模糊效果的同时,更好地恢复了昏暗场景中易丢失的细节与结构,进一步验证了其在真实昏暗场景模糊去除中的实用性。
如图4所示,在RealBlur J数据集上,本文将所提出的模型与基线模型以及Deblur GAN模型进行了去模糊效果的对比实验。结果表明,相较于Deblur GAN模型,本文模型能够在停车场等昏暗场景下有效恢复图像中摩托车头的细节纹理信息。这一优越表现主要得益于生成对抗网络所引入的对抗学习机制,该机制有助于提升模型对图像模糊的处理能力。此外,相较于基线模型,本文模型在墙面文字、图片标识等多处细节区域也表现出了更强的还原能力,充分验证了其在真实场景图像去模糊任务中的有效性与鲁棒性。
(1) 模糊图像 (2) 清晰图像
(3) 基线模型 (4) 本文模型
(5) DeblurGan模型
Figure 4. Comparison of subjective results of different models on the RealBlur-J dataset
图4. 在RealBlur-J数据集上不同模型的主观结果对比
4.2. 消融实验
为验证所提模块的有效性,我们在GoPro、HIDE和RealBlur三个公共数据集上进行了实验。消融实验采用与基线模型完全相同的训练和测试配置,通过在不同尺度的编码操作后分别串行所提模块,以客观评价指标对比分析其对去模糊性能的影响。
从表3的结果可以看出,基线模型在encode模块后加入新模块,在Gopro数据集上其PSNR和SSIM均有不同程度的提升,在Encode3操作后串行新模块取得效果最好,说明这该模型对中上层特征提取效果明显,且去模糊效果有提升。以下将对其作用进行具体分析,首先模型采用Gopro数据集进行训练,其对Gopro数据集的模糊去除有先天优势,其次,生成对抗网络的对抗学习机制的优势在新模型中得到了继承。但在Hide数据集上,仅在Encode3模块后融合新模型后结果达到最好。这说明针对包含复杂模糊类型的数据集Hide来说,模型融合局部–全局双元Transformer模块的位置对模型效果有明显影响。综上所述,新模型在真实模糊场景下具有一定的模糊去除能力。
Table 3. Evaluation of the impact of the new module’s position on motion blur removal performance on the HIDE and GOPRO datasets
表3. 验证新模块位置对模型效果的验证,在HIDE和GOPRO数据集上运动模糊去除效果
数据集 |
评估方法 |
Baseline [12] |
Encode4 |
Encode3 |
Hide |
PSNR |
26.6427 |
26.6223 |
26.7428 |
Hide |
SSIM |
0.8620 |
0.8589 |
0.8668 |
GoPro |
PSNR |
27.1458 |
27.3764 |
27.4811 |
GoPro |
SSIM |
0.8837 |
0.8881 |
0.8905 |
表4验证了新模块在RealBlur数据集上进行真实昏暗场景模糊去除的客观指标。结果显示,基线模型加入新模块后,其PSNR和SSIM均与基线水平相近。具体地,在编码器的第4层(较高语义尺度)和第3层(中层语义尺度)分别融合新模块时,SSIM均获得提升,且第3层的提升幅度大于第4层;但PSNR均略有下降,且第3层的下降幅度更为明显。这一现象表明,新模块在不同尺度上均能增强图像的结构相似性,有利于恢复边缘和纹理等感知质量;然而,由于不同尺度特征对像素级重建精度的影响存在差异,模块的引入可能在部分区域引入微小像素偏差,导致PSNR轻微降低;这表明可以采用自适应融合策略提升模型像素级重建的精度。在RealBlur J数据集上,在Encode3后融合新模块的情况下PSRN相较于基线提升了0.0875 dB,这表明该模块在该数据集的去模糊任务中,对昏暗场景模糊的去处更明显的作用。
Table 4. Evaluation of the impact of the new module’s position on motion blur removal performance RealBlur datasets for real-scene deblurring
表4. 验证新模块位置在对模型效果的验证,在RealBlur数据集上的真实场景模糊去除效果
数据集 |
评估方法 |
Baseline [12] |
Encode4 |
Encode3 |
RealBlur J |
PSNR |
25.5950 |
25.6807 |
25.6463 |
RealBlur J |
SSIM |
0.7982 |
0.8049 |
0.8074 |
real inage R |
PSNR |
29.9760 |
31.1520 |
29.8116 |
real inage R |
SSIM |
0.9256 |
0.9133 |
0.9201 |
5. 结束语
本文提出一种融合局部–全局双元Transformer模块(Local-Global Dual Extraction Transformer Block)的生成对抗网络用于图像去模糊。实验结果表明,该模型能有效去除运动模糊,恢复出清晰的图像。通过峰值信噪比(PSNR)和结构相似性指数(SSIM)等客观指标评估,新模型取得了较好的性能,验证了所提模块在图像去模糊任务中的有效性。未来工作将聚焦于特征融合在图像去模糊中的进一步应用。