1. 引言
图像去模糊是经典的底层视觉任务,它的目标是从观察到的模糊图像中恢复出干净图像。早期的方法[1] [2]通过模糊图像与清晰图像之间的统计学特征差异来构造各种先验模型。虽然先验模型能够处理简单的均匀模糊场景,但对于复杂退化场景的去模糊性能不佳且算法不够鲁棒。
为了克服模型驱动方法的缺点,许多先进的方法都采用CNN架构(例如[3]-[5])来实现高质量的图像去模糊。由于卷积运算局部连接与权重共享的特性,基于CNN的方法不具有消除远程模糊退化的能力。为了克服该缺点,具有全局建模能力的视觉Transformer架构(Vision Transformer, ViT)被用于图像去模糊,并且取得了良好的性能表现。
本文注意到,标准的ViT架构[6]通常通过所有的查询–键组合来计算自注意力特征以此达到融合全局特征的目的。事实上,来自于查询的令牌与来自键的令牌并不总是具有相关性[4]。因此在融合特征的过程中使用这些互不相关的令牌来计算注意力特征时会直接干扰接下来的图像恢复过程。这些发现激励我们探索最有用的自注意力值,以便能够充分利用这些注意力来进行图像恢复。
为此,本文开发了一种端到端的判别式稀疏门控Transformer网络(Discriminative Sparse Gated Transformer, DSGformer)用于图像去模糊任务。具体而言,DSGformer框架通过判别式稀疏注意力模块(Discriminative Sparse Gated Attention, DSGA)来保留最有用的自注意力分数,以此提升去模糊性能。进一步地,DSGA模块包含两个核心部分:动态加权的Top-k稀疏注意力分数(Dynamic Top-k Sparse Attention Score, DTSAS)与判别式频域门控模块(Discriminative Frequency-domain Gated Block, DFGB)。其中,DTSAS用于代替传统的注意力分数,通过Top-k稀疏选择与ReLU2稀疏激活保留相关性较强的注意力分数,实现有效的通道特征融合。
此外,在特征融合的过程中,并不是所有的高频与低频信息都对图像恢复有帮助。为了产生更有效的特征用于恢复图像,本文设计了一种简单有效的基于频域的判别式门控模块DFGB。该模块是由联合摄影专家组压缩算法(Joint Photographic Experts Group, JPEG)驱动的。它在门控模块中引入一种频域判别学习机制,以确定应该保留哪些高频与低频信息用于图像恢复。
综上,本文提出的DSGformer模型的主要贡献如下:
(1) 本文提出了一种动态加权的Top-k稀疏注意力分数模块DTSAS用于计算注意力分数。DTSAS同时结合了Top-k稀疏选择与ReLU2稀疏激活,能够有效地降低全局令牌交互带来的冗余表示,消除不相关或弱相关的注意力分数,保留相关性较强的注意力分数,使模型实现有效的通道特征融合。
(2) 本文提出一种判别式频域门控模块DFGB用于融合空间特征。DFGB能够在频域中自适应地保留并且增强对图像恢复最有用的频率分量。此外,通过判别式频域学习后的门控特征,能够直接与注意力特征进行融合,实现高效的空间信息交互。
(3) 本文将DTSAS与DFGB组成了一个能够同时融合通道与空间特征的深度稀疏门控注意力模块DSGA,并且利用DGSA模块构建了一个对称的编码–解码网络DSGformer用于图像去模糊。在基准数据集上的实验证明了本章方法的有效性。
Figure 1. The neural network architecture. (a) The overall architecture of the deep sparse gated transformer. (b) Deep sparse gated attention. (c) Dynamic Top-k sparse attention scores. (d) Discriminative frequency-domain gated block. (e) Symbol explanation
图1. 本章提出的神经网络架构。(a) 深度稀疏门控Transformer的整体架构。(b) 深度稀疏门控注意力。(c) 动态Top-k稀疏注意力分数。(d) 判别式频域门控模块。(e) 符号说明
2. 算法框架
2.1. 判别式稀疏门控注意力
与一般的ViT [6]不同的是,DSGA模块在将输入特征投影为
时,还会额外地投影出一个门控特征U。也就是说,DSGA模块会将输入特征投影为四元组
。具体有:
其中,LN()为层归一化,
为
逐点卷积,
为
深度卷积。
动态Top-k稀疏注意力分数。本文注意到,现有的大多数基于Transformer图像恢复模型(例如IPT [7]与Restormer [8]等)中,一般采用标准的点积缩放自注意力机制:
需要注意的是,这样的简单自注意力模式是基于密集的全连接操作,而本文提出了DTSAS来替代它,从而有效地避免无效信息参与特征交互过程。具体而言,首先利用查询与键计算像素对之间的相似度,再利用一个二值掩码屏蔽取值较小的注意力分数。使用Top-k操作实现了对前k个贡献度大的分数的自适应选择,这里
是一个可调节参数,能够控制稀疏程度的大小。因此,这样仅使用注意力分数每一行的前k个最大值激活,而剩余的注意力分数均替换为0。因此这种选择方式能够使注意力的计算模式从密集转化为稀疏,具体由如下的公式导出:
其中,
为可学习的分配权重,
为Top-kn选择算子:
对于一个输入特征
,Top-k选择算子只保留每一行特征中最大的k个分量,将不相关的特征融合结果丢弃。
代表第i行中的第
个最大分量,也就是第i行的阈值。动态Top-k稀疏注意力分数的结构如图1(c)所示。
判别式频域门控模块。并非所有的高频信息与低频信息都有利于清晰图像的恢复。因此我们开发了一种能够自适应地确定应该保留那些频率信息的判别式频域门控模块DFGB。但如何有效地确定哪些频率信息十分重要。具体而言,在JPEG压缩算法的启发下,我们通过引入一个可学习的量化矩阵
并通过JPEG压缩的逆方法来学习它,以确定保留哪些频率信息。利用判别式频域门控模块对门控特征进行特征变换:

其中,
与
代表JPEG压缩算法中的块展开与块折叠算子;
与
分别代表实部Fourier变换及其逆变换;
为为可学习的量化矩阵;GELU()为GELU激活函数。判别式频域门控模块的具体结构如图1(d)所示。
之后,将注意力特征
与激活的门控特征
进行逐点乘法实现空间特征融合:
最后利用输出投影与残差连接得到最终的变换结果:
其中,
为
逐点卷积。
2.2. 编码解码网络DSGformer
编码解码网络DSGformer主要由四部分组成:头部(Head),编码器(Encoder),解码器(Decoder)与尾部(Tail)。DSGformer将输入退化图像B输入头部后,经过编码解码处理,再由尾部输出最终的恢复图像。每一部分的具体细节如下:
头部。模糊图像
首先输入头部
,即经过一个
的卷积层,由此得到浅层特征H,将架构头部的参数记为
,该过程可以表示为:
其中,
代表特征的空间维数,C代表通道数。
编码器。浅层特征H作为编码器
的输入,通过四层的编码器
得到四个中间特征
:
其中,
为编码器的参数,四个中间特征的维数分别为:
解码器。解码器将四个中间特征作为输入,将它们解码为一个深度特征D:
其中,
为解码器参数。
尾部。利用一个
的卷积层作为尾部将深度特征D转化为残差图T,再与输入图像B进行残差连接,得到恢复图像:
其中,
为尾部参数。
给定一幅模糊图像B,目标架构通过学习残差的形式得到最终的恢复图像S:
其中,
代表DSGformer,由头部,编码器,解码器与尾部等四部分按照函数复合的形式组成。具体地,
通过如下方式定义:
因此,参数集
为DSGformer的网络参数。
3. 数值实验
3.1. 实验设置
本文在PyTorch深度学习环境下搭建、训练与测试DSGformer。训练过程在1块NVIDIA RTX 3060 12GB GPU上进行。使用AdamW优化器对参数集进行迭代更新。损失函数采用L1损失。另外,提出的模型在GoPro数据集上训练3000轮,学习率初始化为2e−4。根据不同的学习率调度方式,将3000训练轮次分为两个阶段:前10轮为线性预热阶段,后2990轮利用余弦退火算法将学习率从2e−4衰减到1e−6。在训练DSGformer时,批量大小设置为8。与先进的图像恢复方法类似,DSGformer在每次接收图像数据后,随机从图像中裁剪出一个尺寸为256图像块,再对图像块进行随机的几何增强。
3.2. 数据集
本文的方法在GoPro数据集[3]上进行训练与测试。GoPro数据集包含了2103对训练图像以及1111对测试图像。
3.3. 与先进方法的对比
对比方法。为了评估神经网络的性能,将目标方法与最新的先进算法进行比较,例如基于CNN的方法:MPRNet [9]、ConvIR [5]。我们还与先进的基于ViT的算法进行了比较,包括:Restormer [8]、Stripformer [10]、以及MB-TaylorFormer-V2 [11]。
Table 1. Comparison of quantitative evaluations for different methods on the GoPro dataset
表1. 不同方法在GoPro数据集上的性能评估结果
去模糊方法 |
平均PSNR |
平均SSIM |
模型参数量 (M) |
MPRNet (CVPR 2021) |
32.66 |
0.959 |
20.1 |
Restormer (CVPR 2022) |
32.92 |
0.961 |
26.1 |
Stripformer (ECCV 2022) |
33.08 |
0.962 |
19.7 |
ConvIR (TPAMI 2024) |
33.28 |
0.963 |
14.83 |
MB-TaylorFormer-V2 (TPAMI 2025) |
33.24 |
0.963 |
7.29 |
DSGformer (本文方法) |
33.72 |
0.966 |
15.57 |
在GoPro数据集上的评估结果。表1给出了不同方法在GoPro数据集上的定量比较结果。与基于CNN架构的ConvIR相比,PSNR能够提高0.44 dB。与先进的ViT架构的算法MB-TaylorFormer-V2相比,目标方法能够取得0.48 dB的PSNR性能增益。另外,图2展示了一个具体的视觉对比实例。可以看出我们提出的DSGformer则同时能够恢复更多的细节信息,得到与真实图像最接近的结果。
Figure 2. The visual comparison examples from the GoPro dataset
图2. 一个来自GoPro数据集的去模糊视觉对比实例
3.4. 消融实验
本次消融实验在真实数据集RealBlur-J [12]上进行。
DSGA模块的有效性。为了研究深度稀疏门控注意力的有效性,本节将其替换为多头转置自注意力[8] (Multi-Deconv Head Transposed Attention, MDTA)。表的结果可以看出,当门控模块固定时,使用DSGA会比使用MDTA带来更好的性能增益。这也说明使用深度稀疏门控注意力能够有效地消除负相关与冗余令牌,得到紧凑且相关性强的注意力计算结果,能够有效地促进清晰图像重建。
DFGB模块的有效性。为了研究判别式频域门控模块的有效性,本节使用GELU激活与SimpleGate进行替换。表2的结果可以看出,当注意力模块固定时,使用DFGB模块能够获得最佳的性能收益,GELU激活与SG都无法使模型达到最好的性能。这是因为DFGB模块在融合空间特征时,能够在频域进行判别学习,消除无用的高低频信息,增强空间特征的聚合能力。
Table 2. Effectiveness analysis of the proposed modules in the target model on the RealBlur-J dataset
表2. 目标模型提出的模块在RealBlur-J数据集上的有效性分析
对比方法 |
SimpleGate |
GELU |
ReLU |
ReLU2 |
Softmax |
PSNR |
SimpleGate + ReLU |
√ |
× |
√ |
× |
× |
30.29 |
SimpleGate + ReLU2 |
√ |
× |
× |
√ |
× |
31.61 |
SimpleGate + Softmax |
√ |
× |
× |
× |
√ |
30.76 |
GELU + Softmax |
× |
√ |
× |
× |
√ |
30.89 |
GELU + ReLU |
× |
√ |
√ |
× |
× |
30.09 |
GELU + ReLU2 (本文方法) |
× |
√ |
× |
√ |
× |
31.56 |
4. 结论
本文提出DSGformer,一种基于Top-k稀疏选择和频域判别学习的视觉Transformer,用于图像去模糊。研究发现,传统注意力机制中存在大量不相关或低相关性的图像块,仅少数关键令牌主导图像恢复。为此,DSGformer采用Top-k稀疏选择和ReLU2稀疏激活来消除冗余注意力表示,并通过频域判别学习模块自适应保留有用特征。实验表明,该方法在去模糊任务中具有竞争优势。