基于Transformer和不可分加性小波的图像超分辨率重建
Image Super-Resolution Reconstruction Based on Transformer and Non-Separable Additive Wavelet
DOI: 10.12677/JISP.2023.121005, PDF, HTML, XML, 下载: 396  浏览: 881  国家自然科学基金支持
作者: 刘 斌, 杜丹丹:湖北大学计算机与信息工程学院,湖北 武汉
关键词: Transformer不可分加性小波超分辨率重建计算机视觉深度学习注意力机制Transformer Non-Separable Additive Wavelet Super-Resolution Reconstruction Computer Vision Deep Learning Attention Mechanism
摘要: 针对目前超分辨率重建存在纹理模糊、扭曲等问题,提出了一种基于Transformer和不可分加性小波的网络。该网络由小波分解模块、纹理提取模块、浅层特征提取模块、用于纹理匹配的相关嵌入模块、纹理传输模块、用于纹理融合的跨尺度集成模块共六个模块组成。我们对此网络的重建性能在相关的测试数据上与已有的典型方法进行了对比研究,实验结果表明,该网络不仅提升了视觉效果,而且获得了较好的客观指标评价,在所比较的六种方法中,所构建网络在CUFED5、Sun80和Manga109数据集上的峰值信噪比(PSNR)和结构相似度(SSIM)都具有最佳性能。
Abstract: Aiming at the problems of texture blur and distortion in super-resolution reconstruction, a network based on Transformer and non-separable additive wavelet is proposed. The network consists of six modules: Wavelet Decomposition module, Texture Extraction module, Shallow Feature Extraction module, Relevance Embedding module for texture matching, Texture Transmission module, and Cross Scale Integration module for texture fusion. We compared the reconstruction performance of this network with the existing typical methods on the relevant test data. The experimental results show that this network not only improves the visual effect, but also obtains better objective index evaluation. Among the six methods compared, the peak signal to noise ratio (PSNR) and structure similarity (SSIM) of the constructed network on CUFED5, Sun80 and Manga109 datasets have the best performance.
文章引用:刘斌, 杜丹丹. 基于Transformer和不可分加性小波的图像超分辨率重建[J]. 图像与信号处理, 2023, 12(1): 40-50. https://doi.org/10.12677/JISP.2023.121005

1. 引言

图像超分辨率(Super Resolution, SR)重建是在低分辨率(Low Resolution, LR)图像的基础上,获得高分辨率(High Resolution, HR)图像,属于计算机视觉领域的重要分支之一,可以为目标检测、图像分类等任务提供服务,以提高准确性和正确率。图像超分辨率重建不仅可以应用于医学、遥感等领域,而且让图像分辨率不再受限于昂贵的硬件条件。

传统的超分辨率重建分为三类:① 基于插值法的超分辨率重建。② 基于重建法的超分辨率重建。③ 基于学习法的超分辨率重建,这里的学习是浅层学习。主要包括机器学习、稀疏编码等方法。近年来,由于深度学习的快速发展,浅层学习法中的机器学习逐渐演变成基于深度学习的超分辨率重建。

2014年,香港中文大学的团队提出的SRCNN [1] 是首次使用深度学习来进行图像重建的算法,之后该团队又提出了FSRCNN [2]。Jiwon Kim等人也改进了SRCNN,提出了VDSR [3] 和DRCN [4]。2017年,Christian Ledig [5] 等人提出了SRResNet和SRGAN,使用了带有跳跃连接的深度残差网络(ResNet)。而且SRGAN里首次将生成对抗网络(Generative Adversarial Networks, GAN)应用于SR领域,并将感知损失函数 [6] (Perceptual Loss)表示为内容损失(Content Loss)和对抗性损失(Adversarial Loss)的加权和。韩国首尔国立大学的团队以SRResGAN为基础,提出了EDSR [7],改进了残差单元,删除了BN层。Wang等人则在SRGAN和EDSR的基础上,提出了ESRGAN [8],在网络结构上使用了RRDB作为基本构建模块。以上方法都是单图像超分辨率重建(Single Image Super-Resolution, SISR),传统的SISR方法通常会导致模糊效果,因为高分辨率纹理在退化成低分辨率图像过程中被过度破坏,无法恢复。

而在基于参考的图像超分辨率重建(Reference-based Image Super-Resolution, RefSR)方面,郑等人先利用块匹配提出了SS-Net [9]。之后郑等人又提出了CrossNet [10],使用了编码器、跨尺度扭曲、解码器,解决了块间不匹配、网格效应和优化不高效的问题。为了增强模型的鲁棒性,Zhang等人提出了SRNTT [11]。SRNTT对预训练的VGG中提取的参考图像纹理和LR图像纹理进行多级匹配,然后根据纹理相似度自适应地完成纹理转换,这样即使在参考图像和LR图像相似度极低时,模型也与SISR性能相等。2020年,Yang等人首次将Transformer架构引入RefSR任务,提出了TTSR [12] 模型。

但是有些模型在恢复纹理过程中,会出现伪影、模糊、失真等问题,针对这些问题,本文提出了一种基于Transformer和不可分加性小波的模型(Image Super-Resolution by Transformer and Non-Separable Additive Wavelet,简称为SRTW)。

2. 相关知识

2.1. Transformer中的注意力机制

Transformer [13] 是谷歌在2017年提出的一种网络结构,它属于Seq2Seq模型,但不同于RNN、CNN,而是完全采用自注意力机制,如图1所示。应用注意力机制时,Transformer首先通过矩阵运算将输入映射至三个关键向量Q (Query,查询)、K (Key,键)、V (Value,值),通过将Q向量与要打分的K向量的点积相乘来计算关联度分数。为了避免点积之后获得太大的值,需要对点积之后的矩阵进行缩放,并通过softmax激活函数将数据归一化。然后将每个V向量乘softmax分数,最后对加权向量进行求和,得到自注意层的输出。

Figure 1. Attention mechanism in transformer

图1. Transformer中的注意力机制

2.2. 不可分小波

图像是二维的,但传统的张量积小波只是用一维小波分别对图像的行和列进行处理,并没有做到行列同时处理。而不可分小波在能对图像行、列一起处理的同时,也解决了张量积小波不具有对称性(Haar小波除外)所带来的边缘失真问题。

Chen [14] 等人提出了高维具有紧支撑性和正交性的非张量积小波滤波器组的一般构造方法,我们在

此基础上构造二维二通道滤波器组 [15],设伸缩矩阵为 [ 1 1 1 1 ] , s = 2 ,构造 X ( x , y ) = ( 1 , x y ) D ( x , y ) = [ 1 0 0 x y ] ,那么滤波器组可表示为:

( m 0 ( x , y ) , m 1 ( x , y ) ) = 1 2 ( 1 , x y ) j = 1 k ( U j D ( x , y ) U j T ) V (1)

其中 x = exp ( i ω 1 ) , y = exp ( i ω 2 ) U j ( j = 1 , 2 , , K ) , V / 2 = ( V 0 , V 1 ) / 2 均是正交阵, V 1 是2 × 1的向量, V 0 = ( 1 , 1 ) T

为构造二通道6 × 6的小波滤波器组,取 K = 4 U i 和V如式(2):

U 1 = ( cos ( α 1 ) sin ( α 1 ) sin ( α 1 ) cos ( α 1 ) ) , U 2 = ( cos ( α 2 ) sin ( α 2 ) sin ( α 2 ) cos ( α 2 ) ) , U 3 = ( sin ( α 3 ) cos ( α 3 ) cos ( α 3 ) sin ( α 3 ) ) , U 4 = ( sin ( α 4 ) cos ( α 4 ) cos ( α 4 ) sin ( α 4 ) ) , V = ( 1 1 1 1 ) (2)

可验证 U j ( j = 1 , 2 , 3 , 4 ) 均为正交矩阵, V / 2 为正交阵。

为构造具有对称的滤波器组,取 α 1 = 3 π 4 , α 2 = π 2 , α 3 = π 4 , α 4 = π 2 ,代入式(1)后,可得 m 0 ( x , y ) 的时域形式:

H 0 = 1 8 [ 1 0 0 0 0 0 0 3 0 0 0 0 0 0 2 0 0 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 0 0 1 ] (3)

可以验证,此滤波器不能分解为两个一维滤波器的张量积,因此是二通道对称不可分小波滤波器。

3. 方法

3.1. 整体结构

SRTW的网络结构如图2所示。输入为LR、Ref、LR↑、Ref↑↓四种图像,LR是低分辨率图像,Ref是参考图像,LR↑是LR图像经过4倍双三次插值上采样的图像,Ref↑↓是Ref图像经过4倍双三次插值上下采样的图像,目的是和LR↑图像保持域一致 [12] (即都是经过双三次变换得到的)。

Figure 2. SRTW network structure

图2. SRTW网络结构

LR↑、Ref↑↓先通过小波分解模块(WD)得到LR↑的高频、Ref↑↓的高频,再和Ref一起送入纹理提取模块(TE),得到向量Q、K、V (1×、2×、4×)。Q、K通过相关嵌入模块(RE)得到Q、K最相关位置H和值S。通过纹理传输模块(TT)对V取H位置得到T(1×、2×、4×)。T、S和LR图像经过浅层特征提取(SFE)得到的特征图F一起送入跨尺度集成模块(CSI),将不同尺度的图像进行融合,得到最终的超分辨率图像。

3.2. 小波分解模块(WD)

Nunez [16] 等人在1999年提出了加性小波,不需要高通滤波器,只需要低通滤波器H0对图像进行卷积得到低频信息pi,而高频信息wi通过原图像减去低频信息得到。设p0为原始图像,分解公式为:

H 0 ( p 0 ) = p 1 , w 1 = p 0 p 1 , H 0 ( p 1 ) = p 2 , w 2 = p 1 p 2 , H 0 ( p 2 ) = p 3 , w 3 = p 2 p 3 , (4)

将各级高频信息和最后的低频信息相加,即可重构原图像。重构公式为:

p 0 = i = 1 n w i + p r (5)

其中pr是最后一层分解的低频图像。在小波分解模块中,将LR↑、Ref↑↓分别进行一层分解,输出相对应的w1

3.3. 纹理提取模块(TE)

利用了迁移学习,将VGG19 [17] 的前12层作为纹理提取模块的网络结构,并将参数初始化为已经训练好的VGG19参数,在训练过程中,该模块参数也一起训练。为了减少计算量,没有将Q和K像V一样分三次输出。该模块结构如下图3所示:

Figure 3. TE network structure

图3. TE网络结构

3.4. 浅层特征提取模块(SFE)

受到ResBlock + CBAM [18] 的启发,SFE网络也采取了通道注意力和空间注意力两者兼顾的方法,同时和残差网络相结合。由于在EDSR [7] 的文章中,已经证实BN层不仅会拉伸图像本身的色彩、对比度,使得输出图像产生不可预测的伪影,而且去掉BN层节约下来的空间可用于插入更多残差块来增加模型的表现力,因此本文删除了BN层,同时多次重复该模块。该模块结构如下图4所示:

Figure 4. SFE network structure

图4. SFE网络结构

3.5. 相关嵌入模块(RE)

相关嵌入模块用Q、K的归一化内积来表示Q、K之间的相关性,如式(6)所示, R i , j 大小为 [ N , ( H R e f / 4 ) × ( W R e f / 4 ) , ( H L R / 4 ) × ( W L R / 4 ) ]

r i , j = q i q i , k j k j , i [ 1 , H L R 4 × W L R 4 ] , j [ 1 , H R e f 4 × W R e f 4 ] (6)

取相关性最大的值和对应下标,如式(7)、(8)所示,分别组成软注意力图S和硬注意力图H,大小均为 [ N , ( H L R / 4 ) × ( W L R / 4 ) ]

h i = arg max j ( r i , j ) (7)

s i = max j ( r i , j ) (8)

3.6. 纹理传输模块(TT)

纹理传输模块用于纹理传输,得到Ref图像的不同尺度纹理特征图H位置的纹理特征,如式(9)所示,其中 t i 是T的第i个位置,由V的第 h i 个位置得到。

t i = v h i (9)

3.7. 跨尺度集成模块(CSI)

跨尺度特征模块首先将Ref图像的纹理特征融合进LR图像中,然后将不同尺度的图像集成在一起,该模块结构如下图5所示。

融合过程如式(10)、(11)、(12)所示,其中concat表示串联,conv表示卷积, 表示特征图的元素相乘。

x 11 = F + conv ( concat ( F , T 3 ) ) S 1 X (10)

x 22 = x 21 + conv ( concat ( x 21 , T 2 ) ) S 2 X (11)

x 33 = x 32 + conv ( concat ( x 32 , T 1 ) ) S 4 X (12)

之后通过亚像素卷积 [19] 来进行小尺度到大尺度的上采样,并和大尺度的特征在通道维度上进行串联,然后通过卷积映射成原始的通道数。整个过程中配合着残差块,加强原始信息。

Figure 5. CSI network structure

图5. CSI网络结构

3.8. 损失函数

本文采用重建损失作为损失函数:

L r e c = 1 C H W I H R I S R 1 (13)

其中C、H、W分别是HR图像的通道数、高、宽。在L1损失和L2损失中,由于L1损失性能更高,容易收敛 [12],因此本文选择了L1损失。

4. 实验与结果

本文使用一块16GB的GPU (NVIDIA Quadro TRX 5000),并在基于GPU版本的Pytorch1.11.0框架下训练模型。在训练过程中,采用Adam [20] 对网络进行优化,设置批数量大小是16,初始学习率为10−4,训练200次后学习率减半,共训练300次。

4.1. 数据集

本文在RefSR基准数据集CUFED5 [11] 上训练并测试了模型。CUFED5的训练集有11,871对,每对由输入图像和参考图像组成,测试集有126幅测试图像,每幅图像都有从高到低的多个相似度级别的参考图像。为了评估在CUFED5上训练的SRTW的泛化性能,本文另外在Sun80和Manga109上进行了测试。对于Sun80数据集,将其LR图像视为参考图像。对于同样缺少参考图像的Manga109数据集,随机抽取该数据集中的HR图像作为参考图像。

在训练过程中,通过随机水平和垂直翻转,随机旋转90˚、180˚、270˚来增强训练图像。每个小批量包含16个大小为40 × 40的LR图像,以及16个大小为160 × 160的HR和Ref图像。

4.2. 结果分析

为了评估本文模型的有效性,将本文的SRTW模型与其他SISR和RefSR方法进行比较。SISR方法包括Nearest、Bicubic、SRCNN [1]、SRGAN [5]。RefSR方法包括SRNTT [11]。所有实验均按4倍比例放大系数来对LR和HR图像进行定量评估。为了公平比较每个模型性能的优劣,按照SRNTT中的设置来训练所有方法。对SRTW的定量评估与定性评估结果如表1所示。通过表1可以看出,SRTW在CUFED5、Sun80和Manga109数据集上都具有最佳性能。

Table 1. PSNR/SSIM comparison of different algorithms on three different datasets

表1. 在三个不同数据集上不同算法的PSNR/SSIM比较

注:加粗部分代表第一高分,下划线部分代表第二高分。

图6~8分别展示了对CUFED5、Sun80、Manga109数据集所选图片使用Nearest、Bicubic、SRCNN、SRGAN、SRNTT、SRNTT-rec和SRTW方法进行超分辨重建的结果。(SRNTT使用了可以提高视觉质量但降低PSNR的对抗性损失,在PSNR/SSIM上会弱于SRNTT-rec,但会获得更高的视觉质量 [11]。)

(a) 原始图像 (b) 参考图像 (c) Nearest恢复图像 (d) Bicubic恢复图像 (e) SRCNN恢复图像 (f) SRGAN恢复图像 (g) SRNTT恢复图像 (h) SRNTT-rec恢复图像 (i) SRTW恢复图像

Figure 6. Comparison of reconstruction results of different models on CUFED5: 007 image

图6. 在CUFED5:007图像上不同模型重建结果对比

(a) 原始图像 (b) 参考图像 (c) Nearest恢复图像 (d) Bicubic恢复图像 (e) SRCNN恢复图像 (f) SRGAN恢复图像 (g) SRNTT恢复图像 (h) SRNTT-rec恢复图像 (i) SRTW恢复图像

Figure 7. Comparison of reconstruction results of different models on SUN80: 001 image

图7. 在SUN80:001图像上不同模型重建结果对比

(a) 原始图像 (b) 参考图像 (c) Nearest恢复图像 (d) Bicubic恢复图像 (e) SRCNN恢复图像 (f) SRGAN恢复图像 (g) SRNTT恢复图像 (h) SRNTT-rec恢复图像 (i) SRTW恢复图像

Figure 8. Comparison of reconstruction results of different models on MANGA109: Jyovolley image

图8. 在MANGA109:Jyovolley图像上不同模型重建结果对比

图6中,Nearest恢复图像很模糊,有一根蜡烛只恢复了一部分,Bicubic恢复图像同样模糊,SRGAN恢复图像不仅模糊,还有许多伪影。SRNTT恢复图像和SRNTT-rec恢复图像里都有一根蜡烛存在伪影,且SRNTT-rec恢复图像里花纹更加模糊。SRCNN恢复图像整体不错,但是SRTW恢复图像更加清晰,尤其是蜡烛部分。

图7中,Nearest恢复图像有明显的锯齿感,SRGAN恢复图像颜色失真,SRCNN恢复图像十分模糊,SRNTT恢复图像左侧线条有些扭曲,Bicubic恢复图像和SRNTT-rec恢复图像整体不错,但SRTW恢复图像的线条更加深刻。

图8中,Nearest恢复图像也有明显的锯齿感,SRGAN恢复图像颜色失真,SRCNN恢复图像和Bicubic恢复图像有不同程度的模糊。SRNTT恢复图像和SRNTT-rec恢复图像整体不错,但是SRTW恢复图像的线条更加深刻。

5. 结论

本文提出了一种新的基于参考的图像超分辨率重建模型来生成高分辨率图像。结合不可分加性小波提升Transformer对高频信息的注意力,对细节进一步强调,浅层特征提取模块加强了原图像信息,跨尺度集成模块使得不同尺度的特征可以交换信息,获得更强大的特征表示能力。实验结果表明,所提SRTW在主观视觉与客观指标上都有所优化,即使在参考图像就是LR图像(变成单图像超分辨率重建)或参考图像与真实图像相关性很低的情况下,SRTW也能获得更清晰、准确的重建图像。

基金项目

国家自然科学基金面上项目(No. 61471160)。

参考文献

[1] Dong, C., Loy, C.C., He, K., et al. (2014) Learning a Deep Convolutional Network for Image Super-Resolution. European Conference on Computer Vision, Zurich, 6-12 September 2014, 184-199.
https://doi.org/10.1007/978-3-319-10593-2_13
[2] Dong, C., Loy, C.C. and Tang, X. (2016) Accelerating the Super-Resolution Convolutional Neural Network. European Conference on Computer Vision, Amsterdam, 11-14 October 2016, 391-407.
https://doi.org/10.1007/978-3-319-46475-6_25
[3] Kim, J., Lee, J.K. and Lee, K.M. (2016) Accurate Image Super-Resolution Using Very Deep Convolutional Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, 27-30 June 2016, 1646- 1654.
https://doi.org/10.1109/CVPR.2016.182
[4] Kim, J., Lee, J.K. and Lee, K.M. (2016) Deeply-Recursive Convolutional Network for Image Super-Resolution. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, 27-30 June 2016, 1637- 1645.
https://doi.org/10.1109/CVPR.2016.181
[5] Ledig, C., Theis, L., Huszár, F., et al. (2017) Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, 21-26 July 2017, 4681-4690.
https://doi.org/10.1109/CVPR.2017.19
[6] Johnson, J., Alahi, A., et al. (2016) Perceptual Losses for Real-Time Style Transfer and Super-Resolution. European Conference on Computer Vision, Amsterdam, 11-14 October 2016, 694-711.
https://doi.org/10.1007/978-3-319-46475-6_43
[7] Lim, B., Son, S., Kim, H., et al. (2017) Enhanced Deep Residual Networks for Single Image Super-Resolution. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, Honolulu, 21-26 July 2017, 136-144.
https://doi.org/10.1109/CVPRW.2017.151
[8] Wang, X., Yu, K., Wu, S., et al. (2018) Esrgan: Enhanced Super-Resolution Generative Adversarial Networks. Proceedings of the European Conference on Computer Vision (ECCV) Workshops, Munich, 8-14 September 2018, 63-79.
https://doi.org/10.1007/978-3-030-11021-5_5
[9] Zheng, H., Ji, M., Han, L., et al. (2017) Learning Cross-Scale Correspondence and Patch-Based Synthesis for Reference-Based Super-Resolution. Proceedings of the British Machine Vision Conference, London, 4-7 September 2017, Article No. 138.
https://doi.org/10.5244/C.31.138
[10] Zheng, H., Ji, M., Wang, H., et al. (2018) Crossnet: An End-to-End Reference-Based Super Resolution Network Using Cross-Scale Warping. Proceedings of the European Conference on Computer Vision (ECCV), Munich, 8-14 September 2018, 88-104.
https://doi.org/10.1007/978-3-030-01231-1_6
[11] Zhang, Z., Wang, Z., Lin, Z., et al. (2019) Image Super-Resolution by Neural Texture Transfer. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, 15-20 June 2019, 7982-7991.
https://doi.org/10.1109/CVPR.2019.00817
[12] Yang, F., Yang, H., Fu, J., et al. (2020) Learning Texture Transformer Network for Image Super-Resolution. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 13-19 June 2020, 5791-5800.
https://doi.org/10.1109/CVPR42600.2020.00583
[13] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, 4-9 December 2017, 30.
[14] Chen, Q.H., Micchelli, C.A., Peng, S.L., et al. (2003) Multivariate Filter Banks Having Matrix Factorizations. SIAM Journal on Matrix Analysis and Applications, 25, 517-531.
[15] 刘斌, 彭嘉雄. 基于二通道不可分加性小波的多光谱图像融合[J]. 光学学报, 2007(8): 1419-1424.
[16] Nunez, J., Otazu, X., Fors, O., et al. (1999) Multiresolution-Based Image Fusion with Additive Wavelet Decomposition. IEEE Transactions on Geoscience and Remote Sensing, 37, 1204-1211.
https://doi.org/10.1109/36.763274
[17] Simonyan, K. and Zisserman, A. (2014) Very Deep Convolutional Networks for Large-Scale Image Recognition. 3rd International Conference on Learning Representations (ICLR 2015), San Diego, 7-9 May 2015, 1-14.
[18] Woo, S., Park, J., Lee, J.Y., et al. (2018) Cbam: Convolutional Block Attention Module. Proceedings of the European Conference on Computer Vision (ECCV), Munich, 8-14 September 2018, 3-19.
https://doi.org/10.1007/978-3-030-01234-2_1
[19] Shi, W., Caballero, J., Huszár, F., et al. (2016) Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, 27-30 June 2016, 1874-1883.
https://doi.org/10.1109/CVPR.2016.207
[20] Kingma, D.P. and Ba, J. (2014) Adam: A Method for Stochastic Optimization. arXiv: 1412.6980.