基于深度学习的单图超分辨率研究
Deep Learning-Based Single Image Super-Resolution Research
DOI: 10.12677/jisp.2024.134038, PDF, HTML, XML,    科研立项经费支持
作者: 廖可心, 陆利坤, 曾庆涛, 李超超, 王 彤:北京印刷学院学院信息工程学院,北京
关键词: 图像超分辨率深度学习评价指标Image Super-Resolution Deep Learning Evaluation Metrics
摘要: 图像超分辨率重建(Image Super-Resolution)是一种计算机视觉技术,其目标是将一张低分辨率图像(LR)恢复成高分辨率图像(SR),以达到提高图像质量、改善人眼视觉效果的目的。随着科学技术的发展,深度学习与图像超分辨率重建结合极大地提升了图像处理的能力和效果。其中,单图像超分辨率(Single Image Super-Resolution, SISR)是指从单张低分辨率图像生成高分辨率图像的技术,单图超分辨率旨在从一张低分辨率的图像生成对应的高分辨率图像,而不依赖于额外的信息或多张图像。本文介绍了图像超分辨率的背景以及发展过程,对近年单图超分辨率重建方法进行了比较,并讨论了单图超分辨率面临的挑战。
Abstract: Image Super-Resolution (SR) is a computer vision technique aimed at reconstructing a high-resolution image (HR) from a low-resolution image (LR), with the goal of improving image quality and enhancing visual experience. With advancements in science and technology, the combination of deep learning with image super-resolution has significantly enhanced image processing capabilities and results. Single Image Super-Resolution (SISR) refers to the technique of generating a high-resolution image from a single low-resolution image, focusing on recovering the corresponding high-resolution image without relying on additional information or multiple images. This paper provides an overview of the background and development of image super-resolution, compares recent methods for single image super-resolution reconstruction, and discusses the challenges faced by single image super-resolution.
文章引用:廖可心, 陆利坤, 曾庆涛, 李超超, 王彤. 基于深度学习的单图超分辨率研究[J]. 图像与信号处理, 2024, 13(4): 440-456. https://doi.org/10.12677/jisp.2024.134038

1. 引言

在这个科技飞速发展的时代,图像因其具有直观性和生动性的特点使其在传递信息时具备强大的影响力,已经成为一种信息的重要媒介,无论是新闻报道、社交媒体、广告宣传,还是学术研究、教育,图像都扮演着不可或缺的角色。图像质量的重要性不言而喻,高质量的图像不仅能够准确传达信息,还能够吸引观众的注意力,提高内容的可读性和可视性。反之,低质量的图像可能会导致信息失真,甚至影响对图像内容的理解和接受程度。在医学影像、卫星遥感和视频监控等领域,图像质量直接关系到诊断、监测和分析的准确性与有效性。因此,提高图像质量不仅是技术发展的需求,也是满足社会多元化信息需求的必然趋势。高质量图像的获取、处理和传输已经成为各行业关注的重点[1] [2]

目前提高图像质量有两个途径,分别是硬件和软件。使用更为昂贵的成像设备可以有效改善图像质量下降的问题,但该方法成本较高,并且不能保证在所有情况下都能达到理想的效果。针对这一问题,许多软件层面的图像处理技术被提出,以提高图像质量。其中一种重要的技术是图像超分辨率重建,它通过恢复高频细节和增加像素级别的信息,将低分辨率图像转换为高分辨率图像,该过程涉及对图像细节的恢复与重建,使得生成的高分辨率图像在视觉上更加清晰和逼真。

由于其容易上手、成本低的原因,图像超分辨率重建技术在医学成像[3]、卫星图像[4]、古籍修复[5]等多个领域具有广泛应用。早期的超分辨率技术主要依赖于插值和滤波等基本信号处理方法,如双三次插值、插值滤波器等。在2014年,Dong等人[6]提出了一种基于卷积神经网络(CNN)的图像超分辨率方法。这项研究引入了一个名为SRCNN (Super-Resolution Convolutional Neural Network)的网络结构,首次将深度学习成功应用于图像超分辨率任务。该网络由三层卷积层组成,直接学习低分辨率和高分辨率图像之间的映射关系,从而开启了图像超分辨率领域的深度学习时代。

单图超分辨率(Single Image Super-Resolution, SISR)重建是指根据一张低分辨率图像来还原出其对应的高分辨率图像的过程,这一过程涉及从有限的信息中推断出缺失的细节。本文从单图超分辨率重建算法出发,对高分辨率图像重建的算法、数据集以及评价指标进行概述,将主流的算法进行客观比对。图1为单图超分辨率的研究分类。

Figure 1. Classification of Single Image Super-Resolution (SISR)

1. 单图超分辨率分类

2. 传统超分辨率重建方法

传统的超分辨率算法可以分为三类,分别是基于插值、重构和学习的算法。插值是一种简单、常见的算法,其具有速度快的优势,但是通过插值得到的超分图像可能会导致锯齿效应,降低图像的质量。基于重构的算法通过低分辨率图像推导出高分辨率图像的退化模型,但如果该模型不准确或不能有效地反映实际情况,重建图像的质量将大大下降。基于学习的方法效果优于前两个算法,但是过于依赖手工特征,很容易受到噪声的干扰。

2.1. 基于插值的超分辨率重建

插值是一种从已知像素中计算邻域像素大小从而得到未知像素值[7] [8]的算法,将插值得到的像素与图像进行整合,得到高分辨率图像。

常用的插值方法有双线性插值[9]、双三次插值[10]和最邻近插值[10]。其中,最邻近插值是最简单的一种算法,当图像需要使用像素进行填充时,直接在四邻域中使用选择与未知像素距离最近的像素的值赋给未知像素,该方法虽然计算量很小但是会导致图像不连续。双线性插值是一种通过在两个方向上分别进行线性插值来计算未知像素值的算法,虽然其计算量比最近邻插值法更大,但能提供更好的结果且避免不连续的问题。双三次插值则是通过对未知像素点周围16个像素点进行加权平均来获得像素值。

虽然插值算法具有简单、处理速度快的优点,但生成的高分辨率图像常会出现锯齿现象,且边缘效果较差。

2.2. 基于重构的超分辨率重建

一种从低分辨率图像恢复高分辨率图像的方法是通过重构技术,该技术依赖于对高分辨率图像退化模型的推导,恢复效果的质量取决于该模型推导的准确性。

基于重构的超分辨率重建算法可分为两类:频域法和空域法。频域法[11]主要在傅里叶变换域内执行超分辨率重建,通过频域的分析与处理来提升图像的分辨率。但是该方法只适用于空间不变的模型,在解决图像噪声方面表现不好。空域法[12] [13]需要图像的先验信息,虽然重建效率高但是灵活性较差。

2.3. 基于学习的超分辨率重建算法

基于学习的超分辨率方法通过大量图像数据,学习低分辨率和高分辨率图像之间的映射关系来进行重建。这类方法主要包括流形学习、稀疏编码等算法。流行学习[14]方法通过假设图像数据分布为一个低维流形,在该分布上学习低分辨率和高分辨率图像之间的映射关系,该方法在处理复杂映射关系时有着良好的表现,但是计算复杂且难以处理噪声严重的图像。稀疏编码[15]方法假设图像使用几个基本元素线性表达,首先将输入的图像进行稀疏编码,通过对应的高分辨率字典进行重建。虽然该方法对纹理恢复效果较好,可以重建出丰富的细节,但是需要大量的计算且泛化效果较差。

2.4. 基于深度学习的单图超分辨率重建

由于传统方法在图像超分辨率重建中的局限性,以及深度学习的迅速发展,近年来深度学习与图像超分辨率的结合取得了显著进展,催生了众多优秀的算法。

3. 超分辨率重建方法

3.1. SRCNN模型

Dong于2014年提出了最早将深度学习应用于超分辨率重建的算法SRCNN [6]图2展示了SRCNN的网络结构,该网络由三层卷积组成,分别负责特征提取、非线性映射和重建功能。网络对输入图像进行下采样,并通过线性拟合低分辨率图像与高分辨率图像,最终输出恢复后的高分辨率图像。SRCNN作为图像超分辨率开创新的工作,奠定了深度学习在超分辨率任务中的基础,但是其网络架构较浅,表征能力有限,只有一层卷积进行特征提取,无法提取到图像的复杂细节和高频信息,且在处理复杂图像特征时需要更多的卷积操作和更大的特征图,从而导致计算量增加。相比之下ESPCN [16]在重建质量和速度有更好的表现。

Figure 2. Network structure of SRCNN

2. SRCNN网络结构

Figure 3. Network structure of VDSR.

3. VDSR网络结构

3.2. ESPCN模型

ESPCN [16]是由Shi et al.在2016年提出的,通过引入子像素卷积层,大大提高了超分任务的效率和效果。该网络通过使用子像素卷积层将多个特征图重新排列成高分辨率图像,这一操作将特征图的通道维度信息转换为空间维度的信息,该模型能够更好地保留图像的高频细节,提升重建图像的质量。它直接在低分辨率图像上进行卷积,无需先插值放大,从而减少了一定的计算量。虽然相较于SRCNN,ESPCN提高了重建质量,但是子像素卷积仍旧无法更好的还原出图像的高频信息,复杂细节和高频信息的提取仍然依赖于网络的整体结构和特征提取能力。VDSR [17]通过增加网络深度,提升了网络对高频信息的提取能力。

3.3. VDSR模型

受到启发,首尔国立大学计算机视觉实验室的Kim等人将残差网络引入图像超分辨率重建,提出了VDSR模型。图3展示了VDSR的网络结构,该网络以插值后的低分辨率图像为输入,学习低分辨率图像与高分辨率图像之间的关系,以生成超分辨率图像。

VDSR使用了一个非常深的卷积神经网络,深度网络的引入使得模型可以捕捉到更多的图像细节和复杂的纹理信息。虽然增加网络深度可以一定程度上增强训练结果,但是网络深度的增加会带来梯度爆炸的问题,残差网络可以在增加网络深度、提高结果的同时避免梯度爆炸[18]。训练过程中采用了较高的学习率,为了避免梯度爆炸问题,引入了一种可调的梯度剪裁方法,以提高学习速度。VDSR通过增加网络层数来扩展感受野,学习更多图像特征,其重构效果优于SRCNN,证明了深层网络在超分辨率重建中的性能优于浅层网络。

3.4. LapSRN模型

加州大学默赛德分校的Lai等人提出了一种基于卷积神经网络级联的拉普拉斯金字塔超分辨网络[19]。作者指出,传统的超分辨率重建方法存在多个缺陷。首先,许多方法在网络进行预测之前就将图像放大到目标分辨率,这一过程不仅增加了冗余计算,还可能降低生成图像的质量,导致明显的重建伪影。此外,虽然在对低分辨率图像进行卷积时使用亚像素卷积或转置卷积可以加速计算,但结构简单的网络往往难以处理复杂的图像映射关系,从而限制了网络对细节的学习能力。其次,许多方法使用L2损失函数,但在超分辨率任务中,L2损失函数可能会导致图像过于平滑。由于相同的低分辨率图像块可能对应多个不同的高分辨率图像块,L2损失函数倾向于最小化平均误差,从而可能使生成的图像缺乏细节。为了解决这些问题,作者提出了LapSRN,通过逐级恢复图像细节的拉普拉斯金字塔网络,提高了超分辨率重建的效果。

图4为LapSRN网络结构图,该网络以一幅LR图像作为输入,逐步进行图像超分辨率重建,使用级联卷积层进行特征提取,结合金字塔结构,LapSRN在每一层金字塔中学习高频细节的残差。其损失函数不再采用L2损失,而是使用了一种结合对抗损失和感知损失的复合损失函数,即Charbonnier损失函数。该损失函数的表达式为:

L( y ^ , y; θ )= 1 N i=1 N s=1 L ρ ( y ^ s ( i ) y s ( i ) )                  = 1 N i=1 N s=1 L ρ ( ( y ^ s ( i ) y s ( i ) ) r s ( i ) ) (1)

其中,x是输入的低分辨率图像,θ是网络参数, y ^ 为重构图像,N是像素总数,S是放大倍数,L为金字塔的级别数量。

LapSRN网络采用金字塔结构来实现多尺度图像超分辨率重建,并通过使用新型损失函数,克服了传统L2损失导致的图像过度平滑问题,显著提升了重建效果。

Figure 4. Network structure of LapSRN

4. LapSRN网络结构

3.5. EDSR模型

2017年首尔大学的SNU CVLab团队提出了EDSR [20]模型,该模型获得了同年NTIRE图像超分辨率重构大赛的冠军。

EDSR在残差网络上进行了改进,作者经Nah, Seungjun et al.于2017年提出的[21]受到启发,作者发现,与普通的CNN相比,残差网络能够构建更深层的架构。然而,在超分辨率任务中,当输入和输出图像存在显著分辨率差异时,深层网络可能产生负面影响。通过去除传统残差网络中的批归一化层(Batch Normalization),可以加快训练的收敛速度。

(a) ResNet (b) SRResNet (c) EDSR

Figure 5. Comparison of Original, SRResNet and EDSR Network

5. 原始残差网络、SRResNet、EDSR比较

EDSR在基础的残差网络上进行了修改,去除归一化层,使模型能够更直接地学习和优化从低分辨率到高分辨率图像的映射关系,模型的优化更加直接和有效,避免了批归一化引入的噪声对图像质量的负面影响。增加了通道数和网络深度,通道数从64增加到256,显著提升了模型的表达能力,使得它可以学习和重建更加复杂的图像细节,该模型使用L1范数作为损失函数,实验表明,与L2相比,L1更适合EDSR。图5展示了EDSR网络中的残差块与其他残差块的对比。

3.6. CARN模型

随着深度学习的发展和普及,虽然在大多数场景下深度学习方法都具有很好的性能,但通常计算量较大,难以在更多现实场景中使用。为了减少计算量同时拥有先进的性能,作者提出了CARN [22]模型,并且用实验结果证明了该模型的优秀。

图6是CARN的网络结构图,该网络在传统的残差网络上进行修改,级联多个残差块,每个残差块内部包含了多个子残差块。通过这种级联结构,网络能够逐层提取图像的细节和特征,同时保持计算效率,使用1 × 1卷积层进行特征融合。为了提升网络效率,该模型使用了与MobileNet [23]相似的方法,但是选择分组卷积而不是深度可分离卷积,这样的好处是使得该模型的效率可调,同时减少计算量,使网络轻量化。

Figure 6. Network structure of CARN

6. CARN网络结构

3.7. RCAN模型

RCAN [24]是来自美国东北大学的Zhang Y, Li K, Li K, et al.提出的,作者指出,低分辨率图像的特征包含大量低频信息,而这些低频信息在不同通道上具有相同的权重。这阻碍了CNN的表征能力。为了使网络有针对地对特征进行学习,作者提出了一种残差结构(RIRI)来构建网络,以专注高频信息的学习,同时提出了一种通道注意力机制,使网络能够自适应地调整通道特征。

图7展示了RCAN网络的结构,其由四个主要部分组成:浅层特征提取、嵌套残差块(RIR)、深层特征提取、高级模块和重构部分。残差网络部分采用嵌套结构,即每个残差网络的残差块由残差通道注意力块(RCAB)构成。RCAB通过在标准残差块中引入通道注意力机制,学习并自适应调整每个通道的权重,优化各通道的贡献。

该模块包括两个部分,首先通过卷积层进行特征提取,然后通过注意力通道机制,利用全局平均池化和全连接层来计算每个通道的权重,实现针对高频信息的学习。这些残差通道注意力块堆叠后形成了残差组,在残差组的末尾实现跳跃连接,使得整个残差组也具备了残差结构。这种结构允许信息在多个RCAB之间传递,进一步提高特征提取的能力。

通过多级嵌套的残差结构,模型能够更好地提取和融合图像的特征,从而实现更高质量的超分辨率图像重建。这种设计不仅提高了网络的深度和复杂度,同时通过各级残差连接保证了训练的稳定和高效。

Figure 7. Network structure of RCAN

7. RCAN网络结构

3.8. SRDenseNet模型

为了有效解决梯度消失的问题,大多数方法使用残差网络替代传统的CNN,SRDenseNet [25]则是采用了密集跳跃链接。该网络的输入为低分辨率图像,首先对该图像学习低级特征后,采用密集连接块对高级特征进行学习。

残差网络将特征映射直接相加,在本文提出的密集连接块则是串联,每一层都接收来自所有前面层的特征图,并将特征图传递给所有后续层,这种设计提升了特征重用率,使每一层都能直接访问前面层的特征,并且在每一层中进行特征融合,特征图在网络中的流动更加充分和高效,从而更有效地学习复杂特征。

除了密集连接以外,该网络还使用了全局跳跃连接,将输入直接连接到输出层。这有助于保留低频信息,并使网络更好地学习高频细节,得到了较好的实验结果。

3.9. SRGAN模型

SRGAN (Super-Resolution Generative Adversarial Network) [26]是首个在图像超分辨率任务中应用生成对抗网络(GAN)的模型,由Christian Ledig等人提出。该模型包括生成器(Generator)和判别器(Discriminator),其中生成器将低分辨率图像恢复为高分辨率图像,而判别器则用于区分生成的高分辨率图像与真实图像。图8展示了该模型的网络结构。

SRGAN与以往网络不同,其生成器的损失函数是三种损失函数的加权组合,包括内容损失、感知损失和对抗性损失。内容损失用于确保生成的高分辨率图像在像素级别上尽可能接近真实图像,并使用L2损失来计算。

L content = 1 n i=1 n I HR i I SR i 2 2 (2)

公式(2)为内容损失计算公式,其中 I HR i 真实的高分辨率图像, I SR i 是生成的高分辨率图像。

感知损失通过计算生成图像与真实图像在VGG网络中间层特征图上的差异来衡量。这种损失捕捉了图像的高层次特征,从而使生成的图像在视觉上更加自然和真实。

L perceptual = 1 n i=1 n ( I HR i )( I SR i ) 2 2 (3)

式(3)为感知损失函数的公式, 表示预训练的VGG网络的某一层的特征图。感知损失帮助生成器生成的图像在感知上与真实图像更接近。

对抗性损失通过生成器和判别器的对抗训练来增强生成图像的真实感。判别器试图区分生成的图像与真实图像,而生成器则试图“欺骗”判别器,使其认为生成的图像是真实的。

L GAN =log( D( G( I LR ) ) ) (4)

L D =[ log( D( L HR ) )+log( 1D( G( I LR ) ) ) ] (5)

其中,公式(4)为生成器的对抗性损失,其中,G是生成器,D是判别器,ILR是低分辨率图像。公式(5)为判别器的损失函数。综合损失函数是上述三种损失函数的加权和:

L G = L content +λ L perceptual +η L GAN (6)

其中,λη是权重系数,用于平衡不同损失项的贡献。

SRGAN在多个数据集上表现出了优秀的性能,图像超分辨率领域的成功激发了后续大量的研究工作。

Figure 8. Network structure of SRGAN

8. SRGAN网络结构

3.10. IGNN模型

文章[27]作者发现,现有的大部分单图超分方法都依靠输入图像内的尺度相同的部分,在重建时会忽略其他尺度潜在的特征细节。由此该作者提出一种跨尺度模型,利用图神经网络在不同尺度的图像特征之间建立图结构,通过点和边的关系来传递和融合信息,更有效地捕捉图像的局部和全局特征,提高图像重建的精细度和准确性。

在处理图像时,模型首先在较低分辨率的特征图上经典非局部方法[28] [29]寻找与目标补丁(Query Patch)相似的块,利用图神经网络(Graph Neural Network, GNN)对相似块进行聚合,通过计算相似性权重,GNN对相似块进行加权聚合。加权聚合的过程是将多个相似块的特征结合起来,根据它们的相似性给不同的块分配不同的权重。这种加权机制使得更相似的块对最终的特征图贡献更大,聚合后的特征图进行上采样得到重建后的高分辨率特征图。

该模型是第一个将跨尺度聚合引入超分辨率重建的模型,更好地恢复了图像的纹理信息,取得了很好的性能。

3.11. HAN模型

HAN (Hierarchical Attention Network)模型是Yang, Zichao, et al. [30]提出的模型,该模型的核心思想是通过分层次的注意力机制来有效捕捉图像的多尺度特征和不同层次的上下文信息,从而提升图像的重建质量。

HAN网络首先使用一个卷积层提取低级特征,使用多个残差块使用不同的感受野提取图像的多尺度特征,通过多尺度的卷积操作,各个残差块的输出通过局部残差连接进行融合,获得更加丰富且具有更强表达能力的特征图,由此网络能够捕捉到图像的全局和局部信息。在此基础上,HAN引入了分层注意力机制,包括通道注意力[31]和空间注意力[32]层。其中通道注意力机制的作用是对不同特征通道的重要性进行加权,使得模型能够专注于那些对图像重建最为关键的特征,通道注意力的作用是自适应学习通道调整权重。与此同时,空间注意力机制则评估图像中各个空间位置的重要性,从而优先处理细节丰富的区域,增强图像细节的恢复。在经过注意力机制处理后的特征图,模型通过增加卷积层和残差连接来进行更高层次的特征提取和图像重建。

残差连接的使用有助于缓解梯度消失问题,确保深度网络的稳定训练,HAN模型融合了全局和局部特征,提升了重建效果。

3.12. SwinIR模型

SwinIR [33]采用Swin Transformer [34]作为基本架构。Swin Transformer是一种基于滑动窗口的自注意力框架,它能够在局部窗口内计算自注意力,并通过跨窗口的层次结构实现全局信息的捕捉,这个方法使该网络在处理高分辨率图像时具有更好的效率和表现。

SwinIR使用一个3 × 3的卷积核来从输入图像中提取浅层特征,网络主干部分通过堆叠多个RSTB (Residual Swin Transformer Block)块来提取深层特征,其中每个RSTB块由6个STL (Swin Transformer Layer)块组成,STL采用局部窗口内的自注意力机制来处理图像块中的特征。这种机制能高效捕捉局部依赖关系,从而提升特征提取的精度。为了处理全局依赖关系,STL引入了跨窗口的移动卷积(Shifted Window Attention),这使得模型能够在全图范围内进行信息融合,进一步提升特征表示能力。在深层特征提取之后,该网络使用自适应特征融合模块来将从不同层提取的特征进行加权融合。这使得模型能够集中在最重要的特征上,增强图像的细节和全局一致性。

作为一种先进的Transformer架构,Swin Transformer提供了比传统卷积网络更强的全局信息捕捉能力,同时保持了计算效率。

3.13. HAT模型

HAT [35] (Hybrid Attention Transformer)将Transformer架构和多种注意力结合,构造出了混合注意力网络模型。

HAT的整体网络结构遵循经典的残差中残差(RIR)架构,该网络与大部分模型一样,使用一个3 × 3的卷积核来从输入图像中提取浅层特征,网络主干部分由若干个RHAG (Residual Hybrid Attention Group)残差块组成,每个残差块由混合注意力块HAB (Hybrid Attention Block)和交叉注意力块OCAB (Overlapping Cross-Attention Block)组成,OCAB通过重叠区域的交叉注意力计算,捕捉局部和全局的依赖关系,融合多个区域的特征。HAB由窗口注意力和通道注意力组成,它通过层次化的注意力增强图像特征的表达能力,这样够更有效地捕捉图像中的重要信息,并对不同特征进行加权,使模型更关注关键区域和特征,激活特征图中更多像素[36],从而提高图像恢复的质量。该作者使用LAM [37] (Local Attribution Maps)工具通过生成局部归因图提供超分辨率网络的局部解释。HAT网络模型在超分任务中提供了卓越的性能,在多个任务和数据集上展现了出色的恢复能力。

3.14. 小结

随着深度学习的发展,越来越多的网络结构在图像超分辨率重建领域被应用,研究者用不同的方法使网络性能不断地提升,本节概述了单图超分辨率的主要模型。主流模型通常基于卷积神经网络(CNN)、残差网络(ResNet)或生成对抗网络(GAN),并在这些基础上进行改进。随着深度学习技术的不断发展,Transformer的引入为超分辨率任务带来了新的视角。Transformer最初用于自然语言处理,但其自注意力机制在图像处理领域也展现了显著的潜力。通过自注意力机制,Transformer能够有效捕捉全局上下文信息,从而提升图像恢复能力。在图像超分辨率任务中,Transformer通过处理全局信息和多层次特征融合,进一步提高了图像的细节和质量[38] [39]图9为单图超分辨率算法发展历程。

Figure 9. Single Image Super-Resolution Algorithms (SISR Algorithms)

9. 单图超分辨率算法

4. 相关分析

4.1. 数据集

图像超分辨率重建的数据集包含大量高分辨率图像及其对应的低分辨率图像,这些数据用于训练深度学习模型,以便模型学习从低分辨率图像恢复高分辨率图像的映射关系。常用的训练集有DIV2K、Flickr2K、DF2K等[40],常用的测试集有Set5、Set14、BSDS100、urban100、manga109等,这些数据集包含了数量不同的高清图片,提供了丰富的图像样本,涵盖了不同的场景和细节,能够帮助模型学习更为全面和细致的特征,主要由自然景观、城市景观、动物等组成,全面包含了生活中常见的图片类型。

4.2. 评价指标

图像超分辨率重建的评价指标分为主观评价指标[41]和客观评价指标。主观评价指标基于人类观察者的视觉感受,通过人类评估者对图像质量的评分来反映图像的质量。常用的主观评价方法是平均意见得分(Mean Opinion Score, MOS)。客观评价指标基于数学计算或统计方法,不依赖于人类的主观感受,可以进行大规模和自动化的质量评估,通常使用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、结构相似度(Structural Similarity Index, SSIM)和边缘保留指数(EPI, Edge Preservation Index)这三个指标。其中,结构相似度是信号的最大功率之比,其公式如下:

MSE= 1 MN I=0 M1 J=0 N1 [ I( i,j )K( i,j ) ] 2 (7)

PSNR=10* log 10 ( MA X 2 MSE ) (8)

PSNR的计算依赖于均方误差(Mean Squared Error, MSE),公式(7)为公式,其中I表示参考图像,K表示重建图像,MN分别是图像的宽度和高度。公式(8)为PSNR的公式,其中MAX是图像的最大像素值。PSNR具有计算简单和使用广泛的优点,但它过于依赖像素之间的差异,可能无法准确反映图像的视觉效果,因此评价结果与人的视觉感知存在一定的差距。

SSIM是一种衡量两幅图像之间相似度的指标,重点关注图像的结构信息。它更符合人类视觉系统的感知,其公式如下:

SSIM( x,y )= ( 2 μ 2 μ y + C 1 )( 2 σ xy + C 2 ) ( μ x 2 + μ y 2 + C 1 )( σ x 2 + σ y 2 + C 2 ) (9)

SSIM通过亮度、对比度和结构三个方面来衡量图像之间的相似性,其中μ2μy分别是图像xy的均值,σxσy分别是和的标准差,σxy是图像xy的协方差,C1C2是为了避免分母为零的常数。SSIM考虑了图像的结构、亮度和对比度,符合人类视觉感知,但是计算比PSNR更加复杂。

EPI是一种用于评估图像处理算法保留边缘细节能力的评价指标,它关注图像中边缘的清晰度和细节的保留情况,这是因为边缘通常包含图像中重要的结构信息,特别是在处理高频信息时,如纹理、轮廓和物体边界。其公式如下:

EPI= | G or ( i,j ) G re ( i,j ) | G or ( i,j ) (10)

其中, G or ( i,j ) 表示原始图像梯度, G re ( i,j ) 表示重建图像梯度,数值越接近0表示边缘重建效果越好。

4.3. 算法结果对比

本节将文章中列举出的模型和传统插值算法的测试结果进行对比,测试使用的数据集为Set5、Set14、BSD100。

Table 1. Results of different super-resolution models at a scaling factor of 2

1. 不同超分模型在缩放尺度为2的结果

模型

Set5

Set14

BSD100

PSNR

SSIM

PSNR

SSIM

PSNR

SSIM

Bicubic [10]

33.66

0.9299

30.24

0.8688

29.56

0.8431

SRCNN [6]

36.66

0.9542

32.45

0.9067

31.36

0.8879

VDSR [17]

37.53

0.9587

33.05

0.9127

31.90

0.8960

LapSRN [19]

37.52

0.9590

33.08

0.9130

31.80

0.8950

EDSR [20]

38.11

0.9601

33.92

0.9195

32.93

0.9351

CARN [22]

37.76

0.9598

33.52

0.9166

32.09

0.8960

RCAN [24]

38.27

0.9614

34.12

0.9216

32.41

0.9027

IGNN [27]

38.24

0.9613

34.07

0.9217

32.41

0.9025

HAN [30]

38.27

0.9614

34.16

0.9217

32.41

0.9027

SwinIR [33]

38.42

0.9624

34.46

0.9250

32.53

0.9041

HAT [35]

38.63

0.9630

34.89

0.9274

32.62

0.9053

Table 2. Results of different super-resolution models at a scaling factor of 3

2. 不同超分模型在缩放尺度为3的结果

模型

Set5

Set14

BSD100

PSNR

SSIM

PSNR

SSIM

PSNR

SSIM

Bicubic [10]

30.39

0.8682

27.55

0.7742

27.21

0.7385

SRCNN [6]

32.75

0.0900

29.30

0.8215

28.41

0.7863

VDSR [17]

33.66

0.9213

29.78

0.8318

28.83

0.7976

LapSRN [19]

EDSR [20]

30.39

0.8682

27.55

0.7742

27.21

0.7385

CARN [22]

34.29

0.9255

30.29

0.8407

29.06

0.8034

RCAN [24]

34.74

0.9299

30.65

0.8482

29.32

0.8111

IGNN [27]

34.72

0.9298

30.66

0.8484

29.31

0.8105

HAN [30]

34.75

0.9299

30.67

0.8483

29.32

0.8110

SwinIR [33]

34.97

0.9318

30.93

0.8534

29.46

0.8145

HAT [35]

35.07

0.9329

31.08

0.8555

29.54

0.9167

Table 3. Results of different super-resolution models at a scaling factor of 4

3. 不同超分模型在缩放尺度为4的结果

模型

Set5

Set14

BSD100

PSNR

SSIM

PSNR

SSIM

PSNR

SSIM

Bicubic [10]

28.42

0.8104

26.00

0.7027

25.96

0.6675

SRCNN [6]

30.48

0.8628

27.50

0.7513

26.90

0.7101

VDSR [17]

31.35

0.8838

28.02

0.7678

27.29

0.7252

LapSRN [19]

31.54

0.8850

28.19

0.7720

27.32

0.7280

EDSR [20]

32.46

0.8968

28.80

0.7876

27.71

0.7420

CARN [22]

32.13

0.8937

28.60

0.7806

27.58

0.7349

RCAN [24]

32.63

0.9002

28.87

0.7889

27.77

0.7436

IGNN [27]

32.57

0.8998

28.85

0.7891

27.77

0.7434

HAN [30]

32.64

0.9002

28.90

0.7890

27.80

0.7442

SwinIR [33]

32.92

0.9044

29.09

0.7950

27.92

0.7489

HAT [35]

33.04

0.9056

29.23

0.7973

28.00

0.7517

表1~表3分别对比了缩放尺度为2、3、4的图像超分辨率重建结果,红色字体为最佳,其中Bicubic为双三次下采样后的图像。通过观察实验结果,SRCNN将深度学习引入图像超分辨率重建后,重建效果相较于传统算法有着明显提升。不同的缩放尺度下图像重建效果不同,在大尺度下图像重建效果还有提升空间。在每个尺度中,HAT都取得了最好的结果。具体而言,HAT在尺度为2时能够有效地恢复图像细节,减少了模糊和失真,并且在尺度为3和4时同样展现了卓越的性能。HAT的混合注意力机制使得其能够在不同尺度下精确捕捉图像的细节和结构,从而在各种测试数据集上取得了领先的结果。图10~图12为本文介绍的部分算法重建效果可视化对比,与传统的插值算法相比,继续深度学习的超分辨率重建算法取得了优秀的重建视觉效果。

Figure 10. The reconstruction performance of different super-resolution models at a scaling factor of 2

10. 不同超分模型在缩放尺度为2的重建效果

Figure 11. The reconstruction performance of different super-resolution models at a scaling factor of 3

11. 不同超分模型在缩放尺度为3的重建效果

Figure 12. The reconstruction performance of different super-resolution models at a scaling factor of 4

12. 不同超分模型在缩放尺度4的重建效果

5. 归纳与未来展望

图像超分辨率技术经历了从传统方法到深度学习方法的演变,逐步提高了实用性和性能,这一进展涉及基础模型、网络结构、损失函数等方面的改进。尽管技术已有广泛应用,但仍有许多领域需要进一步探索。首先,由于生成图像尺寸较大的原因,图像超分辨率的模型通常需要消耗较长的时间进行训练,如何使模型轻量化的同时得到较好的重建效果是一个重要研究点。

其次,大部分超分图像评价指标使用PSNR和SSIM,虽然这两个指标有广泛使用、计算方便的优点,但是他们无法完全替代人眼视觉,尤其是PSNR会出现图像缺失纹理细节、过于平滑时结果也很好的情况,如何制定一个平衡客观与主观的评价指标是一个值得研究的问题。

最后,许多超分辨率模型通常专为单一领域设计,对于遥感、医学和屏幕内容等特殊领域的超分辨率重建,需要针对每个领域单独开发模型。因此,开发一个能够适用于多个场景的通用超分辨率模型仍然是一个挑战。

基金项目

北京市教育委员会出版学新兴交叉学科平台建设–数字喷墨印刷技术及多功能轮转胶印机关键技术研发平台,项目编号:04190123001/003,北京市数字教育研究重点课题(BDEC2022619027),北京市高等教育学会2023年立项面上课题(课题编号:MS2023168),北京印刷学院校级科研项目(20190122019, Ec202303, Ea202301, E6202405),北京印刷学院学科建设和研究生教育专项(21090122012, 21090323009),北京市自然科学基金资助项目(1212010)。

参考文献

[1] Yuan, H.L., Zhang, B.Y., Zhu, M.Y., Liu, L.G. and Wang, J. (2023) High-Quality Supersampling via Mask-Reinforced Deep Learning for Real-Time Rendering.
[2] Ulyanov, D., Vedaldi, A. and Lempitsky, V. (2018) Deep Image Prior. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, 18-23 June 2018, 9446-9454.
[3] de Leeuw den Bouter, M.L., Ippolito, G., O’Reilly, T.P.A., Remis, R.F., van Gijzen, M.B. and Webb, A.G. (2022) Deep Learning-Based Single Image Super-Resolution for Low-Field MR Brain Images. Scientific Reports, 12, Article No. 6362.
https://doi.org/10.1038/s41598-022-10298-6
[4] Lu, T., Wang, J., Zhang, Y., Wang, Z. and Jiang, J. (2019) Satellite Image Super-Resolution via Multi-Scale Residual Deep Neural Network. Remote Sensing, 11, Article No. 1588.
https://doi.org/10.3390/rs11131588
[5] Cao, J., Jia, Y., Yan, M. and Tian, X. (2021) Superresolution Reconstruction Method for Ancient Murals Based on the Stable Enhanced Generative Adversarial Network. EURASIP Journal on Image and Video Processing, 2021, Article No. 28.
https://doi.org/10.1186/s13640-021-00569-z
[6] Dong, C., Loy, C.C., He, K. and Tang, X. (2016) Image Super-Resolution Using Deep Convolutional Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38, 295-307.
https://doi.org/10.1109/tpami.2015.2439281
[7] Xin Li, and Orchard, M.T. (2001) New Edge-Directed Interpolation. IEEE Transactions on Image Processing, 10, 1521-1527.
https://doi.org/10.1109/83.951537
[8] Chen, M., Huang, C. and Lee, W. (2005) A Fast Edge-Oriented Algorithm for Image Interpolation. Image and Vision Computing, 23, 791-798.
https://doi.org/10.1016/j.imavis.2005.05.005
[9] Bresenham, J.E. (1998) Algorithm for Computer Control of a Digital Plotter. In: Seminal Graphics: Pioneering Efforts That Shaped the Field, Association for Computing Machinery, 1-6.
https://doi.org/10.1145/280811.280913
[10] Keys, R. (1981) Cubic Convolution Interpolation for Digital Image Processing. IEEE Transactions on Acoustics, Speech, and Signal Processing, 29, 1153-1160.
https://doi.org/10.1109/tassp.1981.1163711
[11] Tsai, R.Y. and Huang, T.S. (1984) Multiframe Image Restoration and Registration. Advances in Computer Vision and Image Processing, 1, 317-339.
[12] Dai, S., Han, M., Wu, Y. and Gong, Y. (2007). Bilateral Back-Projection for Single Image Super Resolution. 2007 IEEE International Conference on Multimedia and Expo, Beijing, 2-5 July 2007, 1039-1042.
https://doi.org/10.1109/icme.2007.4284831
[13] Zhang, H., Zhang, Y., Li, H. and Huang, T.S. (2012) Generative Bayesian Image Super Resolution with Natural Image Prior. IEEE Transactions on Image Processing, 21, 4054-4067.
https://doi.org/10.1109/tip.2012.2199330
[14] Chang, H., Yeung, D.Y. and Xiong, Y. (2004) Super-Resolution through Neighbor Embedding. Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Washington DC, 27 June-2 July 2004, 1.
[15] Yang, J.C., Wright, J., Huang, T.S. and Ma, Y. (2010) Image Super-Resolution via Sparse Representation. IEEE Transactions on Image Processing, 19, 2861-2873.
https://doi.org/10.1109/tip.2010.2050625
[16] Shi, W., Caballero, J., Huszar, F., Totz, J., Aitken, A.P., Bishop, R., et al. (2016) Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 1874-1883.
https://doi.org/10.1109/cvpr.2016.207
[17] Kim, J., Lee, J.K. and Lee, K.M. (2016) Accurate Image Super-Resolution Using Very Deep Convolutional Networks. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 1646-1654.
https://doi.org/10.1109/cvpr.2016.182
[18] Bengio, Y., Simard, P. and Frasconi, P. (1994) Learning Long-Term Dependencies with Gradient Descent Is Difficult. IEEE Transactions on Neural Networks, 5, 157-166.
https://doi.org/10.1109/72.279181
[19] Lai, W., Huang, J., Ahuja, N. and Yang, M. (2017) Deep Laplacian Pyramid Networks for Fast and Accurate Super-resolution. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 624-632.
https://doi.org/10.1109/cvpr.2017.618
[20] Lim, B., Son, S., Kim, H., Nah, S. and Lee, K.M. (2017) Enhanced Deep Residual Networks for Single Image Super-resolution. 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, 21-26 July 2017, 136-144.
https://doi.org/10.1109/cvprw.2017.151
[21] Nah, S., Kim, T.H. and Lee, K.M. (2017) Deep Multi-Scale Convolutional Neural Network for Dynamic Scene Deblurring. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 3883-3891.
https://doi.org/10.1109/cvpr.2017.35
[22] Ahn, N., Kang, B. and Sohn, K. (2018) Fast, Accurate, and Lightweight Super-Resolution with Cascading Residual Network. In: Ferrari, V., et al., Eds., Computer VisionECCV 2018, Springer International Publishing, 256-272.
https://doi.org/10.1007/978-3-030-01249-6_16
[23] Howard, A.G. (2017) Mobilenets: Efficient Convolutional Neural Networks for Mobile Vision Applications.
[24] Zhang, Y., Li, K., Li, K., Wang, L., Zhong, B. and Fu, Y. (2018) Image Super-Resolution Using Very Deep Residual Channel Attention Networks. In: Ferrari, V., et al., Eds., Computer VisionECCV 2018, Springer International Publishing, 294-310.
https://doi.org/10.1007/978-3-030-01234-2_18
[25] Tong, T., Li, G., Liu, X. and Gao, Q. (2017) Image Super-Resolution Using Dense Skip Connections. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 4799-4807.
https://doi.org/10.1109/iccv.2017.514
[26] Ledig, C., Theis, L., Huszar, F., Caballero, J., Cunningham, A., Acosta, A., et al. (2017) Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 4681-4690.
https://doi.org/10.1109/cvpr.2017.19
[27] Zhou, S., Zhang, J., Zuo, W., et al. (2020) Cross-Scale Internal Graph Neural Network for Image Super-Resolution. Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, 6-12 December 2020, 3499-3509.
[28] Gu, S., Zhang, L., Zuo, W. and Feng, X. (2014) Weighted Nuclear Norm Minimization with Application to Image Denoising. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, 23-28 June 2014, 2862-2869.
https://doi.org/10.1109/cvpr.2014.366
[29] Mairal, J., Bach, F., Ponce, J., Sapiro, G. and Zisserman, A. (2009) Non-Local Sparse Models for Image Restoration. 2009 IEEE 12th International Conference on Computer Vision, Kyoto, 29 September-2 October 2009, 2272-2279.
https://doi.org/10.1109/iccv.2009.5459452
[30] Yang, Z., Yang, D., Dyer, C., He, X., Smola, A. and Hovy, E. (2016) Hierarchical Attention Networks for Document Classification. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego, June 2016, 1480-1489.
https://doi.org/10.18653/v1/n16-1174
[31] Wang, Q., Wu, B., Zhu, P., Li, P., Zuo, W. and Hu, Q. (2020). ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 13-19 June 2020.
https://doi.org/10.1109/cvpr42600.2020.01155
[32] Hu, J., Shen, L. and Sun, G. (2018) Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-22 June 2018, 7132-7141.
https://doi.org/10.1109/cvpr.2018.00745
[33] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R. (2021) Swinir: Image Restoration Using Swin Transformer. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), 11-17 October 2021, 1833-1844.
https://doi.org/10.1109/iccvw54120.2021.00210
[34] Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., et al. (2021) Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 10012-10022.
https://doi.org/10.1109/iccv48922.2021.00986
[35] Chen, X., Wang, X., Zhang, W., et al. (2023) Hat: Hybrid Attention Transformer for Image Restoration.
[36] Chen, X., Wang, X., Zhou, J., Qiao, Y. and Dong, C. (2023) Activating More Pixels in Image Super-Resolution Transformer. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 18-22 June 2023, 22367-22377.
https://doi.org/10.1109/cvpr52729.2023.02142
[37] Gu, J. and Dong, C. (2021) Interpreting Super-Resolution Networks with Local Attribution Maps. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 9199-9208.
https://doi.org/10.1109/cvpr46437.2021.00908
[38] Conde, M.V., Choi, U., Burchi, M. and Timofte, R. (2023) Swin2sr: Swinv2 Transformer for Compressed Image Super-Resolution and Restoration. Computer VisionECCV 2022 Workshops, Tel Aviv, 23-27 October 2022, 669-687.
https://doi.org/10.1007/978-3-031-25063-7_42
[39] Li, K., Wang, Y., Zhang, J., Gao, P., Song, G., Liu, Y., et al. (2023) Uniformer: Unifying Convolution and Self-Attention for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45, 12581-12600.
https://doi.org/10.1109/tpami.2023.3282631
[40] Agustsson, E. and Timofte, R. (2017) NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study. 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Honolulu, 21-26 July 2017, 126-135.
https://doi.org/10.1109/cvprw.2017.150
[41] 方玉明, 眭相杰, 鄢杰斌, 等. 无参考图像质量评价研究进展[J]. 中国图象图形学报, 2021, 26(2): 265-286.