1. 引言
图像超分辨率技术通过特定的算法将输入的低分辨率图像经过学习,最后得到高分辨率图像。人脸超分辨率技术是针对人脸这个特殊结构的图像超分辨率技术,旨在将低分辨率人脸通过某种技术转换为高分辨率人脸。但是人脸结构比较特殊,不像平常的图像,它具有高强度的结构相似性和身份信息的细节差异性,它的重建难度更大,要求更高,重建过程中,我们要保证几何特征的一致性,还要注意纹理信息的准确恢复。因此,人脸图像超分辨率重建具有极大的挑战。人脸超分辨这一概念最早由Baker和Kanada [1]在2000年提出来的,它是图像超分辨领域中的一个分支,专门针对人脸这一特殊场景进行超分辨。近年来,深度学习技术在图像处理方面应用广泛,因此人脸超分辨领域也开始结合深度学习技术,从此人脸超分辨领域开始进入一个新的发展阶段。
基于深度学习的人脸超分辨率技术按照网络结构的不同可以分成:基于插值的人脸超分辨率重建、基于重构的人脸超分辨率重建、基于卷积神经网络的人脸超分辨方法和基于对抗生成网络的人脸超分辨方法。Dong [2]等人提出了SRCNN模型,第一次将深度学习应用到图像超分辨率。SRCNN首先使用双三次插值将LR图像放大到目标大小,然后通过三层卷积神经网络提取图像特征,最后生成HR图像,极大提高了重构效果;Huang D和Liu H提出了一种基于SRCNN网络的优化算法SRCNN-IBP算法[3],将SRCNN网络和迭代反投影算法(IBP)结合起来,利用SRCNN网络生成高分辨图像下采样成低分辨图像,SRCNN-IBP算法可以看成在SRCNN算法的基础上引入了高分辨率图像的先验,所以在重建图像的质量上要优于SRCNN算法,同时说明了结构化先验信息对于人脸超分辨率重建是比较重要的;Leding等将GAN用在了解决超分辨率问题上,提出了一种用于图像超分辨率的生成对抗网络SRGAN [4],使用一个经过训练的鉴别器网络来区分SR图像和原始真实图像。Yu Chen [5]等人提出了加入结构化先验信息的人脸超分辨率重建方法FSRNet,该方法使用堆叠沙漏网络模型提取人脸几何信息,结果表明利用人脸关键点和人脸解析图可以提升人脸恢复效果,但是生成的人脸图像纹理细节不充分,模型比较复杂,耗费大量时间。
为了加强结构化先验信息对人脸结构的恢复效果,并提升网络对关键特征的选择与利用能力,本文提出了一种融合高效通道注意力与结构化先验的人脸超分辨率重建网络。本文的主要贡献可概括为以下三点:
1) 提出了人脸边缘图与解析图的双重先验融合机制,通过几何约束与语义引导的互补作用,显著提升了面部结构的重建精度;
2) 首次在人脸超分任务中系统验证了ECA注意力机制相对于SENet、CBAM的优越性,实现了性能与效率的最佳平衡;
3) 通过严谨的消融实验揭示了结构化先验信息与注意力机制的协同作用机理,为后续研究提供了理论基础。
2. 注意力机制
注意力机制[6]-[8]是深度学习领域的一个应用,本质就是让网络定位到感兴趣的信息,抑制无用信息,结果通常都是以概率图或者概率特征向量的形式展示,在图像处理中,主要包含通道注意力和空间注意力两种基本形式。
2.1. 通道注意力模型
通道注意力模型[9]旨在建模不同特征通道之间的相关性,通过自动学习每个通道的重要程度,为其分配不同的权重系数,从而强化重要特征,抑制非重要特征。计算过程如图1所示。
Figure 1. Channel attention model
图1. 通道注意力模型
首先对输入特征图分别进行全局最大池化和全局平均池化,然后将两个池化结果送入共享的多层感知机[10] (MLP, multi-layer perception)。将MLP输出的特征进行元素加和,再通过sigmoid激活函数生成通道注意力特征图。最后将该特征图与输入特征图进行逐元素相乘,得到加权后的特征输出。
2.2. 空间注意力模型
空间注意力模型[11]旨在提升关键区域的特征表达,通过为每个空间位置生成权重掩膜,增强感兴趣目标区域,同时弱化不相关背景区域。计算过程如图2所示。
Figure 2. Spatial attention model
图2. 空间注意力模型
以通道注意力输出的特征作为输入,首先进行基于通道的全局最大池化和平均池化,将两个结果按通道连接后,通过卷积层降维为单通道,再经sigmoid函数生成空间注意力特征图,最后与输入特征图相乘得到最终输出。
2.3. 混合注意力模型
通道注意力易忽略空间信息交互,而空间注意力则忽略了通道间信息交互。因此,研究者提出了混合注意力模型[12] (CBAM),依次进行通道注意力和空间注意力处理,实现更全面的特征增强。
通道注意力机制的实现过程,首先对输入特征层分别进行全局平均池化和全局最大池化,将得到的两个特征通过共享的全连接层进行处理。将处理后的特征相加后,通过sigmoid激活函数生成通道权重系数。最后,将权重系数与原始输入特征层逐通道相乘,完成特征重标定。
空间注意力机制的实现过程,首先在通道维度上对输入特征层进行最大值池化和平均值池化,将得到的两个特征图按通道维度拼接。随后通过一个卷积层进行融合并降维至单通道,再经sigmoid函数生成空间权重图。最终将该权重图与输入特征层逐位置相乘,实现空间区域的注意力增强。实现过程如图3所示。
Figure 3. Mixed attention model
图3. 混合注意力模型
2.4. 高效通道注意力模型
SENet [13]是2017年在文献《Squeeze-and-Excitation Networks》中提出的,全称Squeeze-and-Excitation Networks。SENet通过建模通道间依赖关系显著提升了网络性能,但其全连接层带来的维度缩减和计算成本限制了应用。
因此,2020年Qilong Wang等人提出了高效通道注意力(ECA)模块[14],该模块采用1 × 1卷积替代全连接层,在避免维度缩减的同时大幅降低了计算复杂度。
ECA模块结构如图4所示,输入特征(H × W × C)经全局平均池化得到1 × 1 × C的特征向量,随后通过卷积核大小为k的1 × 1卷积学习通道重要性,最后通过逐通道相乘实现特征重标定。其中卷积核大小k通过自适应函数确定:
(1)
其中,
表示卷积核大小,
表示通道数;
表示取最接近的奇数;
和
在论文中设置为2和1,用于改变通道数
和卷积核大小之间的比例。
通道维度C和卷积核大小k成比例,采用非线性函数,而且卷积核数量设为2的k次方,其中核大小k表示局部跨通道交互的覆盖范围。公式如下:
(2)
Figure 4. Efficient channel attention model
图4. 高效通道注意力模型
该方法使卷积核大小与通道数保持比例关系,确保跨通道交互范围的适应性。将ECA模块引入人脸超分辨率模型,可有效提升图像恢复的客观指标与视觉质量。
3. 人脸结构化先验信息
3.1. 人脸解析图
人脸解析(Face Parsing)是将人脸的不同部分分割出来,通过语义分割技术将人脸划分为不同区域,可为超分辨率重建提供重要的几何结构先验。
语义图像分割往往需要丰富的空间信息和较大的感受野,传统的方法往往无法达到实时的推理速度,性能低下。Changqian Yu设计了一种双边分割网络BiSeNet [15]解决了这一问题,通过空间路径和上下文路径的双分支设计,在保持空间细节的同时获得足够感受野,实现了高效的人脸解析。FSRNet [5]将先验估计网络与超分辨率网络联合训练,验证了解析图对人脸重建的促进作用。
3.2. 人脸关键点坐标
人脸关键点坐标是另一类重要结构化先验信息。Super-FAN [16]将热图回归整合到网络中,通过热图损失约束超分辨率过程,使重建结果更接近真实分布。目前有许多优秀的人脸关键点检测网络,例如,Jianfeng Wang [17]提出了一种针对被遮挡人脸检测的高效人脸关键点检测网络;Bulat [18]在大规模数据集上创建了一个2D人脸关键点检测网络和一个更好的3D人脸关键点检测网络等。
3.3. 堆叠沙漏网络
堆叠沙漏网络[19] (Stacked Hourglass Network)采用编码器–解码器结构,通过多尺度特征融合和跳跃连接有效捕捉空间信息。其使用1 × 1卷积替代全连接层的设计使其能适应不同尺寸输入,而残差连接和中继监督机制则保障了特征的充分利用。将该网络引入人脸超分辨率任务,有助于提取丰富的多尺度面部特征。网络的具体结构如图5所示。
4. 基于结构化先验信息和注意力机制的人脸超分辨率重建
本章将详细介绍我们所提出的融合高效通道注意力与结构化先验的人脸超分网络。模型的核心思想是构建一个由先验信息引导、注意力机制增强的双阶段重建流程。具体而言,我们统一使用“人脸结构化先验信息”这一术语来指代共同作用于网络的人脸边缘图与人脸解析图。网络首先进行粗糙重建,随后利用估计出的先验信息,在ECA模块的辅助下,对特征进行校准与增强,最终完成精细重建。
Figure 5. Stacked Hourglass network structure
图5. Stacked Hourglass网络结构
4.1. 网络总体结构
网络由四个核心模块组成,其中,CSRNet提取浅层特征,生成粗糙高分辨率图像,DSRNet从粗糙图像中提取深层特征,PENet基于HourGlass结构估计人脸关键点热图与解析图,FRNet融合图像特征与先验信息,输出最终结果。网络总体结构如图6所示。
Figure 6. Overall network structure
图6. 网络总体结构
4.2. 浅层特征提取网络
CSRNet首先对双三次插值后的输入图像进行3 × 3卷积提取轮廓特征,随后通过3个残差块进行非线性映射,最后经卷积层和ECA注意力模块生成粗糙高分辨率图像。如图7所示。
Figure 7. Shallow feature extraction network
图7. 浅层特征提取网络
4.3. 深层特征提取网络
DSRNet首先对粗糙图像进行降采样至64 × 64分辨率,随后通过12个残差块提取深层特征,最终通过卷积层输出精细特征。网络结构如图8所示。
Figure 8. Deep feature extraction network
图8. 深层特征提取网络
4.4. 先验估计网络
PENet中采用2个HourGlass模块,通过编码器–解码器结构结合跳跃连接,从粗糙图像中估计人脸关键点热图和解析图。如图9所示。
Figure 9. Prior estimation network
图9. 先验估计网络
4.5. 精细重建网络
FRNet首先拼接图像特征与先验特征,通过3 × 3卷积降维后经反卷积上采样,再通过3个残差块和ECA模块最终重建高分辨率图像,如图10所示。
Figure 10. Fine reconstruction network
图10. 精细重建网络
4.6. 损失函数
给定训练集
,
为真实高分辨率图像,
为真实的人脸结构化先验信息(包含边缘图与解析图)真实图像。设
为输入的低分辨率图像,网络首先生成粗糙超分辨率结果:
(3)
其中,
表示粗糙重建映射。随后将
分别送入先验估计网络
和深层特征提取网络
,即
,
(4)
其中,
为深层特征,
为估计的结构化先验信息。最终通过精细重建网络
融合特征
和结构化先验信息
,得到最终的高分辨率图像
。即
(5)
1) 像素损失
在图像超分辨率中,通常使用均方误差(mean square error, MSE)损失可以获得较高的评价指标,例如PSNR和SSIM,为避免MSE损失导致的高频信息丢失与过度平滑问题,在此使用L1损失作为像素损失函数[20],有
(6)
2) 人脸先验损失
为约束人脸先验估计过程,定义以下损失函数,有
(7)
3) 总损失
模型总损失为以上两项损失的加权组合,即
(8)
其中,
表示训练样本数,
、
表示权重系数,
是真实的高分辨率图像,
是粗糙的高分辨率恢复图像,
是精细的高分辨率恢复图像,
是真实的结构化先验信息,
是估计的结构化先验信息。
5. 实验数据与环境
5.1. 实验数据
CelebA [21]数据集是香港中文大学开源大规模的人脸检测基准数据集。实验采用Helen [22]数据集进行补充验证,随机选取1200张训练,400张测试。主体实验采用CelebA Mask-HQ [23]数据集,该数据集包含30,000张分辨率为1024 × 1024的高清人脸图像,每张图像均标注有19类面部组件的语义掩码,实验从中随机划分出17,000张作为训练集,剩余13,000张作为测试集。数据集示例如图11所示。
Figure 11. Partial image of the CelebA Mask-HQ dataset
图11. CelebA Mask-HQ数据集部分图像
5.2. 实验设置
实验使用Torch7框架,输入图像统一裁剪为128 × 128尺寸,使用RMSprop算法(root mean square prop)训练模型,初始学习率为2.5 × 10−4,最小批量为14,低分辨率图像通过双三次插值放大至目标尺寸后输入网络。
5.3. 消融实验
为系统验证本文所提各模块的有效性及其协同作用,我们设计了严格的消融实验。所有实验均在相同的训练设置、数据集(CelebA Mask-HQ)和评估指标下进行。
1) 注意力机制类型对比实验
为验证高效通道注意力模块在本框架中的选择依据,我们将其与当前主流的通道注意力(SENet)和混合注意力(CBAM)进行了全面的性能与效率对比。基线模型不包含任何注意力模块,结果如表1所示。
Table 1. Effects of different attention mechanisms on network performance (in CelebA Mask-HQ dataset)
表1. 不同注意力机制对网络性能的影响(在CelebA Mask-HQ数据集)
注意力机制 |
PSNR (dB) |
SSIM |
参数量(M) |
推理时间(ms) |
无 |
22.35 |
0.7008 |
1.20 |
12.5 |
SENet [13] |
23.10 |
0.7250 |
1.52 |
15.2 |
CBAM [12] |
23.25 |
0.7280 |
1.61 |
16.8 |
ECA (Ours) |
23.64 |
0.7313 |
1.28 |
13.1 |
实验数据表明,三种注意力机制均能提升基线模型性能,但其增益与代价各不相同。SENet通过显式建模通道依赖带来提升,但其全连接层造成的维度缩减会导致信息丢失,并增加参数量。CBAM通过串行的通道与空间注意力进一步提升了性能,但随之而来的是最高的计算复杂度。相比之下,本文采用的ECA模块取得了最优的PSNR与SSIM。这一结果证明,ECA在性能与效率之间取得了最佳平衡,特别适合集成于需要密集特征处理的人脸超分网络中。
2) 结构化先验信息与注意力机制的协同效应
本文的核心论点是结构化先验信息与高效注意力机制能够产生协同效应。为验证此点,我们构建了四个对比模型,结果如表2所示。
Table 2. Synergistic analysis of prior information and attention mechanism
表2. 先验信息与注意力机制的协同效应分析
模型配置 |
PSNR (dB) |
SSIM |
基线(无先验,无ECA) |
22.35 |
0.7008 |
仅先验信息 |
23.21 |
0.7294 |
仅ECA注意力 |
23.52 |
0.7315 |
先验信息 + ECA (完整模型) |
23.64 |
0.7313 |
由表2可知,单独引入结构化先验信息或ECA模块均能带来显著的性能提升。然而,当二者结合时,模型达到了最优性能。这表明二者在本框架中扮演着互补且协同的角色:结构化先验信息从宏观上为网络提供了可靠的面部几何约束,确保了重建图像的结构正确性;而ECA模块则从微观上增强了网络对关键纹理特征(如眼睛、嘴唇轮廓)的提取与利用能力。先验信息引导网络应该在哪里生成什么,而ECA则帮助网络更好地生成那里的细节。这种协同作用使得完整模型在客观指标上超越了任何单一组件带来的增益。
3) ECA模块插入数量的影响
我们进一步探究了在CSRNet中插入ECA模块的数量对最终性能的影响,以确定最优配置。结果如表3所示。
Table 3. Impact of the number of ECA modules on network performance
表3. ECA模块数量对网络性能的影响
在CSRNet中添加ECA的个数 |
CelebA Mask-HQ |
Helen |
0 |
23.21/0.7294 |
23.19/0.7105 |
1 |
23.52/0.7315 |
23.31/0.6684 |
2 |
23.60/0.7312 |
23.45/0.6649 |
3 |
23.64/0.7313 |
23.46/0.6825 |
4 |
23.64/0.7315 |
23.46/0.6829 |
5 |
23.58/0.7317 |
23.40/0.6821 |
当ECA数量从0增加到3时,PSNR与SSIM指标呈现稳定上升趋势,表明适度的特征校准对性能提升具有积极作用。然而,当数量超过3个后,性能提升趋于饱和并出现轻微波动。这一现象表明:过度的注意力校准可能引入特征冗余,或导致优化曲面过于复杂,从而影响模型收敛。基于此实验结果,我们选择在CSRNet中插入3个ECA模块作为最终配置,以实现性能与复杂度的最优平衡。
4) 堆叠沙漏网络数量的影响
先验估计网络的容量对先验信息的质量具有决定性影响。我们通过改变其中堆叠的沙漏网络数量来探究其影响规律,结果如表4所示。
Table 4. Impact of the number of hourglasses on network performance
表4. Hourglass数量对网络性能的影响
Hourglass数量 |
CelebA Mask-HQ |
Helen |
1 |
17.73/0.42 |
19.23/0.43 |
2 |
23.55/0.70 |
24.83/0.65 |
3 |
21.23/0.66 |
22.23/0.63 |
4 |
19.04/0.59 |
20.56/0.61 |
当使用1个Hourglass时,网络容量不足,难以准确捕捉人脸的多尺度结构特征,导致先验信息质量较差,最终重建性能显著下降。当使用2个Hourglass时,网络具备了足够的表达能力来提取精确的人脸结构信息,从而生成高质量的先验,并带来最优的重建效果。然而,当数量进一步增加到3个和4个时,性能出现明显下降。这一现象可能源于两个因素:过深的先验估计网络增加了训练难度,同时容易过拟合训练集的人脸结构分布,从而削弱了模型的泛化能力。因此,采用2个堆叠沙漏网络能够在模型容量与泛化性能之间取得最佳平衡。
5.4. 对比实验
为全面评估模型性能,采用主观评价与客观评价相结合的方式。主观评价通过视觉感知判断图像清晰度与自然度;客观评价采用峰值信噪比(PSNR)与结构相似度(SSIM)作为量化指标,其计算公式如下:
PSNR的计算公式如下:
(9)
(10)
(11)
其中,MSE是均方误差,
是图像x和图像y之间的亮度对比,
是图像x和图像y之间的对比度对比,
是图像x和图像y之间的结构对比。SSIM的取值范围从0到1,取值越大效果越好。
1) 定量分析
在CelebA Mask-HQ和Helen数据集上,将本文模型与Biubic [24]、SRCNN [25]、EDSR [26]、URDGN [27]、FSRNet [5]进行对比,如表5所示,本文方法在PSNR指标上分别达到23.64 dB与24.83 dB,较FSRNet提升0.43 dB与0.34 dB,SSIM值亦保持领先,验证了模型改进的有效性。
Table 5. Evaluation results of different models on CelebA Mask-HQ and Helen datasets
表5. 不同模型在CelebA Mask-HQ 和Helen数据集上的评价结果
Dataset |
Bicubic |
SRCNN |
EDSR |
URDGN |
FSRNet |
OURS |
CelebA Mask-HQ |
22.36/0.61 |
22.53/0.63 |
23.02/0.63 |
20.70/0.50 |
23.21/0.73 |
23.64/0.74 |
Helen |
22.59/0.62 |
23.05/0.65 |
23.18/0.64 |
21.65/0.55 |
24.49/0.72 |
24.83/0.62 |
2) 定性分析
视觉对比结果如图12、图13所示。相较于基线模型,本文方法在眼睛、嘴唇等关键区域有效减少了失真与模糊现象,纹理细节更加清晰,面部结构保持更为完整,体现出更优的视觉重建质量。
Figure 12. Comparison diagram of different algorithms
图12. 不同算法对比图
Figure 13. Detail enlargement comparison
图13. 细节放大图对比
6. 结束语
本文提出了一种融合高效通道注意力与结构化先验信息的人脸超分辨率重建网络。通过系统性的模型设计与实验验证,我们得出以下结论:第一,人脸边缘图与解析图作为互补先验,能有效约束重建过程的面部结构;第二,ECA注意力机制能以极低的计算成本显著提升模型对关键特征的表征能力,其在性能与效率的平衡上优于SENet与CBAM;第三,先验信息与注意力机制之间存在协同增强效应,二者结合能引导网络生成细节更丰富、结构更准确的高分辨率人脸图像。
未来的工作将集中于两方面:一是在精细重建网络中探索迭代或递归机制,以逐步重建结果;二是研究动态注意力机制,使其能自适应不同区域的重建难度,进一步提升在极端低质输入下的鲁棒性。