1. 引言
人脸风格迁移是对图像的颜色、纹理等进行改变并保证其内容特征不变的一种计算机视觉技术,可以在保留人脸结构细节的同时生成风格化的新图像。该技术被广泛应用于艺术创作和社交媒体等领域,具有重要研究价值。
风格迁移技术主要分为传统风格迁移技术和神经风格迁移技术(Neural Style Transfer, NST)。传统风格迁移技术主要包括非真实感渲染[1]-[3] (NonPhotorealistic Rendering, NPR)和纹理迁移[4]-[6]。其中,NPR包括笔触渲染、图像类比和图像滤波三种方法,是利用计算机模拟中国画、水彩、版画等各种视觉艺术风格的绘制。纹理迁移技术根据参考图像对输入图像进行纹理填充,使得生成图像有和参考图像类似纹理。传统风格迁移技术可以较好应用于艺术作品的生成,但仍存在不足。随着深度学习的发展,卷积神经网络被应用于风格迁移。神经风格迁移技术是一种基于优化技术将参考图像风格转移到输入图像中的风格迁移方法。Gatys等人[7]提出基于VGG (Visual Geometry Group)网络[8]的神经风格迁移模型,基于统计参数根据全局统计信息来进行风格匹配,首次运用神经网络模型来实现风格迁移。为了解决Gatys模型效率低下的问题,Johnson等人[9]提出一种基于前向传播(Feed-forward)的优化模型,使用感知损失函数构建前馈网络进行风格迁移,完成实时图像风格迁移任务。在此基础上,单个模型多种风格迁移算法被提出,Karras等人[10]提出了StyleGAN模型,一种基于生成对抗网络(GAN)的生成器框架。使用低分辨率的图像训练生成器和鉴别器,依次增加更高分辨率的层,最终得到迁移结果,但是该模型生成的图像存在水滴状伪影。为了解决此问题,Karras等人提出了StyleGAN2模型[11],重新设计了生成器归一化,并对生成器进行了正则化。在此基础上,Yang等人[12]提出了DualStyleGAN模型,该模型在StyleGAN2的基础上使用内在风格路径和外在的风格路径来刻画图像的内容和风格。能够分层地调节颜色和复杂的结构样式,实现风格的精确迁移,但是该模型仍存在风格迁移效果不明显、不准确,局部纹理不合理等问题。
综上,在上述算法中,基于StyleGAN模型的人脸风格迁移算法能够生成视觉效果较好的图像,但是仍存在一定不足。为了在保留内容图像语义信息和细节特征的同时有效学习风格图像的特征,更好地实现人脸风格迁移准确性和艺术性,本文提出了动态注意力语义特征增强的人脸风格迁移方法,本文的贡献包括:1) 提出了归一化傅里叶卷积将人脸特征转化到频域中进行处理,使网络更好地捕捉图像纹理、细节和结构等频率信息;2) 提出了一个新的动态注意力结构控制块,使生成器更高效地学习风格图像的结构特征并较好保留原始人脸特征;3) 引入色彩一致性损失函数,有效保持生成图像和风格图像的颜色相似性。
2. 提出方法
2.1. 模型框架
本文提出了一种基于StyleGAN2模型的人脸图像风格迁移方法,网络总体流程图如图1所示。输入真实人脸图像和风格人脸图像,首先经过编码器得到真实人脸特征编码G_T和风格人脸特征编码G_S,经过风格迁移网络得到风格化人脸图像。该风格迁移网络由生成器和鉴别器构成。
其中,生成器由结构控制层(1~7层)和颜色控制层(8~18层)构成。结构控制层能够在学习风格图像的面部结构特征和纹理细节的同时保留真实人脸的面部五官特征。颜色控制层对真实图像进行进一步的颜色处理得到更加合理自然的风格化图像。
Figure 1. Overall framework diagram of style transfer
图1. 风格迁移总流程图
2.2. 归一化傅里叶卷积
由于传统卷积处理特征编码过程存在局部信息丢失等缺点,因此本文提出归一化傅里叶卷积替换传统卷积。其将输入特征转化到频域中进行处理,使网络更好地捕捉图像的纹理、细节和结构等频率信息。并且傅里叶变换具有平移不变性和计算高效性使模型可以更高效的捕捉图像的风格信息。此外,归一化可以进一步提升傅里叶变换的稳定性和泛化能力,提高生成结果质量,归一化傅里叶卷积模型流程图如图2所示。
Figure 2. Flowchart for normalized fourier convolution
图2. 归一化傅里叶卷积流程图
归一化傅里叶卷积首先将输入的风格编码
经过归一化层,由式(1)表达。
(1)
其中,
是输入风格编码z在第n个样本、第c个通道、第h行、第w列的元素。
是均值,计
算公式为
。
是方差,计算公式为
。
是归一化的缩放因子,
是归一化的偏移量,
是一个小的常数。
将得到的张量
输入快速傅里叶卷积(FFC) [13],
分别表示空间分辨率和通道数。其中,FFC由两条互相连接的路径组成:在部分输入特征通道进行普通卷积的局部路径、在谱域中操作的全局(频谱)路径,两条路径均可以捕获不同感受野的互补信息。首先沿着特征通道的维度将
拆分为
。对于局部部分,
从局部邻域学习;对于全局(频谱)部分,
学习全局上下文信息,
表示分配给全局分布的特征通道的百分比。使用
作为FFC的输出,同样将
拆分为
,输出张量的全局比例由
控制,设置
,FFC的更新公式见式(2) (3)
(2)
(3)
其中,对于分量
是使用正则卷积来捕获小尺度信息,以充分利用多尺度接受域,并将计算度复杂最高的
称为频谱转换器
。
2.3. 动态注意力结构控制模块
在结构控制层(1~7)中,本文提出结合动态注意力[14]的结构控制块,其流程图如图3所示。在[12]的实验中表明,AdaIN可以高效模拟风格样式,残差网络[15]可以很好模拟微调过程中的卷积变化,并且动态注意力机制可以有效提高残差网络的性能和稳定性,在学习风格图结构特征的同时有效保留原图人脸特征,有效提高了风格迁移效果的准确性。
Figure 3. Flowchart of the dynamic attention structure control module
图3. 动态注意力结构控制模块流程图
首先将内容输入z和风格输入
经过AdaIN,简单地对齐z的通道平均值和方差以匹配
的值,并从样式输入自适应地计算仿射参数,计算公式见式(4)。
(4)
其中
以及
,分别表示内容的均值和方差、风格的均值和方差。将得到的张量
(C、H、W分别代表张量的通道数,高度维度和宽度维度)分别输入三个平行分支。其中两个负责捕捉通道维度C和空间维度H或W之间的跨维度相互作用,第三个分支用于建立空间注意。将前两个分支进行拼接再通过线性层和Sigmod激活函数层动态获取权重参数,最后将得到的张量和第三分支得到的张量通过简单加求平均输出。在前两个分支中(括号中为第二个分支),分别构建了H(W)和C和之间的交互,将输入
沿着H(W)轴逆时针旋转90˚,得到张量形状为
(
)随后通过池化层,由式(5)表达,
(5)
将张量简化为
(
),再通过内核为7 × 7的卷积层和批量归一化层,得到张量形状为
(
)。最后通过Sigmod激活函数层,并沿H(W)轴顺时针旋转90˚保持原始形状。第三个分支,输入张量的通道数通过池化层减少到两个,张量形状为(
),随后通过卷积层和批量归一化层,最终通过Sigmod激活函数层得到形状注意力权重(
)。上述过程由式(6)~(9)表达:
(6)
(7)
(8)
(9)
其中
表示Sigmod激活函数,
、
和
代表三个分支中由卷积核为7 × 7的标准二维卷积层,
表示
和
经过拼接得到的张量,
表示Linear线性层。y可以简化为式(10):
(10)
其中,
表示
和
拼接后通过线性层和Sigmod激活函数层动态获取的权重参数。
2.4. 损失函数
为了提高生成图像的质量,提升结构控制块和颜色变化块的准确性,在模型训练阶段,分别从结构、颜色和整体三个方面设置损失函数。其中,G表示生成器网络。
结构:训练时结构控制块获取并迁移了风格图像的中级结构风格,在此过程中,随机生成潜在代码
和
,并希望
其中,
是具有感知损失的风格混合函数,
从
中采样,l是风格混合的层数,
是向量
和向量
的串联。计算公式如式(11)所示:
(11)
其中,
是StyleGAN2的对抗性损失,
是感知损失,通过将风格混合的层数l减少,
将会从
中学习和捕捉更多的结构样式风格,并且设置
。
颜色:颜色控制块获取并迁移了风格图像的颜色特征,为了进一步提升生成图像的质量,本文额外引入了一个色彩一致性损失函数
,计算公式由式(12)表达:
(12)
其中,
表示生成图像的颜色值,
表示参考图像的颜色值,N表示颜色通道数。
整体:为了生成图像整体更加和谐自然,本文进一步对模型进行微调。将
的风格匹配到风格图像
对S进行重建。并且应用风格损失,
和
是S的风格编码,上述过程由式(13)表达。
(13)
其中,
为上下文损失[16],
为特征匹配损失[17],设置
。关于内容损失,本文使用了单位损失[18]和ResAttention权重矩阵的
正则化,设置
,上述过程由式(14)表达。
(14)
权重矩阵的正则化使残差特征趋近于零,保留了原始的面部结构特征,有效防止了过拟合,总损失函数的计算由式(15)表达:
(15)
3. 实验结果与分析
3.1. 数据集与实验设置
实验使用了199张WebCaricature [19] [20]数据集的图像,真实人脸使用来自FFHQ [10] [21]数据集和CelebA-HQ [22] [23]数据集的图像进行训练。所有数据集中的图像大小均调整为1024 × 1024像素进行训练。在训练过程中使用Adam优化器,设置学习率为0.0001。文中模型使用的显卡芯片为NVIDIA Ge-Force RTX 3060 Ti,训练时batch_size大小为1,迭代次数为300。
3.2. 定性评估
本文所提出的风格迁移网络根据上述数据集生成动漫风格的图像,为了评价此网络,将它与目前主流风格迁移模型进行对比,包括CariMe [23]、DualStyleGAN [12]、DCT-Net [24]和S2WAT [25],所有方法均采用了作者公开的代码,并在相同的默认参数配置下进行了训练,生成结果如图4所示。第一列和第二列分别分本次实验使用的人脸图和风格参考图。从图中可以看出,CariMe生成的图像产生较大的面部扭曲以及面部特征丢失情况,如图4(a)中红色方框所示;DCT-Net生成的图像风格迁移效果不明显不准确,仍保
Figure 4. (a) Comparison of the efficacy between our approach and existing style transfer techniques; (b) Comparison of the efficacy between our approach and existing style transfer techniques
图4. (a) 本文方法和现有风格迁移方法效果对比;(b) 本文方法和现有风格迁移方法效果对比
留原图大部分特征,并且存在图像特征丢失,如图4(a)中蓝色方框所示;DualStyleGAN风格迁移风在色彩和面部结构上迁移效果均不佳,毛发等细节较粗糙,如图4(b)黄色方框所示;S2WAT生成的图像仅从颜色上进行较明显了风格迁移,并且存在图像特征丢失,如图4(b)中绿色方框所示。本文方法在风格迁移效果准确性、生成图像颜色以及与保留初始人脸特征上都取得了较好的结果,并且可以使用1024 × 1024的高分辨图像进行风格迁移。
3.3. 定量评估
本文采用了PSNR、SSIM、FID以定量评估本文模型,表1,表2分别列出评估结果,指标最优数据加粗显示。其中表1将生成图与原图进行评估,表2将生成图和风格图进行评估。
Table 1. Quantitative evaluation results of our method compared to other models (original figure)
表1. 本文方法与其他模型的定量评估结果(原图)
Model |
PSNR |
SSIM |
FID |
CariMe |
12.912 |
0.603 |
151.75 |
DCT-NET |
21.108 |
0.806 |
142.70 |
DualStyleGAN |
10.213 |
0.404 |
122.66 |
S2WAT |
20.751 |
0.849 |
58.74 |
Ours |
13.970 |
0.606 |
113.49 |
Table 2. Quantitative evaluation results of our method compared to other models (style chart)
表2. 本文方法与其他模型的定量评估结果(风格图)
Model |
PSNR |
SSIM |
FID |
CariMe |
8.082 |
0.350 |
229.60 |
DCT-NET |
9.946 |
0.436 |
175.35 |
DualStyleGAN |
13.046 |
0.549 |
123.44 |
S2WAT |
11.823 |
0.538 |
227.50 |
Ours |
15.804 |
0.671 |
111.79 |
PSNR:分别计算风格化图像与原始内容图像和风格图像之间的均方误差来评估图像失真程度。PSNR值越高,表示图像质量越高。SSIM:通过比较图像亮度、对比度和结构相似性来评估图像,主要考虑图像结构信息,SSIM值越高表示两幅图像结构相似性越好。FID:通过度量生成图片与真实图片分布之间的距离,FID值越小说明生成图像的真实性越高。结果如表1、表2可以看出,本文模型生成的风格图像在与原图有一定相似性的前提下,与风格图的评估中分数均达到了最优,较好平衡了内容特征和风格特征。
3.4. 消融实验
为了验证本文中所提出的方法的有效性,分别设计了(a) 归一化傅里叶卷积、(b) 动态注意力结构控制模块、(c) 色彩一致性损失函数的消融实验,从定性和定量两个方面进行有效性的验证。
消融实验定性研究结果如图5所示,从图5第三列的结果中可以看出基线模型存在面部结构不协调、风格迁移效果欠佳、人脸色彩不自然等缺点;添加(a)归一化傅里叶卷积学习到了更多风格图的特征,面部结构形变更自然并丰富了毛发等纹理细节;添加(b)残差注意力能更多的捕获原图人脸特征,同时人脸结构产生合理形变;添加(c)色彩一致性损失函数使得人脸面部色彩和风格图更加相似,并且整体更加自然。随着模块的不断加入,模型在保留内容图像的结构和细节信息的同时,更好的学习了风格图像的特征。并且结果图整体色彩更自然,更加准确的实现了风格迁移。
Figure 5. Qualitative research results of ablation experiment
图5. 消融实验定性研究结果
消融实验定量研究结果如表3,表4所示,其中,表3为生成图和原图进行评估,表4为生成图和风格图进行评估,指标最优数据加粗显示,由表3,表4可知,完整网络模型均取得最好得分,可见本文方法各组成部分缺一不可。
Table 3. Quantitative research results of ablation experiments (original image)
表3. 消融实验定量研究结果(原图)
Model |
PSNR |
SSIM |
FID |
Base |
10.213 |
0.459 |
122.66 |
Base + a |
12.666 |
0.540 |
119.75 |
Base + b |
12.513 |
0.515 |
115.41 |
Base + c |
11.881 |
0.504 |
118.32 |
Base + a + b |
12.895 |
0.549 |
116.63 |
Base + a + b + c |
13.970 |
0.606 |
113.49 |
Table 4. Quantitative research results of ablation experiments (style chart)
表4. 消融实验定量研究结果(风格图)
Model |
PSNR |
SSIM |
FID |
Base |
13.046 |
0.549 |
123.44 |
Base + a |
13.418 |
0.619 |
114.79 |
Base + b |
13.572 |
0.635 |
119.33 |
Base + c |
14.571 |
0.641 |
115.48 |
Base + a + b |
14.465 |
0.643 |
113.52 |
Base + a + b + c |
15.804 |
0.671 |
111.79 |
3.4. 数据集泛化实验
综上所述,本文提出的方法在WebCaricature [19] [20]数据集下得到较好实验结果图并且优于现有风格迁移方法。此外,本方法可以广泛应用于不同风格数据集,以Cartoon [26]数据集为例,实验结果如图6所示。
Figure 6. Experimental results of cartoon [26] data set
图6. Cartoon [26]数据集实验结果图
实验采用了PSNR、SSIM、FID以定量评估使用Cartoon数据集时本文模型和基线模型的生成结果,表5,表6分别列出评估结果,指标最优数据加粗显示。其中表5将生成图与原图进行评估,表6将生成图和风格图进行评估。
结果如表5、表6所示,使用Cartoon数据集时本文模型生成的风格图像和基线模型相比,在评估结果中均有一定提升。
Table 5. Quantitative evaluation results of our method and baseline method (original figure)
表5. 本文方法与基线方法定量评估结果(原图)
Model |
PSNR |
SSIM |
FID |
DualStyleGAN |
10.123 |
0.324 |
120.75 |
Ours |
12.501 |
0.596 |
112.21 |
Table 6. Quantitative evaluation results of our method and baseline method (style chart)
表6. 本文方法与基线方法定量评估结果(风格图)
Model |
PSNR |
SSIM |
FID |
DualStyleGAN |
13.248 |
0.469 |
118.32 |
Ours |
15.954 |
0.643 |
110.83 |
4. 结论
本文提出动态注意力语义特征增强的人脸风格迁移方法,该方法可以较好平衡内容特征和风格特征,生成高质量风格迁移人脸图,并且可以应用于不同风格图像的人脸风格迁移工作。本文提出归一化傅里叶卷积使模型风格迁移效果更显著,细节更丰富;提出一个新的动态注意力结构控制模块,有效提高了风格迁移效果的准确性。此外,在训练过程中,本文还引入了一个新的色彩一致性损失函数,在色彩方面提高了风格迁移的准确性。在WebCaricature数据集上对文中方法和其他4种人脸风格迁移方法进行了实验和性能对比,并且在Cartoon数据集对文中方法进行了数据集泛化实验。最终实验结果表明,文中方法可以在保留内容图像语义信息和细节特征的同时有效学习风格图像特征,并且可以广泛应用于不同风格数据集。
基金项目
上海市科学技术委员会科研计划(18060502500);上海市自然科学基金面上项目(19ZR1435900)。