1. 引言
字体作为视觉传达与信息表达的重要载体,在出版印刷、品牌设计、数字媒体、网页排版及人机交互等领域具有广泛应用[1]。除了传递文本信息外,字体还承载着文化符号、历史记忆和视觉美学特征,对品牌识别、用户体验以及信息可读性均起到关键作用。同时,不同字体风格能够强化情感表达、视觉层次和排版效果,是视觉设计与信息传达不可或缺的重要元素。随着数字化和全球化的推进,多语言文本在电子媒介中的使用日益增加,对字体生成、跨语言排版以及多语种字库构建提出了更高的需求[2]。然而,传统字体设计流程需依赖设计师逐字完成笔画构形、曲线光滑化、字重平衡以及字面度量调整等繁琐步骤,不仅劳动密集、耗时长,也难以在多语种大字符集上保持风格一致性和骨架结构稳定性[3]。
近年来,基于深度学习的少样本字体生成技术成为提升字体生产效率的重要途径。该类方法能够利用极少量的参考样本学习字体风格规律,重建完整字库,从而有效降低字体制作成本并提高生成效率。在单语言字体生成任务中,现有方法如EasyFont [4]能够基于少量手写样本学习笔画形态的统计分布,并在大规模字符集上实现较为稳定的风格一致性生成。LSCG-FCST [5]则通过多层次相似度计算,进一步提升内容特征与风格特征在不同层级上的细粒度匹配能力。这些研究在单语言字体生成中取得了显著进展,为多语言字体生成提供了坚实基础。然而,在跨语言字体生成场景中,不同文字体系在几何结构、笔画组合方式、部件排列规则及视觉规范等方面存在显著差异,使单语言生成模型在结构保持、笔画骨架一致性和风格迁移上面临重大挑战。这些差异导致原有方法难以在跨语言任务中有效建模特定文字体系的结构特征,并限制了风格迁移的精细化与多样性表达。为解决上述问题,本文提出了一种基于注意力增强与三元组约束的少样本字体生成方法,主要体现在以下两个方面:
(1) 在风格特征提取阶段,引入一种基于上下文增强的注意力机制(Contextual Transformation Attention, CoT-Attn)。该模块首先利用局部卷积操作捕获笔画纹理、线条粗细等局部细节特征,随后通过自注意力结构建模字符整体布局及跨笔画的长程依赖关系,并结合上下文感知的特征变换与自适应融合策略,实现局部细节与全局结构信息的动态整合,从而增强模型对多尺度字体风格特征的表达能力。
(2) 在模型训练阶段,引入三元组损失(Triplet Loss)构建内容–风格对比约束,将同一字符的同风格样本作为正样本、同字符的不同风格样本作为负样本,以缩小风格一致样本间的特征距离、扩大不同风格样本间的差异,从而促进内容特征与风格特征的有效解耦,提升跨语言字体生成中的结构稳定性与风格一致性。
2. 研究现状
随着深度学习技术的快速发展,字体风格迁移与生成领域迎来了显著的技术变革[6]。2016年,田雨辰等人[7]首次将卷积神经网络引入字体风格迁移任务,验证了深度学习方法在字体风格建模与迁移中的可行性,为后续相关研究奠定了基础。此后,基于深度神经网络的字体生成与风格迁移方法不断涌现,逐步推动字体生成从传统规则驱动向数据驱动范式转变。
2.1. 少样本字体生成
在少样本字体生成方面,研究者围绕风格特征建模、结构保持与生成稳定性等问题开展了大量探索。Dai等[7]提出基于多尺度判别器的书法风格迁移方法,通过在不同尺度上约束生成结果,有效提升了字体整体轮廓与局部笔画细节的协调性。Zhang等人[8]引入密集块与胶囊网络构建中文书法字符生成模型,在一定程度上增强了模型对字符内部空间结构关系的表达能力。Liu等人[9]提出基于风格引导判别器的字体生成方法,通过构建字体样式空间,实现了在少量样本条件下较为稳定的风格迁移效果。
针对内容与风格解耦问题,刘宇等人[10]提出无监督的内容–风格分离模型,通过密集语义对应与多尺度风格判别机制,提高了生成字体在结构保持与风格一致性方面的表现。赵宏等人[11]基于Res2Next架构构建多尺度特征提取框架,并引入对比学习与Shuffle Attention机制,在手写字体生成任务中改善了细节还原效果。围绕名家书法风格扩展问题,张嘉等人[12]结合Zi2zi与CycleGAN,构建了结构引导的风格生成模型,实现了书法风格字库的有效扩展。此外,周雅琴等人[13]通过文献计量分析指出,深度学习、风格迁移与生成对抗网络已成为生成式字体设计领域的主要研究热点。
总体来看,现有少样本字体生成方法在单语言场景下已能够较好地建模字体风格特征,并实现一定程度的结构保持。然而,这类方法普遍依赖于语言内部的结构一致性假设,其在跨文字体系任务中的适应能力仍然有限。
2.2. 跨语言少样本字体生成
针对跨语言字体生成中不同文字体系在结构复杂度、笔画组合方式和空间布局规则上的显著差异,研究者进一步提出了一系列跨语言少样本字体生成方法。FTransGAN [14]通过多层次注意力机制提取语言无关的高层风格特征,实现了不同字体风格之间的基础对齐,但在处理结构复杂或笔画密集字符时,细粒度结构保持能力仍有不足。MF-Net [15]针对不同语言在结构复杂度上的差异,引入语言复杂度感知的跨语言跳跃连接结构,使模型能够根据字体特性自适应调整内容表征,从而提升跨语言迁移的稳定性。MA-Font [16]构建了包含内容自适应模块、多头注意力模块和协同自适应模块的端到端框架,通过多层次特征交互增强跨语种风格迁移效果,在一定程度上提高了笔画保真度与风格一致性。FCA-GAN [17]引入全域卷积注意力机制,对跨尺度笔画与纹理依赖关系进行建模,改善了生成字体中局部细节连贯性与整体风格统一性。
总体而言,现有跨语言字体生成方法多通过注意力机制、结构对齐或自适应特征建模策略缓解不同文字体系之间的结构差异,在内容与风格融合方面取得了一定进展。然而,在极少样本条件下,这类方法仍面临结构细节保持不足、复杂字形泛化能力有限等问题,跨语言字体生成的稳定性与一致性仍有待进一步提升。
3. 本文方法
3.1. 生成对抗网络
生成对抗网络提供了一种无需依赖大量标注数据即可学习深度特征表示的方法,其核心思想是通过生成器(Generator)和判别器(Discriminator)两个网络的对抗训练过程,实现模型性能的优化[18]。具体而言,生成器通过学习输入数据的分布,生成与真实样本尽可能接近的输出;而判别器的目标是区分生成器生成的输出与真实数据。生成器和判别器通过不断对抗优化,最终使生成器能够输出高质量的结果。生成对抗网络的核心训练过程实际上是一种极小极大博弈,其训练目标如下所示:
(1)
其中x表示真实样本数据,z表示输入的噪声随机函数,D(x)表示判别器判断是否为真实样本数据的概率,D(G(z))表示判别器判断是否为生成样本的概率。
3.2. 网络模型
本文提出的网络模型整体结构如图1所示,由生成器与判别器两部分组成。生成器由内容编码器、风格编码器和解码器三个模块构成。内容编码器以内容字体图像作为输入,用于提取字符的结构与语义特征;风格编码器以目标风格字体图像为输入,通过多样本联合建模的方式提取稳定且具有代表性的风格特征。通过将内容特征与风格特征进行拼接,输入至解码器中进行重建,从而生成兼具目标风格与内容结构的字体图像。
在对抗训练阶段,生成图像分别与对应的内容图像和风格图像一同输入至内容判别器和风格判别器,通过双判别器结构从结构保持与风格一致性两个维度对生成器施加约束。该对抗学习机制促使生成器在保持字符结构稳定性的同时,更准确地迁移目标字体风格特征,从而提升生成字体在结构保真度与风格一致性方面的整体性能。
Figure1. Network structure diagram
图1. 网络结构图
3.2.1. 生成器
内容字体图像xc经内容编码器处理后得到字体图像特征,记为zc。风格字体图像
经与内
容编码器结构相同的风格编码器进行特征提取,得到初始风格特征zs。为增强风格特征在空间结构与细节层面的表达能力,本文在风格编码阶段引入层级注意力增强模块,对风格特征zs进行进一步优化处理。
Figure 2. CoT-Attn network architecture diagram
图2. CoT-Attn网络结构图
为提升模型对字形空间结构的建模能力,在风格特征提取阶段引入了CoT-Attn模块,其网络结构图如图2所示。该模块通过显式引入二维归一化坐标映射,以对字体的空间位置信息进行建模。显式引入二维坐标映射能够为字体风格特征提供连续的空间参考,使模型在特征学习过程中感知笔触纹理、粗细变化等风格属性在字形空间中的分布关系,从而在风格迁移过程中提升空间一致性。该坐标根据特征图空间尺寸自动生成,其中
分别表示水平与垂直方向的归一化位置编码。随后,将位置坐标与风格特征zs在通道维度拼接,并通过1×1卷积完成通道映射,用于生成具备位置感知能力的局部上下文风格特征表示Kl。
(2)
同时,为建模风格特征内部的长程依赖关系,模块并行引入自注意力机制,对输入特征zs分别进行Query、Key与Value映射,并通过注意力权重计算获得全局风格特征表示A。
(3)
(4)
为实现局部与全局信息的自适应融合,CoT-Attn模块引入门控机制对两类特征进行动态融合。具体而言,首先将特征Kl与特征A在通道维度拼接得到特征表示F。随后通过卷积操作及Sigmoid激活函数生成空间自适应的门控权重。该权重用于调控不同空间位置上局部风格特征与全局风格特征的贡献,在不破坏内容结构的前提下强化整体风格一致性。通过上述方式,模块在保证全局风格协调性的同时,有效保留字体的局部结构细节。
(5)
(6)
其中
表示逐元素加权。
在获得具备空间感知能力的风格特征表示后,为进一步增强风格在不同尺度下的稳定表达能力,本文引入多尺度风格表示。具体而言,通过下采样操作获得更低空间分辨率的层级特征,并分别输入特征增强模块,得到对应的增强特征表示cs2、cs3.在此基础上,引入层注意力机制对各层风格特征进行自适应加权融合,动态调节不同尺度特征在最终风格表达中的贡献,从而获得融合后的风格特征表示cs。
(7)
其中
、
和
为权重系数。
解码器将内容编码器提取的内容特征zc与融合后的风格特征cs进行特征拼接,并通过多尺度卷积与逐级上采样操作,逐步恢复字形的空间分辨率与细节结构,最终生成在内容结构与风格属性上均与目标字体保持一致的字形图像
。
3.2.2. 判别器
本文采用双分支判别器结构,由内容判别器和风格判别器组成,分别从结构一致性和风格一致性两个角度对生成字体进行评价。两个判别器均基于PatchGAN架构,由多层卷积块堆叠构成,每个卷积块包含卷积、BatchNorm和LeakyReLU激活,最终通过局部判别输出评估图像的真实性[5]。通过双判别器的协同训练,生成器能够同时保持字形结构与风格特征的一致性,从而提升生成字体的整体质量。
3.3. 损失函数
本文的损失函数由对抗损失、L1损失和三元组损失三部分组成。其中,对抗损失用于提升生成字体的整体真实性;L1损失在像素层面约束生成结果与目标之间的差异;三元组损失则通过特征距离约束,进一步强化生成字体在风格层面的判别性与一致性。
3.3.1. 对抗损失
对抗损失由内容对抗损失和风格对抗损失两部分组成,分别用于约束生成结果在字形细节与风格上与目标字体保持一致,其定义如下:
(8)
内容对抗损失由内容生成损失和内容判别损失两部分组成。其中,内容生成损失用于约束生成图像在结构层面逼近内容图像,而内容判别损失则用于引导判别器区分生成图像与真实内容图像之间的结构差异,其损失函数定义如下:
(9)
(10)
(11)
其中y为目标图像,
为生成图像,xc为内容图像,Dcontent为内容判别器。
风格对抗损失由风格生成损失和风格判别损失两部分组成。风格生成损失促使生成图像学习风格字体图像的特征,风格判别损失则用于判断生成图像是否具备与目标图像一致的风格特征,其损失函数定义如下:
(12)
(13)
(14)
其中为y目标图像,
为生成图像,xs为风格图像,Dstyle为风格判别器。
3.3.2. L1损失函数
为了提高字体生成的稳定性,本文引入L1损失来衡量生成图像和参考图像之间的像素级误差,从而确保生成图像在局部特征上与目标图像保持一致。其定义如下:
(15)
其中y为目标图像,
为生成图像。
3.3.3. 三元组损失函数
三元组损失函数最初用于度量学习任务中,通过比较锚点图像、同类正样本图像和不同类别负样本图像的特征距离,提升模型在特征空间中对类别差异的判别能力。在字体生成任务中,为了进一步增强生成字体在特征空间对目标风格的判别能力,本文将三元组损失应用于生成字体
的特征约束,使其更接近于目标字体y,同时远离内容字体xc。在具体计算过程中,生成字体、目标字体和内容字体的特征均通过ResNet网络进行提取,得到对应的图形特征。基于欧氏距离的三元组损失定义如下:
(16)
其中,
表示通过预训练的ResNet网络提取的字体特征。该网络在训练过程中参数保持不更新,仅作为特征提取器用于构建三元组损失,以约束生成字体与目标字体之间的风格相似性,d为欧氏距离,margin为间隔超参数,用于控制正负样本之间的最小距离差。
3.3.4. 整体损失函数
综上所述,根据式(8)~(16),本文模型的整体损失函数定义如下:
(17)
其中
、
和
分别为损失项的可学习权重,用于在训练中实现自适应平衡。
4. 实验
4.1. 数据集
本研究采用FTransGAN数据集作为实验数据来源[14]。所有字体图像均统一标准化为64 × 64的灰度图像,以保证不同字体风格之间的分辨率一致性。训练集包含超过800种中文字体,每种字体由1000个中文字符及52个英文字母构成。为降低字符结构差异对模型训练的干扰,本文选取Microsoft YaHei作为默认内容字体,并从英文字母中随机抽取6个字母作为风格参考样本。
在测试阶段,本文沿用FTransGAN数据集中的两种标准评测设置。未见字体–已见字符测试集(Unseen Font Seen Character, UFSC)包含29种训练阶段未出现的字体样式,每种字体包含1000个中文字符,这些字符类别在训练集中均已出现,用于评估模型在未知字体条件下的风格迁移能力。已见字体–未见字符测试集(Seen Font Unseen Character, SFUC)由训练集中出现的818种字体构成,但在字符层面随机剔除29个中文字符,用以检验模型在已知字体风格条件下生成未见字符的能力。上述两个测试集在字体样式和字符组成上均与训练集严格区分,从而保证实验评估的客观性与公平性。
4.2. 评价指标
生成字体的质量从像素级重建精度、结构相似性以及感知真实度三个方面进行评估。像素级重建误差采用平均绝对误差(Mean Absolute Error, MAE)和均方根误差(Root Mean Square Error, RMSE),其数值越低表示生成图像与参考图像之间的像素差异越小、重建精度越高[19]。结构相似性采用结构相似性指数(Structural Similarity Index, SSIM)及多尺度结构相似性指数(Multi-Scale SSIM, MS-SSIM),用于衡量生成图像与参考图像在亮度、对比度及结构纹理等方面的一致性[20]。感知真实度采用学习的感知图像块相似性(Learned Perceptual Image Patch Similarity, LPIPS)指标,在深度特征空间中评估生成字体的视觉自然度,其数值越低表示生成结果在感知层面上越接近真实字体[21]。
4.3. 对比试验
为进一步验证所提出方法的有效性,本文将其与EMD [22]、FTransGAN [14]和MF-Net [15]方法进行了对比实验。其中,EMD采用独立的内容编码器与风格编码器结构,分别提取字符的内容特征与风格特征;FTransGAN则通过多尺度注意力机制实现局部与全局风格特征的融合;MF-Net结合语言复杂度感知的跳跃连接以适应跨语言结构差异。
实验结果如图3所示。在UFSC数据集上,EMD在字体生成过程中容易丢失字符的整体结构信息,部分样例甚至无法完整保持字符轮廓;FTransGAN虽然能够较好地维持字符的整体结构,但在风格细节表达方面仍存在不足,生成结果与目标风格之间存在明显差异;MF-Net更适用于纤细笔画字体的生成,对于笔画较粗的字体,容易丢失部分结构特征。相比之下,本文方法在保持字符结构稳定性的同时,能够更准确地复现目标字体的风格特征,使生成字体在结构一致性与风格相似性方面均表现出更优的效果。
在SFUC数据集中,纤细笔画及复杂交叉结构更能体现模型对字符结构的建模能力。EMD与FTransGAN在处理细线条时均不同程度地出现笔画断裂、节点缺失等问题,例如在“丹”字中,交叉笔画处存在明显的结构丢失现象。MF-Net虽然能够保持字符的整体结构,但在风格细节刻画方面仍存在不足,导致生成结果与目标字体之间差异较大。相比之下,本文方法能够更有效地捕获细粒度笔画特征,在保证字符可辨识性的同时,实现更加清晰且一致的风格表达。
Figure 3. Comparison of experimental results display
图3. 对比实验结果展示图
如表1所示,在UFSC数据集中,与EMD方法相比,本文方法在MAE、RMSE、SSIM及MS-SSIM等指标上均具有显著优势,充分证明其在字体结构保真度和风格一致性方面的有效性。FTransGAN的整体性能优于EMD,但在SSIM与MS-SSIM等指标上仍不及本文方法,表明其在字符结构精细保持方面存在一定不足。MF-Net在部分结构指标上表现相对稳定,但其在像素误差与感知一致性方面仍存在一定差距,整体性能略逊于本文方法。在SFUC测试集上,本文方法在MAE、SSIM与MS-SSIM指标上优于对比模型,进一步验证了其在生成复杂笔画未见字符时的泛化能力和鲁棒性。
Table 1. Summary table of indicators from comparative experiments
表1. 对比实验各项指标汇总表
|
LPIPS↓ |
SSIM↑ |
MAE↓ |
RMSE↓ |
MS-SSIM↑ |
Unseen Font Seen Character (UFSC) |
EMD |
0.2723 |
0.2891 |
0.4857 |
0.6870 |
0.2368 |
FTransGAN |
0.1389 |
0.3171 |
0.3624 |
0.5774 |
0.3361 |
MF-Net |
0.2045 |
0.3206 |
0.4302 |
0.5742 |
0.3105 |
Ours |
0.1391 |
0.3216 |
0.3601 |
0.5759 |
0.3383 |
Seen Font Unseen Character (SFUC) |
EMD |
0.2052 |
0.3945 |
0.2815 |
0.4558 |
0.3383 |
FTransGAN |
0.1131 |
0.4447 |
0.2459 |
0.3829 |
0.4418 |
MF-Net |
0.2102 |
0.4172 |
0.3313 |
0.4426 |
0.3567 |
Ours |
0.1149 |
0.4452 |
0.2375 |
0.3831 |
0.4429 |
4.4. 消融实验
为评估CoT-Attn模块在风格特征提取与迁移过程中的具体作用,本文在UFSC数据集上对其进行了消融实验。实验旨在验证不同层数的CoT-Attn对生成字体的风格表达、笔画连贯性及整体风格一致性的影响。如图4所示,单层CoT-Attn (w/1)虽能引入部分风格信息,但整体风格表达仍不稳定,局部笔画存在断裂与噪声。随着CoT-Attn层数增加(w/2、w/3),生成字体在笔画连贯性、粗细一致性以及整体风格完整性方面均得到明显提升。结果表明,多层CoT-Attn有助于更充分地建模和融合风格特征,使生成结果在UFSC场景下更接近目标字体风格,从而提升风格迁移的稳定性与一致性。
Figure 4. Ablation experiment results
图4. 消融实验结果
5. 结论
本文提出了一种融合多层次上下文注意力机制与三元组损失约束的少样本字体生成方法,针对跨语言字体生成场景中风格特征表达不足、结构迁移不稳定等问题进行了有效改进。通过在风格编码阶段引入多级注意力模块,模型能够协同建模字体的局部笔画细节与整体结构布局,从而增强生成结果的风格表达能力;同时,三元组损失从特征空间层面对内容与风格进行约束,有效提升了生成字体在结构完整性与风格一致性方面的表现。
实验结果表明,所提出方法在字体结构保真度和风格迁移质量等多项评价指标上均优于现有主流方法,验证了其在跨语言少样本字体生成任务中的有效性与鲁棒性。未来工作将进一步围绕注意力建模效率与跨语言特征泛化能力展开研究,以支持更复杂字体结构和更丰富风格条件下的字体生成应用。