1. 引言
古籍文献作为文化的重要载体,承载着丰富的历史记忆和文化价值。然而,受自然老化、环境侵蚀等因素影响,大量珍贵文献出现了不同程度的损坏,导致信息完整性和传承价值面临威胁。中国纳西族的东巴文字,作为世界上唯一仍在使用的象形文字,被誉为研究人类文字起源的活化石。作为兼具学术价值和文化意义的瑰宝,已被联合国教科文组织列入“世界记忆名录”[1]。在东巴古籍中,手写文字的损坏问题尤为显著(如图1所示)。现存古籍普遍存在笔画断裂、墨迹褪色及局部遮挡等问题,导致关键的字形拓扑结构严重缺失。这一现状不仅增加了古籍数字化处理的难度,也阻碍了东巴语言学的研究与文化遗产的传承。
Figure 1. Damaged Dongba ancient books
图1. 损坏的东巴古籍
近年来,针对图像缺损问题,基于深度学习的通用算法取得显著进展,能够在受损区域重构出视觉上连贯且合理的图像内容[2]。然而,通用图像修复算法主要针对自然场景图像或人脸图像,侧重于纹理和色彩的还原,难以捕捉东巴文字的字形结构特征信息。因此,直接将现有图像修复算法应用于损坏的手写东巴字符图像,往往导致修复结果出现字形结构不完整、纹理不清晰和语义错误等问题。
这些问题具体表现为以下几个方面:第一,现有方法易生成伪字符或歧义字符。与自然图像不同,东巴字符图像修复不仅要求视觉连贯,更强调重建字符拓扑结构和语义信息。在全局结构信息缺失的情况下,算法过度依赖局部字形信息,极易生成错误的字符结构,导致语义失真。第二,手写风格的多样性增加了修复难度。手写的东巴文存在显著的类内差异[3]。这种差异不仅体现在不同书写者的工具使用和运笔习惯,还表现在同一字符存在多种结构迥异的书写变体。现有的通用算法难以捕捉字形结构的纹理特征,导致修复结果出现风格不一致与过度平滑的问题。第三,现有的多阶段修复算法存在局限性。为了提升模型的可解释性,研究者[4]-[8]常常采用多阶段修复算法,将修复任务分解为结构预测和纹理细化等子任务,实现渐进式图像修复。然而,多阶段修复算法的性能提升往往伴随着模型参数量和计算开销的显著增加;同时,多阶段修复不仅需要额外监督信息,还可能导致前一阶段的修复误差向后累积并放大,影响最终修复效果。第四,掩码构造方式与真实场景脱节。东巴文字拓扑复杂且像素分布稀疏,而现有算法在训练中常采用简单的矩形掩码来模拟损坏[9] [10]。这些非真实掩码导致算法无法学习到足够的结构信息,在修复真实损坏古籍时泛化能力较弱,容易出现过拟合现象。
面对现有方法的局限性,手写东巴字符的损坏图像修复具有重要的研究意义与应用价值。本文首先对东巴数据集DB1404 [11]进行数据清洗和筛选,在此基础上构建了高质量东巴字符图像数据集;其次,为了模拟古籍中真实的损坏,构建了一个与东巴字符图像相适配的专用掩码数据集,从而提升修复任务在真实场景下的泛化能力。为解决损坏东巴字符图像修复问题,本文提出一种融合字形增强和Transformer的字符图像修复算法。首先,引入字形增强模块,利用离散小波变换将图像映射至频域,并在低频子带中捕捉字形拓扑特征;然后,将字形拓扑特征作为结构先验信息,指导Transformer提取多尺度特征并建立长程依赖关系,从而在缺失区域生成结构完整、语义正确和纹理清晰的东巴图像。
2. 相关工作
随着生成式图像修复算法[4]-[10]不断发展,研究者聚焦于理解图像的高层语义,利用图像上下文信息,在缺损区域生成语义连贯的图像。然而,这些通用算法无法捕捉文字特有的拓扑结构和手写风格特征,导致修复结果出现笔画断裂和结构扭曲等问题,进而削弱下游识别任务的性能。因此,针对古籍文献图像的有效修复,越来越多研究者关注恢复文本图像的纹理和结构[8]。
基于多阶段修复算法的可解释性,研究者将图像修复任务分解为内容重建和纹理恢复。Liu等[6]针对藏文古籍修复,提出骨架和边缘指导文本图像修复算法。利用Transformer重建字符骨架和边缘特征信息,并以此作为先验信息指导图像修复,在字形结构上取得较好的修复效果;但忽略了手写文本的风格多样性。Sun等[7]和Zhu等[8]针对英文文本修复,提出前景–背景两阶段修复算法,通过恢复文本的二值化前景特征作为结构先验,指导模型进行背景补全和纹理细化。然而,训练过程中需要引入额外数据集。
为了增强模型对缺损区域的感知,一些算法提升掩码与图像特征在编码过程中的联系。Li等[9]针对汉字古籍的虫蛀与墨迹扩散等问题,设计了一种模拟真实侵蚀的掩码,指导扩散模型精准定位修复区域;然而受限于掩码生成算法,无法修复非侵蚀类型损坏文本。Zhang等[10]提出一种多尺度特征融合模块,通过增强掩码区域的上下文信息交互,提升了东巴文本图像的修复效果。
面对手写东巴文书写风格多变与结构复杂的挑战,直接将现有的算法[12]-[14]应用于手写东巴图像修复时难以提取足够和有效的结构特征信息,导致修复后的图像存在风格不一致、内容不完整、结构残缺和纹理模糊等问题。因此,本文提出一种融合字形增强和Transformer的东巴字符图像修复算法,旨在增强对手写东巴字符图像字形特征信息获取。
3. 数据集
3.1. 东巴字符数据集
尽管现存的东巴古籍文献中蕴含着丰富的文字资源,但其普遍遭受了不同程度的损坏。由于历史久远,获取同一东巴文字在破损与未破损两种状态下的成对图像几乎是不可能的,为基于监督学习的修复模型训练带来了严峻挑战。因此,本文基于数据集DB1404 [11]构建一个高质量的手写东巴字符数据集。
构建数据集的流程如下:首先,从数据集DB1404 [11]中筛选出11830张结构复杂的图像。然后,通过超分辨率、数据清洗和裁剪,将图像处理为256 × 256像素大小的字符图像。最后,将数据集划分为训练集和测试集,其中训练集包含10,830张图像,测试集包含1000张图像,用于模型的训练与评估。
3.2. 掩码数据集
为了模拟古籍中的损坏东巴图像,将掩码叠加到完好的东巴文字图像上。然而,现有的通用算法所使用的掩码遮挡率过高和形状单一,难以提取有效的结构特征,导致模型训练时容易产生过拟合,且泛化性能弱。为解决上述问题,本文构建一个与东巴图像相适配的专用掩码数据集。
本文通过物理损坏角度分析大量真实的东巴破损文字图像,将损坏归纳为9种类别:酸化、粘连、污渍、霉变、絮凝、鼠啮、虫蛀、侵蚀、焚烧。在此基础上总结出两条东巴字符损坏规律:
(1) 损坏的蔓延遵循两条路径:a) 从图像边界向中心蔓延;b) 从非边缘区域开始并向周围扩散。
(2) 尽管各种破损的成因不同,但在视觉上均表现相似。
基于上述损坏规律的分析,本文采用3种专用的掩码生成算法(凸包、快速绘画、不规则区域)生成掩码图像(如图2所示)。掩码生成的具体流程为:
(1) 通过3种掩码生成方法,随机生成长宽在64至256之间的基础掩码图像。
(2) 采用随机几何变换对基础掩码扭曲和拉伸,其中几何变换包括仿射拉伸和非线性扭曲。随后,将掩码的尺寸裁剪为256 × 256分辨率。
(3) 将生成的二值掩码进行反色处理,并通过人工筛选,保留在形态上与真实损坏一致的掩码。
通过在训练中引入专用掩码,增强了算法在真实任务中的泛化能力,也显著提升了其面对复杂损坏情况下的鲁棒性。
Figure 2. Masked image
图2. 掩码图像
4. 本文算法
4.1. 网络总体结构
针对东巴字符结构复杂且易像素分布稀疏问题,本文提出一种融合字形增强和Transformer的字符图像修复算法,整体算法架构如图3所示。首先,引入字形增强模块,利用离散小波变换将图像映射至频域,并在低频子带中提取字符整体轮廓的拓扑结构信息,从而增强字形的拓扑结构特征。然后,将字形拓扑特征作为结构先验信息,指导Transformer提取多尺度特征并建立长程依赖关系,从而在缺失区域生成结构完整和纹理清晰的东巴图像。
Figure 3. Overall architecture text image inpainting for damaged handwritten Dongba characters via glyph enhancement and transformer
图3. 基于字形增强与Transformer的东巴字符图像修复网络总体结构图
4.2. 字形增强模块
为了实现图像结构信息与细节纹理的有效分解,本文采用离散小波变换将图像映射至频域进行多尺度分解。图像的低频分量主要编码了字符的整体骨架与拓扑形状,而高频分量则对应噪声与纹理。因此,通过增强低频特征子带,能够显著提升模型对字形结构特征提取的鲁棒性[15]。公式(1)表示一组固定卷积核W:
(1)
小波变换(WT)通过公式(1)中固定卷积核W实现,如公式(2)所示:
(2)
其中,
为低频特征,而
分别垂直、水平和对角线方向的高频特征,在空间维度上的分辨率都是X的一半。
由于公式(1)是一组正交基,可以通过转置卷积实现小波逆变换(IWT),公式为:
(3)
其中,Transposed-Conv为转置卷积,W表示公式(1)中的一组固定卷积核,WT表示小波变换。
为了增强字符的形状特征,本文采用一种级联的小波变换的方法(如图4所示)。首先,对输入图像执行两级离散小波分解,如公式(4)所示,将特征映射至深层频域空间。然后,在低频子带引入1 × 1卷积层,提取并增强字符的骨架结构信息。最后,利用离散小波逆变换将增强后的频域特征重建至空间域,如公式(5)所示。
(4)
(5)
其中,Conv表示卷积操作,WT表示小波变换,IWT表示小波逆变换。在特征融合阶段,输入图像通过1 × 1卷积,得到初始特征。将字形结构特征作为指导信息,并与初始特征融合,指导Transformer模块在损坏区域内容进行修复。
Figure 4. Glyph enhancement module
图4. 字形增强模块
4.3. U-Net与Transformer
为了获得多尺度特征并建立像素间长程依赖关系,本文引入了Transformer的图像修复网络模块。该网络融合U-Net架构和CNN特征金字塔原理,采用多尺度编码器–解码器结构。编码器通过多尺度下采样与通道扩展,提取东巴文字的深层结构特征;解码器利用上采样与通道压缩,重构东巴图像的字形结构和纹理细节。其中,Transformer块由两个级联的子层构成:线性注意力(linear attention, LA)模块[16]和前馈网络(feed-forward network, FFN)模块[17]。在第k个Transformer块的计算过程如公式(6)所示。
(6)
其中,
为第k − 1个Transformer块的输出特征,
为第k个LA模块的输出特征,
第k个Transformer块的输出特征。
LA模块如图5所示,为了增强特征的上下文依赖关系,采用多头线性注意力模块[18]和门控机制[19]级联结构。在第k个Transformer块中,输入特征信息首先被送入双分支并行结构。主分支利用多头线性注意力[18]捕获全局上下文以生成注意力特征图;门控分支则通过1 × 1卷积与ReLU激活函数[20]生成自适应的门控权重。随后,利用逐元素点乘机制,将门控权重对注意力特征进行调制,并通过3 × 3卷积处理特征。最后,引入残差连接[19]将输入特征与增强后的门控注意力特征融合。在第k个Transformer块中,LA模块的计算过程如公式(7)所示:
(7)
其中,
是第k个Transformer块的输入特征,
是第k个Transformer块中LG模块输出特征。
Figure 5. Linear attention structure diagram
图5. 线性注意力结构图
FFN模块如图6所示。在第k个Transformer块中,输入特征被分流至两条并行路径。扩展路径利用由2个1 × 1级联卷积构成的通道扩展模块,将特征通道维度从C扩展到rC,其中,r为扩展比;门控路径则通过两个级联的3 × 3深度卷积配合ReLU激活函数[20],生成门控权重。随后,利用逐元素点乘机制,将门控权重与高维扩展特征进行融合,实现对特征的空间自适应调制。最后,通过一个1 × 1卷积将通道数压缩回C,并引入残差连接与输入特征融合,完成特征的重构与更新。在第k个Transformer块中,FFN的计算过程如公式(8)所示:
(8)
其中,
为第k个Transformer块中FFN模块的输出特征,Convs表示由1 × 1卷积层和3 × 3卷积层串联构成的卷积结构,其中1 × 1卷积层用于调整通道维度,3 × 3卷积层提取空间特征信息。
Figure 6. Feedforward network structure diagram
图6. 前馈网络结构图
4.4. 损失函数
为了生成内容完整、结构连贯且纹理清晰的东巴图像,本文采用由重建损失、对抗性损失、感知损失、风格损失组成的混合损失函数指导模型训练。总的损失函数由4个损失函数加权组成,公式为:
(9)
其中,
表示重建损失,
表示对抗性损失,
表示感知损失,而
表示风格损失。
权重参数设置为[10, 0.1, 1, 250]。
重建损失计算为:
(10)
其中,
表示算法修复图像,
表示真实图像。
对抗性损失通过生成网络与判别网络之间的博弈进行联合训练,促使生成器输出分布逼近真实数据分布,从而生成视觉上更加真实的图像,计算为:
(11)
其中,D表示谱归一化的Patch-GAN判别器。
感知损失利用高层语义特征来衡量生成图像与真实图像之间的差异,计算为:
(12)
其中,
表示模型VGG-19第i层的特征图。
风格损失计算图像特征之间的特征相关性,可以有效抑制生成图像中的棋盘格伪影[6],计算为:
(13)
其中,
表示由预训练VGG-19模型第i层的特征图所构建的格拉姆矩阵。
5. 实验
5.1. 实验环境及重要参数设置
本文实验均在Ubuntu22.04操作系统上进行,使用PyTorch深度学习框架实现,并在单张NVIDIA RTX 3090 GPU上完成训练与测试。所提出模型的U-Net结构各阶段的Transformer块数量设置为[1, 2, 3, 4, 3, 2, 1]。在训练过程中,使用AdamW优化器寻求最优解,动态参数设置为β1 = 0.9,β2 = 0.999;学习率设置为0.0001,batchsize设置4。模型共训练40个epoch。
5.2. 定量比较
为了验证本文算法的有效性,选取了ATO-GAN [21],MADF [22],SCCGAN [23],T-FORMER [16]等代表性修复算法进行对比实验。由于单一指标无法有效评价图像修复质量,本文使用峰值信噪比(peak signal to noise ratio, PSNR),结构相似性指数(structural similarity index, SSIM),平均绝对误差(mean absolute error, MAE) 3种指标评价不同算法模型的性能。不同算法的定量对比结果如表1所示,其中黑体为效果最优。数据表明,本文算法在各项指标上均取得了最优结果,证明了其在东巴古籍修复任务中的有效性。
5.3. 定性比较
除了定量指标外,为了更直观比较5种算法的修复效果,本文还采用了定性比较方法。图7表示在东巴数据集上,针对不同损坏程度手写东巴文字的修复效果。
Table 1. Comparison of image inpainting effects of five algorithms
表1. 对比5种算法图像修复效果
评价指标 |
掩码比例 |
ATO-GAN |
SCCGAN |
MADF |
T-former |
本文 |
MAE |
20%~30% |
0.0082 |
0.0066 |
0.0074 |
0.0054 |
0.0053 |
30%~40% |
0.0114 |
0.0119 |
0.0118 |
0.0097 |
0.0095 |
40%~50% |
0.0184 |
0.0181 |
0.0180 |
0.0159 |
0.0155 |
50%~60% |
0.0158 |
0.0152 |
0.0156 |
0.0129 |
0.0127 |
60%~70% |
0.0191 |
0.0186 |
0.0193 |
0.0161 |
0.0159 |
PSNR |
20%~30% |
23.95 |
22.70 |
23.87 |
24.04 |
24.17 |
30%~40% |
20.99 |
19.47 |
21.13 |
20.70 |
20.78 |
40%~50% |
17.80 |
17.10 |
18.04 |
17.92 |
18.05 |
50%~60% |
18.53 |
18.10 |
18.81 |
18.87 |
18.99 |
60%~70% |
17.22 |
16.83 |
17.49 |
17.52 |
17.66 |
SSIM |
20%~30% |
0.970 |
0.969 |
0.934 |
0.974 |
0.974 |
30%~40% |
0.954 |
0.949 |
0.906 |
0.956 |
0.957 |
40%~50% |
0.929 |
0.932 |
0.901 |
0.938 |
0.939 |
50%~60% |
0.940 |
0.943 |
0.902 |
0.949 |
0.950 |
60%~70% |
0.927 |
0.943 |
0.883 |
0.937 |
0.938 |
Figure 7. Qualitative comparison of character image inpainting results
图7. 字符图像修复效果的定性对比
实验结果表明,SCCGAN算法在处理复杂损坏时,难以准确重建文字结构;ATO-GAN在小面积遮挡下能有效修复,但随着掩码区域的扩大,容易产生错误的纹理填充;MADF算法在修复区域生成与掩码形状相似的伪影,影响了整体的视觉自然度;T-FORMER虽然在内容完整性上有所改善,但无法有效恢复东巴文字精细的拓扑结构与边缘细节。相比之下,本文提出的模型能够在全局语义与局部细节中,生成结构连贯且纹理清晰的高质量修复结果,与真实图像最为接近。
5.4. 消融实验
为验证所提方法中各模块的有效性与性能,本文在实验数据集上开展消融实验,相关实验结果如表2所示。
Table 2. Evaluation results of ablation study
表2. 消融实验的评估结果
算法 |
MAE |
PSNR |
SSIM |
变体1 |
0.0130 |
18.70 |
0.947 |
变体2 |
0.0097 |
20.70 |
0.956 |
变体3 |
0.0128 |
18.74 |
0.949 |
本文 |
0.0095 |
20.78 |
0.957 |
其中,变体1表示基础的CNN U-Net模型。变体2表示在变体1的基础上将编解码器替换为Transformer块。变体3表示在变体1的基础上添加字形增强模块。变体4表示完整的本文模型。
实验数据表明,Transformer模块的缺失会导致整体性能衰退,验证了其在捕捉全局上下文与长距离依赖方面的关键作用。此外,移除字形增强模块同样造成了修复质量的下降,这不仅验证了该模块在精细化局部特征方面的有效性,也表明了引入针对性的字形指导对于提升修复精度的必要性。
6. 结论
针对现实世界手写东巴文字中存在的损坏问题,本文通过样本筛选、数据清洗和增强处理,构建了高质量手写东巴字符数据集;通过分析真实损坏东巴古籍,采用3种掩码生成方法,构建了模拟真实损坏的掩码数据集。然后,提出融合字形增强和Transformer的东巴字符图像修复算法。利用字形增强模块在低频空间中提取并强化字形结构特征,进而引导Transformer在缺失区域,重建合理、清晰的东巴结构。实验结果表明,本文算法在修复东巴字符内容、字形和风格上,具有较好的性能。
致 谢
本研究基于中央民族大学“民族语言智能分析与安全治理实验室”提供的手写东巴文数据集DB1404,在此对该实验室表示衷心感谢。
基金项目
由国家级大学生创新训练计划项目(NO. 202510015013)资助。
NOTES
*通讯作者。