1. 引言
坭兴陶烧制工艺是国家级的非物质文化遗产,其独特的“东泥西泥”配比工艺与窑变效果具有极高的文化与艺术价值。在时代不断向前发展的洪流之下,坭兴陶的保护与传承当前面临严峻挑战。坭兴陶的外观与景德镇瓷、德化瓷、宜兴紫砂高度趋同,肉眼难以分辨,不了解的人往往容易将其混淆。同时,传统的鉴别方法依赖专业经验,效率低下且难以规模化推广,无法满足非遗数字化传播的需求。由此种种,制约了其文化的传播与相关产业的发展。
随着深度学习技术的不断发展,文化遗产的保护与传承迎来了新的机遇。其中,卷积神经网络(Convolutional Neural Network, CNN)在图像细粒度识别任务中展现出强大能力,为陶器识别提供了新路径。当前主流非遗数字化平台(如中国非遗数字博物馆等)多以图文展示为主,缺乏智能交互与鉴别能力。传统图像识别技术(如Haar特征分类器)在相似陶器区分任务上准确率不足,难以适配坭兴陶的细粒度识别需求。ResNet系列模型凭借残差结构有效解决了深层网络梯度消失问题,能够提取图像的纹理、釉色等细节特征,且ResNet18具备模型轻量化、训练速度快、易于部署的优势,契合实际应用场景需求。
本文基于ResNet18模型开展研究,以坭兴陶与相似陶器的细粒度识别为目标,构建1:1均衡的数据集(共898张),提出困难样本反馈优化策略与数据增强结合的改进方案,通过对比实验与消融实验验证所提方法的有效性。研究成果可直接应用于坭兴陶智能鉴赏、市场鉴真等场景,为非遗数字化保护提供从技术到实践的一体化解决方案。
2. 国内外研究现状
截至目前,已有不少学者将ResNet应用于图像处理与识别。例如,汤博宇等人[1]将Efficient Channel Attention (ECA)模块与ResNet残差结构相结合,提出了一种新的图像特征提取方法。Chowdhury等人[2]评估了六种架构,采用数据增强和迁移学习,发现ResNet152在复杂矿物类型鉴别中表现出色。罗鑫等人[3]为了准确检测果园中的夏威夷果,提出了一种基于ResNet-50的特征金字塔网络(FPN)结构,有效提高了模型对小尺寸目标的检测性能。
同样地,ResNet不仅在工业检测任务中表现出色,在工艺品检测领域也有优异表现。例如,Yang等人[4]提出了一种增强型ResNet50模型,整合了双重注意力机制(通道注意力和自注意力),以增强区分性视觉特征,用于陶瓷类型分类及其他考古文物的年代分类。Jurj等人[5]提出了一种基于ResNet-50架构的卷积神经网络(CNN)模型,用于识别和分类罗马尼亚传统图案。Gao等人[6]提出了一个整合了迁移学习的ResNet-34模型,用于识别和分类海外侨民壁画的来源。
然而,现有陶器识别研究多聚焦于青花瓷、唐三彩等品类,其釉色和纹饰特征与坭兴陶的“窑变”、“素面”特性差异显著,直接迁移模型会导致特征错配。现有方法多依赖简单数据增强,未结合坭兴陶与紫砂、青瓷的相似性特征设计困难样本优化策略,导致相似品类误判率居高不下。目前尚未有研究将ResNet系列应用于坭兴陶与相似陶器的防混淆识别,尤其缺乏针对1:1均衡数据集的模型优化探索。
鉴于此,本文首次将ResNet18应用于坭兴陶细粒度识别任务,通过分层特征微调与困难样本聚焦策略,解决其与相似陶器的外观混淆问题,为非遗陶器的智能识别提供新的方向。
3. 方法
3.1. 模型概述
ResNet18的英文全称是Residual Network 18,即残差网络18层。它是一种深度卷积神经网络,包含了18个卷积层和全连接层,由微软研究院的何恺明、张祥雨、任少卿和孙剑等人在2016年提出[7],其核心优势在于残差块(Residual Block)结构。残差块通过“跳跃连接”直接将输入特征传递至输出,可有效缓解深层网络训练中的梯度消失问题。
如图1所示,ResNet18的架构包括1个7 × 7卷积层、16个3 × 3卷积层(组织成8个残差块,每个块包含2个卷积层)、1个全连接层。
3.2. 数据增强
本文模型训练时使用的数据集图像来源于互联网,包含898张图像(坭兴陶449张、相似陶器449张),采用1:1均衡分布设计。同时,使用Python程序进行二分类标注,标签定义为坭兴陶(标签:1)、其他相似陶器(标签:0)。采用分层抽样策略,按8:1:1的比例将数据集划分为训练集、验证集和测试集,并且在每个集合中严格保持各集合中两类样本的1:1均衡配比。
利用CutMix [8]和MixUp [9]算法进行数据增强来扩充样本的多样性,如随机线性加权混合样本和标签、裁剪拼接不同样本区域、色彩调整等。所有图像均转换为Tensor格式,并按ImageNet数据集均值和标准差归一化。从而扩充训练集规模、丰富数据分布。该技术的应用能够有效缓解模型过拟合,提升模型的泛化能力,在小样本场景中效果显著。
3.3. 困难样本聚焦优化
在每轮训练后,对训练集中所有样本按损失值降序排序,选取前20%比例的样本标记为困难样本(动态追踪困难样本[10],保留最近3轮历史困难样本的并集)。同时,对困难样本进行过采样(采样权重为普通样本的2倍),并在损失计算中赋予更高权重,强化模型对相似陶器特征的学习,困难样本反馈流程如图2所示。
Figure 1. ResNet18 model architecture diagram
图1. ResNet18模型架构图
Figure 2. Hard sample feedback process
图2. 困难样本反馈流程
3.4. 基于ResNet18的坭兴陶识别
ResNet18的核心公式原理公式如(1)所示:
(1)
其中,x为残差块输入,
为残差映射(含卷积、批归一化等操作),y为输出,残差的基本构建节点如图3所示。ResNet18含18层卷积与全连接层,参数量仅11.7 M,兼具特征提取能力与轻量化优势,适合部署于Web应用场景。
Figure 3. Schematic diagram of residual basic building node
图3. 残差基本构建节点示意图
4. 实验结果与分析
4.1. 实验环境
实验使用CPU进行训练,软件环境为Python 3.9。评估指标采用准确率(Accuracy)、损失值及AUC (Area under Curve),通过混淆矩阵(Confusion Matrix)进一步分析相似样本的误判类型,全面衡量模型性能。
4.2. 训练配置
本文基于PyTorch框架进行训练,优化器采AdamW (权重衰减1e−3),损失函数为带标签平滑(0.1)的交叉熵损失,批次大小32,训练总轮次50。采用TensorBoard实时监控训练过程中的损失值与准确率变化,避免过拟合。
在分层训练中采用了热身和微调两阶段训练模式。在热身阶段仅训练头部(前3个Epoch),冻结骨干网络,仅训练最终输出层的二分类器(全连接层),使用较大学习率(5e−4)加速分类头参数收敛。热身结束后解冻全部网络层,采用小学习率(2e−5)进行全网络精细训练,通过梯度反向传播更新所有层参数,实现通用特征(如边缘、纹理)与坭兴陶专属特征(如窑变纹理、素面质感)的适配。
4.3. 对比实验
4.3.1. 对比实验设计
本文在对比实验中选取了3种(EfficientNet-B0、MobileNetV2和VGG16)主流轻量化CNN模型与本文改进ResNet18进行对比。所有模型均在数据增强和困难样本反馈优化策略下,采用相同均衡数据集(898张)、训练轮次(50个Epoch)与基础参数,仅改变模型架构,验证改进后ResNet18的性能优势。
4.3.2. 对比结果
对比实验结果如表1所示。
Table 1. Comparison table of performance among different models
表1. 不同模型性能对比表
模型 |
最佳验证准确率(%) |
测试准确率(%) |
测试AUC (%) |
测试损失(%) |
MobileNetV2 |
86.67 |
77.78 |
84.74 |
54.60 |
Efficientnet_b0 |
84.44 |
82.22 |
87.56 |
50.99 |
VGG16 |
85.56 |
83.33 |
85.93 |
55.38 |
ResNet18 (本文) |
86.67 |
84.44 |
89.88 |
47.55 |
在不同模型性能对比表中,可以直观地看到改进后的ResNet18在各项指标中均表现最优,其整体准确率达84.44%,显著高于MobileNetV2 (77.78%),略高于VGG16 (83.33%)和EfficientNet-B0 (82.22%),同时AUC值达89.88%,表明模型区分能力更强。从模型体量看,ResNet18 (11.7 M)仅略大于MobileNetV2 (3.5 M),远小于VGG16 (138M),实现了准确率与轻量化的平衡。模型对比实验的各项详细指标如图4所示。
4.4. 消融实验
4.4.1. 消融实验设计
消融实验旨在验证数据增强(Aug)与困难样本反馈(Hard)两种策略的有效性,设置4种实验配置(所有配置基于均衡数据集与ResNet18模型开展)。
Figure 4. Training process of comparative experiments
图4. 对比实验训练过程
4.4.2. 消融结果
消融实验结果如表2所示。
Table 2. Comparison table of ablation experiments
表2. 消融实验对照表
实验名称 |
最佳验证准确率(%) |
测试准确率(%) |
测试AUC(%) |
测试损失(%) |
有数据增强 + 无困难样本 |
84.44 |
81.11 |
86.42 |
51.76 |
无数据增强 + 有困难样本 |
85.56 |
80.00 |
86.72 |
51.33 |
无数据增强 + 无困难样本 |
87.78 |
82.22 |
89.88 |
47.46 |
有数据增强 + 有困难样本 |
86.67 |
84.44 |
89.88 |
47.55 |
仅采用数据增强时,测试准确率为81.11%,整体准确率较基准(82.22%)下降了1.11%,说明单独使用数据增强策略,对测试准确率无明显积极提升作用;仅采用困难样本优化时,测试准确率为80.00%,较基准(82.22%)下降2.22%,表明单独使用困难样本优化策略,对测试准确率存在负面影响。
当同时采用数据增强和困难样本优化(即Aug + Hard配置)时,测试准确率达84.44%,较基准(82.22%)提升2.22%,验证了两种策略的协同优化作用,可有效增强模型分类性能。
如图5所示,在Aug + Hard配置下,训练损失与验证损失的差距较小,且训练过程中损失稳定收敛,无明显过拟合现象。这表明数据增强与困难样本优化结合,可增强模型对数据集的泛化能力。
Figure 5. Curve diagram of the ablation experiment process
图5. 消融实验过程曲线图
4.5. 结果分析
综合对比实验与消融实验结果,本文改进的ResNet18模型识别精度高于原始模型,基于均衡数据集训练后,相似陶器识别准确率突破84.44% (混淆矩阵如图6所示),有效解决防混淆鉴别问题。同时,数据增强与困难样本优化结合,可有效增强模型分类性能。
5. 结论
本文将ResNet18优化后应用于坭兴陶的识别任务,有效解决了坭兴陶与相似陶器的视觉混淆问题。构建的坭兴陶数据集为898张1:1均衡图像(坭兴陶449张、相似陶器449张),涵盖多品类样本,为相似陶器识别任务提供了数据支撑,标注规范可复用于其他陶瓷品类的数据集构建。
本文使用的困难样本反馈和数据增强优化策略成效显著,在均衡数据集上使模型相似陶器准确率达84.44%,有效降低了误判率,解决了传统模型对相似样本识别能力薄弱的问题。对比实验验证了改进ResNet18的综合优势,在准确率(84.44%)与模型轻量化(11.7 M)之间实现最优平衡,优于VGG16、EfficientNet-B0等主流模型。
研究成果可直接集成于坭兴陶智能鉴赏平台,为文旅、收藏、教育等场景提供有效的鉴别工具。本文对ResNet18模型的微调也存在一定的局限性,如模型架构与泛化能力有限,识别的维度与深度不足,需要进一步提升。另一方面,当前数据集涵盖的数据集体量较少,覆盖度不够广泛,未来可扩充数据集至2000张以上,增加窑变、小众器型等特殊样本。开展纹饰、器型的多维度细分识别,实现从“品类识别”到“特征解读”的深化。
Figure 6. Confusion matrix
图6. 混淆矩阵
基金项目
广西民族师范学院校级科研基金项目(2024YB124)。
NOTES
*通讯作者。