基于ResNet18的坭兴陶识别研究
Research on Nixing Pottery Recognition Based on ResNet18
摘要: 坭兴陶是中国的四大名陶之一,其外观与景德镇瓷、德化瓷、宜兴紫砂高度趋同,肉眼难以分辨,不了解的人往往容易将其混淆。由此种种,制约了其文化的传播与相关产业的发展。本文针对坭兴陶与相似陶器外观易混淆、鉴别难的核心问题,提出一种基于ResNet18的坭兴陶细粒度识别方法。采用困难样本反馈策略(困难样本过采样 + 分层特征微调)对ResNet18模型进行改进,并(随机)结合MixUp和CutMix算法的数据增强技术(线性加权混合样本和标签以及通过裁剪拼接不同样本区域等)提升模型的泛化能力。实验结果表明,传统的ResNet18模型在测试集上的整体准确率为82.22%,而改进后的ResNet18模型在测试集上的整体准确率可达84.44%,与EfficientNet-B0、MobileNetV2、VGG16等主流模型相比,其在准确率与模型轻量化之间实现更优平衡。研究为坭兴陶的智能鉴别与非遗数字化保护提供了可行的方向和高效的技术支撑。
Abstract: Nixing Pottery is one of China’s four great famous pottery. Its appearance is highly similar to Jingdezhen Porcelain, Dehua Porcelain, and Yixing Zisha Pottery, making it difficult to distinguish with the naked eye. People who are not familiar with them often confuse them. All these issues have restricted the dissemination of its culture and the development of related industries. Focusing on the core problem that Nixing Pottery is easily confused with similar pottery in appearance and difficult to identify, this paper proposes a fine-grained recognition method for Nixing Pottery based on ResNet18. The ResNet18 model is improved by adopting a hard sample feedback strategy (hard sample oversampling + hierarchical feature fine-tuning), and data augmentation technologies of MixUp and CutMix algorithms (linearly weighted mixing of samples and labels, as well as cropping and splicing regions of different samples, etc.) are (randomly) combined to enhance the generalization ability of the model. Experimental results show that the overall accuracy of the traditional ResNet18 model on the test set is 82.22%, while the overall accuracy of the improved ResNet18 model on the test set can reach 84.44%. Compared with mainstream models such as EfficientNet-B0, MobileNetV2, and VGG16, it achieves a better balance between accuracy and model lightweighting. This research provides a feasible direction and efficient technical support for the intelligent identification of Nixing Pottery and the digital protection of intangible cultural heritage.
文章引用:苏庆鸥, 黄媛, 钟畅, 刘柏霆. 基于ResNet18的坭兴陶识别研究[J]. 计算机科学与应用, 2025, 15(10): 266-275. https://doi.org/10.12677/csa.2025.1510266

1. 引言

坭兴陶烧制工艺是国家级的非物质文化遗产,其独特的“东泥西泥”配比工艺与窑变效果具有极高的文化与艺术价值。在时代不断向前发展的洪流之下,坭兴陶的保护与传承当前面临严峻挑战。坭兴陶的外观与景德镇瓷、德化瓷、宜兴紫砂高度趋同,肉眼难以分辨,不了解的人往往容易将其混淆。同时,传统的鉴别方法依赖专业经验,效率低下且难以规模化推广,无法满足非遗数字化传播的需求。由此种种,制约了其文化的传播与相关产业的发展。

随着深度学习技术的不断发展,文化遗产的保护与传承迎来了新的机遇。其中,卷积神经网络(Convolutional Neural Network, CNN)在图像细粒度识别任务中展现出强大能力,为陶器识别提供了新路径。当前主流非遗数字化平台(如中国非遗数字博物馆等)多以图文展示为主,缺乏智能交互与鉴别能力。传统图像识别技术(如Haar特征分类器)在相似陶器区分任务上准确率不足,难以适配坭兴陶的细粒度识别需求。ResNet系列模型凭借残差结构有效解决了深层网络梯度消失问题,能够提取图像的纹理、釉色等细节特征,且ResNet18具备模型轻量化、训练速度快、易于部署的优势,契合实际应用场景需求。

本文基于ResNet18模型开展研究,以坭兴陶与相似陶器的细粒度识别为目标,构建1:1均衡的数据集(共898张),提出困难样本反馈优化策略与数据增强结合的改进方案,通过对比实验与消融实验验证所提方法的有效性。研究成果可直接应用于坭兴陶智能鉴赏、市场鉴真等场景,为非遗数字化保护提供从技术到实践的一体化解决方案。

2. 国内外研究现状

截至目前,已有不少学者将ResNet应用于图像处理与识别。例如,汤博宇等人[1]将Efficient Channel Attention (ECA)模块与ResNet残差结构相结合,提出了一种新的图像特征提取方法。Chowdhury等人[2]评估了六种架构,采用数据增强和迁移学习,发现ResNet152在复杂矿物类型鉴别中表现出色。罗鑫等人[3]为了准确检测果园中的夏威夷果,提出了一种基于ResNet-50的特征金字塔网络(FPN)结构,有效提高了模型对小尺寸目标的检测性能。

同样地,ResNet不仅在工业检测任务中表现出色,在工艺品检测领域也有优异表现。例如,Yang等人[4]提出了一种增强型ResNet50模型,整合了双重注意力机制(通道注意力和自注意力),以增强区分性视觉特征,用于陶瓷类型分类及其他考古文物的年代分类。Jurj等人[5]提出了一种基于ResNet-50架构的卷积神经网络(CNN)模型,用于识别和分类罗马尼亚传统图案。Gao等人[6]提出了一个整合了迁移学习的ResNet-34模型,用于识别和分类海外侨民壁画的来源。

然而,现有陶器识别研究多聚焦于青花瓷、唐三彩等品类,其釉色和纹饰特征与坭兴陶的“窑变”、“素面”特性差异显著,直接迁移模型会导致特征错配。现有方法多依赖简单数据增强,未结合坭兴陶与紫砂、青瓷的相似性特征设计困难样本优化策略,导致相似品类误判率居高不下。目前尚未有研究将ResNet系列应用于坭兴陶与相似陶器的防混淆识别,尤其缺乏针对1:1均衡数据集的模型优化探索。

鉴于此,本文首次将ResNet18应用于坭兴陶细粒度识别任务,通过分层特征微调与困难样本聚焦策略,解决其与相似陶器的外观混淆问题,为非遗陶器的智能识别提供新的方向。

3. 方法

3.1. 模型概述

ResNet18的英文全称是Residual Network 18,即残差网络18层。它是一种深度卷积神经网络,包含了18个卷积层和全连接层,由微软研究院的何恺明、张祥雨、任少卿和孙剑等人在2016年提出[7],其核心优势在于残差块(Residual Block)结构。残差块通过“跳跃连接”直接将输入特征传递至输出,可有效缓解深层网络训练中的梯度消失问题。

图1所示,ResNet18的架构包括1个7 × 7卷积层、16个3 × 3卷积层(组织成8个残差块,每个块包含2个卷积层)、1个全连接层。

3.2. 数据增强

本文模型训练时使用的数据集图像来源于互联网,包含898张图像(坭兴陶449张、相似陶器449张),采用1:1均衡分布设计。同时,使用Python程序进行二分类标注,标签定义为坭兴陶(标签:1)、其他相似陶器(标签:0)。采用分层抽样策略,按8:1:1的比例将数据集划分为训练集、验证集和测试集,并且在每个集合中严格保持各集合中两类样本的1:1均衡配比。

利用CutMix [8]和MixUp [9]算法进行数据增强来扩充样本的多样性,如随机线性加权混合样本和标签、裁剪拼接不同样本区域、色彩调整等。所有图像均转换为Tensor格式,并按ImageNet数据集均值和标准差归一化。从而扩充训练集规模、丰富数据分布。该技术的应用能够有效缓解模型过拟合,提升模型的泛化能力,在小样本场景中效果显著。

3.3. 困难样本聚焦优化

在每轮训练后,对训练集中所有样本按损失值降序排序,选取前20%比例的样本标记为困难样本(动态追踪困难样本[10],保留最近3轮历史困难样本的并集)。同时,对困难样本进行过采样(采样权重为普通样本的2倍),并在损失计算中赋予更高权重,强化模型对相似陶器特征的学习,困难样本反馈流程如图2所示。

Figure 1. ResNet18 model architecture diagram

1. ResNet18模型架构图

Figure 2. Hard sample feedback process

2. 困难样本反馈流程

3.4. 基于ResNet18的坭兴陶识别

ResNet18的核心公式原理公式如(1)所示:

y=F( x )+x (1)

其中,x为残差块输入, F( x ) 为残差映射(含卷积、批归一化等操作),y为输出,残差的基本构建节点如图3所示。ResNet18含18层卷积与全连接层,参数量仅11.7 M,兼具特征提取能力与轻量化优势,适合部署于Web应用场景。

Figure 3. Schematic diagram of residual basic building node

3. 残差基本构建节点示意图

4. 实验结果与分析

4.1. 实验环境

实验使用CPU进行训练,软件环境为Python 3.9。评估指标采用准确率(Accuracy)、损失值及AUC (Area under Curve),通过混淆矩阵(Confusion Matrix)进一步分析相似样本的误判类型,全面衡量模型性能。

4.2. 训练配置

本文基于PyTorch框架进行训练,优化器采AdamW (权重衰减1e−3),损失函数为带标签平滑(0.1)的交叉熵损失,批次大小32,训练总轮次50。采用TensorBoard实时监控训练过程中的损失值与准确率变化,避免过拟合。

在分层训练中采用了热身和微调两阶段训练模式。在热身阶段仅训练头部(前3个Epoch),冻结骨干网络,仅训练最终输出层的二分类器(全连接层),使用较大学习率(5e−4)加速分类头参数收敛。热身结束后解冻全部网络层,采用小学习率(2e−5)进行全网络精细训练,通过梯度反向传播更新所有层参数,实现通用特征(如边缘、纹理)与坭兴陶专属特征(如窑变纹理、素面质感)的适配。

4.3. 对比实验

4.3.1. 对比实验设计

本文在对比实验中选取了3种(EfficientNet-B0、MobileNetV2和VGG16)主流轻量化CNN模型与本文改进ResNet18进行对比。所有模型均在数据增强和困难样本反馈优化策略下,采用相同均衡数据集(898张)、训练轮次(50个Epoch)与基础参数,仅改变模型架构,验证改进后ResNet18的性能优势。

4.3.2. 对比结果

对比实验结果如表1所示。

Table 1. Comparison table of performance among different models

1. 不同模型性能对比表

模型

最佳验证准确率(%)

测试准确率(%)

测试AUC (%)

测试损失(%)

MobileNetV2

86.67

77.78

84.74

54.60

Efficientnet_b0

84.44

82.22

87.56

50.99

VGG16

85.56

83.33

85.93

55.38

ResNet18 (本文)

86.67

84.44

89.88

47.55

在不同模型性能对比表中,可以直观地看到改进后的ResNet18在各项指标中均表现最优,其整体准确率达84.44%,显著高于MobileNetV2 (77.78%),略高于VGG16 (83.33%)和EfficientNet-B0 (82.22%),同时AUC值达89.88%,表明模型区分能力更强。从模型体量看,ResNet18 (11.7 M)仅略大于MobileNetV2 (3.5 M),远小于VGG16 (138M),实现了准确率与轻量化的平衡。模型对比实验的各项详细指标如图4所示。

4.4. 消融实验

4.4.1. 消融实验设计

消融实验旨在验证数据增强(Aug)与困难样本反馈(Hard)两种策略的有效性,设置4种实验配置(所有配置基于均衡数据集与ResNet18模型开展)。

Figure 4. Training process of comparative experiments

4. 对比实验训练过程

4.4.2. 消融结果

消融实验结果如表2所示。

Table 2. Comparison table of ablation experiments

2. 消融实验对照表

实验名称

最佳验证准确率(%)

测试准确率(%)

测试AUC(%)

测试损失(%)

有数据增强 + 无困难样本

84.44

81.11

86.42

51.76

无数据增强 + 有困难样本

85.56

80.00

86.72

51.33

无数据增强 + 无困难样本

87.78

82.22

89.88

47.46

有数据增强 + 有困难样本

86.67

84.44

89.88

47.55

仅采用数据增强时,测试准确率为81.11%,整体准确率较基准(82.22%)下降了1.11%,说明单独使用数据增强策略,对测试准确率无明显积极提升作用;仅采用困难样本优化时,测试准确率为80.00%,较基准(82.22%)下降2.22%,表明单独使用困难样本优化策略,对测试准确率存在负面影响。

当同时采用数据增强和困难样本优化(即Aug + Hard配置)时,测试准确率达84.44%,较基准(82.22%)提升2.22%,验证了两种策略的协同优化作用,可有效增强模型分类性能。

图5所示,在Aug + Hard配置下,训练损失与验证损失的差距较小,且训练过程中损失稳定收敛,无明显过拟合现象。这表明数据增强与困难样本优化结合,可增强模型对数据集的泛化能力。

Figure 5. Curve diagram of the ablation experiment process

5. 消融实验过程曲线图

4.5. 结果分析

综合对比实验与消融实验结果,本文改进的ResNet18模型识别精度高于原始模型,基于均衡数据集训练后,相似陶器识别准确率突破84.44% (混淆矩阵如图6所示),有效解决防混淆鉴别问题。同时,数据增强与困难样本优化结合,可有效增强模型分类性能。

5. 结论

本文将ResNet18优化后应用于坭兴陶的识别任务,有效解决了坭兴陶与相似陶器的视觉混淆问题。构建的坭兴陶数据集为898张1:1均衡图像(坭兴陶449张、相似陶器449张),涵盖多品类样本,为相似陶器识别任务提供了数据支撑,标注规范可复用于其他陶瓷品类的数据集构建。

本文使用的困难样本反馈和数据增强优化策略成效显著,在均衡数据集上使模型相似陶器准确率达84.44%,有效降低了误判率,解决了传统模型对相似样本识别能力薄弱的问题。对比实验验证了改进ResNet18的综合优势,在准确率(84.44%)与模型轻量化(11.7 M)之间实现最优平衡,优于VGG16、EfficientNet-B0等主流模型。

研究成果可直接集成于坭兴陶智能鉴赏平台,为文旅、收藏、教育等场景提供有效的鉴别工具。本文对ResNet18模型的微调也存在一定的局限性,如模型架构与泛化能力有限,识别的维度与深度不足,需要进一步提升。另一方面,当前数据集涵盖的数据集体量较少,覆盖度不够广泛,未来可扩充数据集至2000张以上,增加窑变、小众器型等特殊样本。开展纹饰、器型的多维度细分识别,实现从“品类识别”到“特征解读”的深化。

Figure 6. Confusion matrix

6. 混淆矩阵

基金项目

广西民族师范学院校级科研基金项目(2024YB124)。

NOTES

*通讯作者。

参考文献

[1] 汤博宇, 焦良葆, 徐逸, 等. 基于改进ResNet-50的图像特征提取网络[J]. 计算机测量与控制, 2023, 31(6): 162-167.
[2] Chowdhury, M., Shrima, S.R. and Islam, M.S. (2025) Comparative Analysis of Deep Learning Architectures for Multi-Class Mineral Classification: A Study Using EfficientNet and ResNet Models. Earth Science Informatics, 18, Article No. 485. [Google Scholar] [CrossRef
[3] 罗鑫, 王艳艳, 刘学渊, 等. 基于深度学习的林地澳洲坚果检测识别[J]. 森林工程, 2023, 39(2): 113-120.
[4] Yang, L., Zhou, W. and Qiu, W. (2025) Chronological Classification of Ming and Qing Dynasty Ceramics Images Based on an Enhanced ResNet50 Model. STAR: Science & Technology of Archaeological Research, 11, e2498260. [Google Scholar] [CrossRef
[5] Jurj, S.L., Opritoiu, F. and Vladutiu, M. (2018) Identification of Traditional Motifs Using Convolutional Neural Networks. 2018 IEEE 24th International Symposium for Design and Technology in Electronic Packaging (SIITME), Iasi, 25-28 October 2018, 191-196. [Google Scholar] [CrossRef
[6] Gao, L., Zhang, X., Yang, T., Wang, B. and Li, J. (2023) The Application of ResNet-34 Model Integrating Transfer Learning in the Recognition and Classification of Overseas Chinese Frescoes. Electronics, 12, Article 3677. [Google Scholar] [CrossRef
[7] He, K., Zhang, X., Ren, S. and Sun, J. (2016) Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 770-778. [Google Scholar] [CrossRef
[8] 邢俊杰, 贾民平, 许飞云, 等. 基于CutMix和YOLOv3的工件表面小缺陷识别方法(英文) [J]. 东南大学学报(英文版), 2021, 37(2): 128-136.
[9] 陆健强, 林佳翰, 黄仲强, 等. 基于Mixup算法和卷积神经网络的柑橘黄龙病果实识别研究[J]. 华南农业大学学报, 2021, 42(3): 94-101.
[10] Liu, Y., Yang, X., Zhou, S., Liu, X., Wang, Z., Liang, K., et al. (2023) Hard Sample Aware Network for Contrastive Deep Graph Clustering. Proceedings of the AAAI Conference on Artificial Intelligence, 37, 8914-8922. [Google Scholar] [CrossRef