1. 引言
体表肿瘤,无论在整形外科学还是皮肤病学中都占据了重要研究地位[1],同时也是全球范围内的重要公共健康问题[2]。根据世界卫生组织(WHO)统计,每年全球新增约130万例非黑色素瘤皮肤癌及32.5万例黑色素瘤病例,其中黑色素瘤每年导致约6万例死亡[3]。早期检测是改善患者预后的关键因素。例如,黑色素瘤患者的五年生存率在早期检测时可达到98%,而在晚期则急剧下降至22% [4] [5]。
体表肿瘤的传统检测方法主要包括皮肤镜检查、活检和组织学检查。皮肤镜检查作为一种非侵入性的方法,能够帮助医生观察皮肤表面的病变特征,对于良性和恶性病变的区分具有一定的优势,但这种方法依赖医生的经验,且在视觉辨识上存在主观性,可能导致误诊或漏诊[6]。活检主要是取样并进行组织学分析,具有较高的准确性,是确诊的金标准[7]。其缺点在于该操作为侵入性,并且需要时间周期,因此不适合大规模筛查[8]。传统检测方法在某些情况下能够提供准确诊断,但其在效率和普及性方面仍存在明显不足。
人工智能(AI)的普及,尤其是深度学习技术在医学图像分析中的应用得到了广泛关注[9]。与传统检测方法相比,AI能够显著提高检测效率,减少人为因素的影响,通过基于临床图像的深度学习系统为皮肤肿瘤提供更加精准和高效的筛查方案[10]。深度学习模型通过自动化分析医学图像,在不依赖专业设备的高成本维护和长时间培训的条件下,可以迅速从大量数据中提取有用信息[11]。代表性的卷积神经网络(CNN)已经在皮肤病变的自动化识别上展现出了较高的准确性[12]。现有的深度学习模型虽然在标准化图像上表现优异(如皮肤镜图像),但在处理非标准化图像(如患者自拍或自然光照条件下的图像)时,往往会出现显著的性能下降[13]。这一问题的解决至关重要,因为在实际应用中,大部分图像往往并非来自标准化的医疗影像设备,这对深度学习模型的普适性和鲁棒性提出了挑战。
YOLO作为一种高效且精确的目标检测算法,凭借其独特的优势,能够有效应对体表肿瘤非标准图像中的各种挑战[14]。YOLO具有优秀的实时性、应对形态不规则性和多尺度目标的能力、强大的背景抑制能力,以及端到端的训练机制,使其能够在体表肿瘤的检测中表现出色[15]。通过将YOLO应用于体表肿瘤的检测中,不仅能够为医生提供快速、准确的辅助诊断工具,也对患者进行体表肿瘤的早期自我筛查和诊断具有重要的意义。
目前大多数研究主要集中于标准化数据集,忽视了对非标准化图像的处理能力[16]。实际上非标准化图像的处理才是实际应用中的主要挑战。基于此本研究提出了一种智能诊断框架,通过系统评估YOLO系列目标检测模型,选出综合性能最佳的变体,以实现对体表肿瘤的检测。与现有方法不同,该框架专为处理非标准化图像而设计,特别是针对整形外科常见的十种体表肿瘤。表1总结了本研究涉及的十种常见体表肿瘤的基本特征,包括恶性与否、主要形态、治疗方法和影像特征。这些特征直接影响检测与分割的难度,为后续方法设计和实验评估提供了基础。研究所用数据集由青岛大学附属医院整形外科术前采集的临床体表肿瘤图像组成,均已取得患者的知情同意。该数据集涵盖了不同设备、光照条件和背景下的图像,模拟真实世界的拍摄环境。本研究的贡献在于探索深度学习在非标准化场景中的适用性,为体表肿瘤的快速筛查提供技术支持。通过支持智能手机等低成本设备,该框架特别适用于远程应用场景,使患者能够在没有复杂医疗基础设施的情况下,随时随地进行早期自筛查。
Table 1. Ten characteristics of superficial tumors
表1. 十类体表肿瘤特征
体表肿瘤 |
是否恶性 |
主要特征 |
常见治疗方式 |
照片特征(采集表现) |
表皮痣 |
否 |
线状或斑块状、棕色或黑色、表面粗糙 |
观察、手术切除、
激光治疗 |
棕色或黑色条状或斑块,
边界较清晰 |
复合痣 |
否 |
隆起、棕色或黑色、对称性好 |
观察、手术切除 |
对称性棕黑小结节,
表面光滑或略粗糙 |
复鳞上皮
乳头状瘤 |
否 |
疣状突起、表面角化、灰褐色 |
冷冻疗法、手术切除 |
灰褐色疣状隆起,
表面粗糙有角质层 |
基底细胞癌 |
是 |
珍珠样边缘、溃疡、中央凹陷 |
手术切除、冷冻疗法 |
表面光滑或破溃的小结节,
边缘清晰可见 |
基底细胞
乳头状瘤 |
否 |
柔软突起、棕色或肉色、
常有蒂 |
冷冻疗法、刮除术 |
肉色或棕色小突起,
有时带蒂,边界分明 |
交界痣 |
否 |
平坦、棕色或黑色、
边界清晰 |
观察、手术切除 |
平坦的棕黑斑点,
边界规则,色泽均匀 |
蓝痣 |
否 |
蓝色或蓝灰色、
圆形或椭圆、深层皮下 |
观察、手术切除 |
深蓝色小结节,
表面光滑,边界清晰 |
鳞状细胞癌 |
是 |
鳞状表面、角化、易出血 |
手术切除、放疗 |
粗糙红斑或结痂,
常伴出血或角质堆积 |
皮内痣 |
否 |
隆起、肉色或浅棕色、
毛发可能伴生 |
观察、手术切除 |
隆起的浅棕或肉色结节,
有时可见毛发 |
皮脂腺痣 |
否 |
黄褐色、蜡状表面、
斑块状或隆起 |
观察、手术切除(预防恶变) |
黄褐色斑块或隆起,
表面蜡状,边界不规则 |
结合性能最佳的YOLO模型的实时检测能力,构建一个端到端解决方案,可应用于多种类型体表肿瘤的检测。具体贡献包括:(1) 检测模型的优化与适配:系统评估和优化YOLO系列模型,选出最优变体,经优化后实现对非标准化采集图像中十种常见体表肿瘤的精准检测,并具备移动端实时筛查能力;(2) 适应实际应用场景:验证框架在多样化、不受控采集条件下的强鲁棒性,设计轻量化架构以适用于资源有限条件下的远程医疗和自筛查环境,为推进体表肿瘤筛查工具的实际应用提供可能。
2. 方法
本研究提出了一种基于目标检测的方法,用于解决非标准体表肿瘤图像分析中的问题。该方法利用YOLO系列(v7至v10)的检测效率,并通过与主流目标检测模型的对比验证其优越性。研究流程分为三个主要步骤:1. 评估并筛选适用于体表肿瘤检测的YOLO模型;2. 通过实验评估模型性能并与主流检测方法进行比较。图1为基本流程图,后续小节详细阐述各步骤的实现过程。
Figure 1. Flowchart
图1. 流程图
2.1. YOLO模型选择标准
本研究选用YOLO官方发布的轻量化模型,包括YOLOv7-tiny [14]、YOLOv8n [17]、YOLOv9-t [18]和YOLOv10n [19],未对其架构进行改动,以充分利用各版本的设计优势进行体表肿瘤的检测。
YOLOv7-tiny:采用E-ELAN主干网络增强特征提取,结合CSP-FPN优化多尺度特征融合,解耦头设计分离分类与回归任务。其轻量化结构适于资源受限环境,多尺度检测能力契合非标准图像中肿瘤尺寸的变化。
YOLOv8n:引入C2f模块降低计算复杂度,锚框无关策略搭配分布式焦点损失(DFL)提升训练稳定性,纳米级设计适用于体表肿瘤类别分布不均的场景。
YOLOv9-t:通过GELAN和可编程梯度信息(PGI)机制减少信息损失,轻量化版本仍能保留深层特征传递能力,适合捕捉非标准图像的细节特征。
YOLOv10n:融入动态标签分配及空间–通道解耦下采样,大核深度卷积(LKDC)扩展感受野,纳米级结构提升细粒度检测能力,适用于背景噪声中的小目标肿瘤检测。
2.2. 实验设置
2.2.1. 硬件配置
实验使用NVIDIA GeForce RTX 4060 GPU (8 GB显存,支持FP16/INT8混合精度训练)和Intel Core i7-13700H CPU (14核,最高频率4.9 GHz),充分利用GPU的并行计算能力和CPU的多核架构以支持训练和预处理任务。
2.2.2. 数据来源与预处理
数据集来源于2023年12月至2024年12月期间,于青岛大学附属医院美容整形外科住院患者非标准临床体表肿瘤图像,所有患者均已签署知情同意书。收集的数据集涵盖十种体表肿瘤类型:表皮痣、复合痣、复鳞上皮乳头状瘤、基底细胞癌、基底细胞乳头状瘤、交界痣、蓝痣、鳞状细胞癌、皮内痣和皮脂腺痣。纳入实验的样本均经过组织病理学证实。所有图像使用智能手机或相机拍摄,保留非标准条件下的光照、背景差异及部分模糊图像。并由整形外科主任医师级别专家使用半自动标注工具(ISAT)为图像标注边界框和分类标签。检测框标签仅用于标注显示,不具备医学意义。病理诊断医学名词与标签的对应关系为表皮痣(BPZ)、复合痣(FHZ)、复鳞上皮乳头状瘤(FLSPRT)、基底细胞癌(JDXBA)、基底细胞乳头状瘤(JDXBRTZL)、交界痣(JJZ)、蓝痣(LZ)、鳞状细胞癌(LZXBA)、皮内痣(PNZ)、皮脂腺痣(PZXZ)。同时由于数据集的分布不平衡,除表皮痣按6:1进行划分,其余九种体表肿瘤按9:1划分。且一张图像上往往不止一个标注框及分类标签,故图像数与实例标注数不是完全对应的。数据划分及分布详见表2。
Table 2. Dataset details
表2. 数据集划分
|
训练集 |
验证集 |
图像 |
标注 |
图像 |
标注 |
表皮痣 |
6 |
6 |
1 |
1 |
复合痣 |
438 |
1196 |
51 |
55 |
复鳞上皮乳头状瘤 |
10 |
10 |
2 |
2 |
基底细胞癌 |
40 |
40 |
5 |
5 |
基底细胞乳头状瘤 |
121 |
133 |
15 |
16 |
交界痣 |
93 |
107 |
11 |
11 |
蓝痣 |
31 |
31 |
4 |
4 |
鳞状细胞癌 |
24 |
43 |
3 |
8 |
皮内痣 |
1196 |
1415 |
135 |
165 |
皮脂腺痣 |
11 |
11 |
2 |
2 |
总数 |
1939 |
2279 |
221 |
269 |
2.2.3. 性能度量
模型性能通过以下关键指标评估,其中TP (真阳性)、FN (假阴性)、FP (假阳性)、TN (真阴性)分别表示正确检测的目标数、漏检目标数、错误检测数和正确否定的非目标数:
准确率(Accuracy):反映模型整体分类的正确性。
(1)
精确率(Precision):衡量检测结果中正确目标的比例。
(2)
召回率(Recall):表示模型检测所有实际目标的能力。
(3)
F1分数(F1 Score):综合精确率与召回率的调和平均值,用于平衡两者表现。
(4)
平均精度均值(mAP@0.5):代表在IoU阈值为0.5时每个种类的平均精度,以评估多类别检测性能。
(5)
延迟(Latency):定义为单帧推理时间(单位ms),包括推理时间(Inference Time)和非极大值抑制(NMS)时间之和,用于评估模型实时性。
这些指标共同衡量模型在非标准图像上的检测精度与实时性能,确保其在实际应用中的可靠性。
2.2.4. 与主流模型的比较
为验证所提方法的优越性,本研究将选定的YOLO混合模型与主流目标检测模型进行了对比,包括Faster R-CNN [20]、EfficientDet [21]、SSD [22]、RetinaNet [23]。这些模型在医学影像检测领域应用广泛,分别代表两阶段检测(Faster R-CNN, RetinaNet)和单阶段检测(EfficientDet, SSD)的典型方法。比较实验在相同数据集和硬件条件下进行,采用2.3.3中定义的性能指标评估各模型在非标准图像上的表现,重点考察检测精度(mAP@0.5)和实时性(Latency)。
3. 结果
本研究在非标准皮肤肿瘤图像数据集上评估了YOLO混合模型的性能,聚焦轻量化YOLO模型(YOLOv7-tiny、YOLOv8n、YOLOv9-t和YOLOv10n)的检测能力,涉及十类体表肿瘤:表皮痣、复合痣、复鳞上皮乳头状瘤、基底细胞癌、基底细胞乳头状瘤、交界痣、蓝痣、鳞状细胞癌、皮内痣和皮脂腺痣。以下结果分为整体性能、效率分析、类别检测性能、可视化结果和与主流模型的比较。
3.1. 整体模型性能
Table 3. YOLO model performance comparison
表3. YOLO模型性能对比
YOLO |
精确率(%) |
召回率(%) |
F1分数(%) |
mAP@0.5 |
YOLOv7-tiny |
0.94 |
0.663 |
0.792 |
0.792 |
YOLOv8n |
0.952 |
0.828 |
0.903 |
0.903 |
YOLOv9-t |
0.933 |
0.788 |
0.892 |
0.892 |
YOLOv10n |
0.828 |
0.823 |
0.912 |
0.912 |
如表3,展示了各YOLO模型在验证集上的性能,包括精确率(P)、召回率(R)、F1分数和mAP@0.5。YOLOv10n在综合性能上表现最佳,其F1分数(0.912)和mAP@0.5 (0.912)均为最高,精确率(0.828)与召回率(0.823)实现了良好平衡。YOLOv8n的精确率(0.952)突出,能够有效降低误检率。YOLOv9-t的性能均衡,F1分数(0.892)和mAP@0.5 (0.892)表现稳定。而YOLOv7-tiny尽管精确率较高(0.94),但召回率较低(0.663),导致F1分数(0.792)和mAP@0.5 (0.792)在四者中最低,反映其检测全面性不足。
3.2. 效率分析
如表4,总结了各YOLO模型在验证集上的推理速度(单位:毫秒,ms)。YOLOv10n以总时间4.3 ms (推理时间4.1 ms,NMS时间0.2 ms)展现最佳实时性,优于YOLOv8n (总时间5.9 ms,推理5.4 ms,NMS 0.5 ms)、YOLOv9-t (6.5 ms)和YOLOv7-tiny (5.8 ms)。这一结果表明YOLOv10n的优化架构显著提升了计算效率。
Table 4. YOLO model speed comparison
表4. YOLO模型速度对比
模型版本 |
推理时间(ms) |
NMS时间(ms) |
总时间(ms) |
YOLOv7-tiny |
4.4 |
1.4 |
5.8 |
YOLOv8n |
5.4 |
0.5 |
5.9 |
YOLOv9-t |
5.4 |
1.1 |
6.5 |
YOLOv10n |
4.1 |
0.2 |
4.3 |
3.3. 各类别检测性能
Figure 2. Detection performance of ten types of superficial tumors in each YOLO model. Detection indices for (a) YOLOv7-tiny, (b) YOLOv8n, (c) YOLOv9-t, and (d) YOLOv10n
图2. 十类体表肿瘤在YOLO系列的检测性能。(a)、(b)、(c)、(d)分别代表YOLOv7-tiny、YOLOv8n、YOLOv9-t、YOLOv10n的检测指标
图2通过柱状图展示了各YOLO模型在十类体表肿瘤上的检测性能,包括精确率、召回率、mAP@0.5和F1分数。在样本充足的类别(如皮内痣和复合痣)中,YOLOv8n的精确率和召回率均超过0.90,mAP@0.5 接近0.95,YOLOv10n的mAP@0.5约为0.92,召回率约0.90。而在样本稀少的类别(如蓝痣和表皮痣)中,召回率普遍较低,例如YOLOv7-tiny在鳞状细胞癌上的mAP@0.5约为0.50,召回率仅0.40,YOLOv10n仍保持0.60以上。数据分布不均导致性能波动,例如蓝痣样本较少时,YOLOv7-tiny召回率接近0,YOLOv8n和YOLOv10n的mAP@0.5约为0.70。
3.4. 可视化结果
Figure 3. Inferential detection results of superficial tumors in each YOLO
图3. 体表肿瘤在各YOLO中的推理检测结果
图3展示了各YOLO模型在十类体表肿瘤中随机抽取的一张图像上的检测结果,仅显示检测框(未包含SAM分割结果)。YOLOv8n和YOLOv10n在皮内痣和复合痣上的检测框边界清晰、定位准确,而YOLOv7-tiny在鳞状细胞癌和蓝痣上存在较多漏检,反映其对稀有类别的泛化能力较弱。
3.5. 与主流模型的比较
表5展示了在主流目标检测模型上的性能。Faster R-CNN的召回率(0.8266)接近YOLOv10n (0.823),但精确率(0.5766)远低于YOLOv8n (0.952)。EfficientDet的精确率(0.8669)较高,但召回率(0.5095)不足,mAP@0.5 (0.5871)在对比中最低。SSD的精确率(0.9854)超越所有YOLO模型,但召回率(0.4854)较低。RetinaNet的mAP@0.5 (0.5872)也远不及YOLOv10n (0.912)。结果表明,YOLO系列在综合性能上优于主流模型。
Table 5. Mainstream model performance comparison
表5. 主流模型性能对比
模型版本 |
精确率(P) |
召回率(R) |
F1分数 |
mAP@0.5 |
Faster R-CNN |
0.5766 |
0.8266 |
0.6815 |
0.8151 |
EfficientDet |
0.8669 |
0.5095 |
0.62 |
0.5871 |
SSD |
0.9854 |
0.4854 |
0.58 |
0.6858 |
RetinaNet |
0.9189 |
0.5079 |
0.61 |
0.5872 |
4. 讨论
4.1. 结果解释
本研究对轻量化YOLO模型(YOLOv7-tiny、YOLOv8n、YOLOv9-t和YOLOv10n)在非标准体表肿瘤图像数据集上的表现进行了系统评估。实验结果表明YOLOv8n在精确率上表现突出(0.952),有效降低了误检率,特别是在临床诊断中具有显著价值,能够减少不必要的误诊和患者焦虑。然而,尽管YOLOv8n具有较高的精确率,但其召回率(0.828)低于YOLOv10n,可能会导致某些病例的漏检,尤其是在难以辨识的小型或边界模糊的肿瘤中。YOLOv7-tiny虽然在精确率方面表现较好(0.94),但召回率(0.663)显著低于其他模型,这表明其在检测全面性上的不足,尤其在稀有类别如蓝痣和表皮痣上,召回率和mAP@0.5的表现较差,说明其对不常见病变的泛化能力较弱。因此,YOLOv7-tiny更适合应用于目标检测较为单一且背景较为简单的场景。
轻量化YOLO模型各有优势,未来可根据不同的临床需求选择最合适的模型。YOLOv10n在全面筛查、早期诊断方面表现最佳,而YOLOv8n则适合对精度要求较高、误诊风险较小的场景。
4.2. 与现有研究的比较
在YOLO系列模型与主流目标检测模型(Faster R-CNN, EfficientDet, SSD, RetinaNet)的比较中,结果表明YOLO模型在多个性能指标上均优于这些传统模型。Faster R-CNN的精确率为0.5766,召回率为0.8266,尽管其召回率较高,但较低的精确率导致较高的假阳性,在临床应用中可能导致不必要的进一步检查。EfficientDet的精确率为0.8669,召回率为0.5095,精确率较高,但召回率不足,导致其在检测恶性肿瘤时容易漏检。SSD的精确率为0.9854,明显高于YOLO系列,但召回率仅为0.4854,这使得SSD在小目标和稀有病变的检测中表现较差。RetinaNet的精确率为0.9189,召回率为0.5079,mAP@0.5为0.5872,虽然在小目标检测上具有优势,但其整体性能仍低于YOLO系列。基于YOLO系列模型在精度、召回率和实时性上均优于以上主流模型,特别是YOLOv10n,表现出最好的综合性能,因此适合用于皮肤肿瘤的全面筛查和恶性肿瘤的早期诊断。
4.3. 影响因素分析
YOLO系列模型的性能受到数据分布不均和非标准图像的影响。数据集中的稀有类别(如蓝痣和表皮痣)样本较少,导致这些类别的召回率较低。YOLOv7-tiny在稀有类别上的召回率显著低于YOLOv8n和YOLOv10n。同时,图像的拍摄环境(如光照变化、拍摄角度和背景差异)增加了模型的识别难度。特别是在边界模糊的病变类型(如交界痣、基底细胞癌)中,这些因素导致模型容易出现漏检。这一问题在基于标准数据集进行的研究中较为少见,但在实际临床应用中,非标准图像的普遍性使得模型的鲁棒性和稳定性成为关键挑战,尤其是在处理光照变化、拍摄角度差异和背景噪声等因素时,这些都会影响模型的检测准确性和可靠性。
4.4. 局限性
本研究存在以下局限性:(1) 本研究仅评估了YOLO模型的检测性能,而未结合分割模块(如SAM)的效果,限制了我们对混合模型(如YOLO-SAM)的整体性能理解。未来研究应结合检测与分割模块,全面评估端到端的检测;(2) 尽管我们的数据集包含了多种体表肿瘤,但对于蓝痣和表皮痣等类别,样本数量较少,导致模型在这些类别上的泛化能力较弱,未能覆盖所有临床场景,尤其在真实环境下,模型可能会遇到更多稀有病变样本,影响其实际应用;(3) 非标准图像的不可控因素(如拍摄角度)可能降低模型在真实环境中的稳定性。
4.5. 未来方向
为克服这些局限性,未来研究可采取以下措施:(1) 可以将YOLO与分割技术结合,评估端到端的检测与分割性能,这将有助于提高模型在复杂病变(如边界模糊的肿瘤)上的表现。(2) 通过数据增强(如生成对抗网络生成蓝痣、表皮痣样本或加权损失函数提升稀有类别检测能力。(3) 在更大规模、更多样化的临床数据集上验证模型,模拟真实诊断环境。此外,优化模型以适配低功耗设备将有助于其在便携式诊断中的应用。
4.6. 医学意义
本研究验证了YOLOv10n和YOLOv8n在体表肿瘤检测中的高效性,其精度与速度的平衡为自动化筛查提供了可行方案,尤其对基底细胞癌和鳞状细胞癌等恶性病变的早期识别具有潜力。通过分析十类体表肿瘤的检测性能,本研究为辅助医疗诊断提供了数据支持,未来改进后可望提升体表肿瘤诊断的准确性和效率,改善患者预后。
5. 结论
本研究验证了轻量化YOLO模型在非标准体表肿瘤图像检测中的有效性。结果显示,YOLOv10n的F1分数为0.912,mAP@0.5达到0.912,而YOLOv8n的精确率高达0.952,能够覆盖十类体表肿瘤。研究表明,YOLOv10n适用于全面的病变筛查,而YOLOv8n则在高精度诊断中表现尤为突出,特别是在检测基底细胞癌和鳞状细胞癌等恶性肿瘤时表现出色。尽管稀有类别(如蓝痣)和图像变异性带来一定挑战,但YOLO系列模型框架为体表肿瘤检测提供了坚实的技术基础。未来通过集成分割功能和扩展数据集,模型的精度和临床应用性有望进一步提高,从而推动体表肿瘤自动检测技术的发展,并为改善患者预后提供支持。
基金项目
项目等级:面上项目;项目名称:YAP在纳米纤维支架拓扑结构调控hUCMSCs分泌组中的作用及机制研究;项目编号:ZR2021MH027。
NOTES
*通讯作者。