基于YOLOv8的剪刀石头布识别系统
Rock-Paper-Scissors Recognition System Based on YOLOv8
摘要: 本文旨在研究并开发基于YOLOv8算法的剪刀石头布手势识别系统,推动人机交互技术发展,提升计算机视觉系统能力。研究采用YOLOv8算法,结合PySide6开发工具构建系统。通过对模型选择、训练、预测以及用户界面设计等过程的详细阐述,完成整个系统的搭建。在模型训练部分,利用PyTorch框架和Ultralytics YOLO库,加载预训练模型并进行针对性训练;模型预测时,导入OpenCV库处理图像,使用预训练模型实现手势检测。实验结果表明,YOLOv8在识别精度、速度以及复杂环境下的鲁棒性方面均优于YOLO系列早期版本。通过用户友好的界面,实现了直观便捷的手势识别。研究证明了YOLOv8在手势识别任务中的优越性,为其在虚拟现实、增强现实、智能家居控制等领域的应用提供了新的可能。
Abstract: This paper aims to research and develop a rock-paper-scissors gesture recognition system based on the YOLOv8 algorithm, aiming to promote the development of human-computer interaction technology and enhance the capabilities of computer vision systems. The research uses the YOLOv8 algorithm in combination with the PySide6 development tool to construct the system. The entire system is built through a detailed elaboration of processes such as model selection, training, prediction, and user interface design. In the model training section, the PyTorch framework and the Ultralytics YOLO library are utilized. A pre-trained model is loaded and further trained for the specific task of rock-paper-scissors recognition. When performing model prediction, the OpenCV library is imported to process images, and the pre-trained model is used to achieve gesture detection. The Experimental results show that YOLOv8 outperforms earlier versions of the YOLO series in terms of recognition accuracy, speed, and robustness in complex environments. The system, with its user-friendly interface developed by PySide6, enables intuitive and convenient gesture recognition. The study demonstrates the superiority of YOLOv8 in gesture recognition tasks, providing new possibilities for its applications in fields such as virtual reality, augmented reality, and smart home control.
文章引用:高怡君. 基于YOLOv8的剪刀石头布识别系统[J]. 建模与仿真, 2025, 14(6): 392-404. https://doi.org/10.12677/mos.2025.146506

1. 引言

近年来,人工智能技术呈爆发式增长,手势识别凭借其在人机交互领域独特的交互优势,成为学术界和工业界竞相探索的焦点,尤其在虚拟现实、智能家居控制等前沿领域展现出巨大潜力。手势识别技术能够使计算机理解人类的肢体语言,从而实现更加自然、便捷的人机交互,其应用领域涵盖了虚拟现实(VR)、增强现实(AR)、智能家居控制、辅助驾驶系统以及医疗康复等多个重要方向在智能家居和虚拟现实游戏领域,用户可以借助精准的手势识别技术实现家电设备的一键控制,同时为游戏角色动作赋予自然流畅性,显著提升沉浸感。

目标检测算法作为计算机视觉的核心技术,为手势识别提供了强大的技术支持。在众多手势识别技术中,基于计算机视觉的方法因其非接触式、直观性等优势而备受关注。YOLO (You Only Look Once)系列算法以其卓越的实时性和准确性,在目标检测领域占据重要地位,有力地推动了手势识别技术的发展。自YOLOv1问世以来,该系列算法不断迭代更新,每次版本的升级都带来了性能的显著提升。YOLOv8是由Ultralytics公司于2023年开源的YOLO系列最新版本。它在继承前代优势的基础上,引入了新的骨干网络、无锚点(Anchor-Free)检测头和改进的损失函数等创新机制。这些改进使得YOLOv8在目标检测的速度和精度上有了显著提升,为复杂场景下的手势识别提供了更高效的解决方案。

在近年来的研究中,基于YOLO算法的手势识别技术取得了显著的突破。Terven J等人[1]对YOLO系列算法进行了全面综述,详细介绍了从YOLOv1到YOLOv8的发展历程及各版本的技术优势。同时,研究者们不断探索YOLO算法在手势识别领域的应用。例如,Fang W等人[2]提出的Tinier-YOLO算法,通过模型轻量化设计,使其能够在资源受限环境下实现实时手势识别,拓展了手势识别技术的应用场景。此外,Li C等人[3]开发的YOLOv6算法,针对工业应用对手势识别的高效性和准确性需求,优化了网络结构和训练策略,提升了模型在复杂工业环境下的鲁棒性。而Wang CY等人[4]提出的YOLOv7算法,在实时目标检测任务中取得了卓越性能,其创新的训练技巧和架构设计为手势识别模型的进一步优化提供了思路。

然而,手势识别技术在实际应用中仍面临诸多挑战。一方面,在复杂背景和光照条件下,如何保持高识别准确率和实时性是亟待解决的问题。例如,当环境光线不足或存在遮挡物时,手势识别的精度往往会受到影响。另一方面,随着应用领域的不断拓展,手势识别系统需要处理更加多样化和精细化的手势动作,这对模型的泛化能力和计算效率提出了更高要求。此外,如何将手势识别技术与其他交互技术(如语音识别、眼动追踪等)进行融合,以构建更加智能、自然的多模态交互系统,也是未来研究的重要方向。

在这一背景下,本研究聚焦开发基于YOLOv8的剪刀石头布手势识别系统。YOLOv8于2023年开源,创新技术使其目标检测速度和精度优于早期版本。本研究深入剖析其原理,挖掘优势并结合实际优化,如强化鲁棒性、优化特征提取能力,构建高效准确且实时性好的系统。创新之处在于技术与应用:用PySide6打造友好界面提升识别便捷性,探索在智能家居和游戏娱乐领域的应用,为相关产业发展及人机交互技术进步提供新思路。

2. 模型选择:YOLO系列

2.1. YOLOv8算法的优势:对比YOLOv5-v8

手势识别技术的发展不仅可以应用于简单的游戏互动,如石头剪刀布,更广泛地应用于虚拟现实(VR)、增强现实(AR)、智能家居控制、辅助驾驶系统等领域,这些应用的实现极大地依赖于手势识别技术的准确性和实时性。因此,研究和优化石头剪刀布手势识别系统不仅对于提升人机交互的自然性和便利性具有重要意义,也是推动相关技术和应用发展的关键。

在近年来,石头剪刀布手势识别系统的研究取得了显著进展,这得益于深度学习算法的快速发展,尤其是YOLO系列算法的不断迭代更新。当前,研究者们不仅关注于提高手势识别的准确率,还致力于提升系统的实时性能和在复杂环境下的鲁棒性。

YOLOv5自发布以来,因其在速度和准确性上取得了良好的平衡,被广泛应用于多种实时物体识别任务中。研究表明,通过对YOLOv5进行定制化改进,可以有效提升手势识别的性能。此外,YOLOv6引入了更多的网络优化技术,进一步提高了模型的识别速度和准确性。随后,YOLOv7和YOLOv8的发布,不仅在算法架构上进行了创新,还通过引入新的训练技术和优化策略,显著提升了手势识别的效果。

在手势识别的研究中,数据集的质量和多样性是提高识别准确率的关键因素之一。最近的研究显示,通过增强现有的手势识别数据集,可以有效提升模型的泛化能力和识别性能。此外,研究者们还尝试结合多种传感器数据,如深度信息和红外信息,来提高手势识别的准确性和鲁棒性。

在剪刀石头布手势识别任务中,YOLOv8相较于其他版本的YOLO算法展现出了显著的性能优势。从图1可以看出,在COCO mAP_50-95这一关键指标上,YOLOv8在不同参数规模下均优于YOLOv5、YOLOv6和YOLOv7。特别是当参数量达到约50 M时,YOLOv8的mAP达到了约52%,而YOLOv5、v6、v7的mAP分别约为48%、49%和50%。这表明YOLOv8在模型容量增大时能更有效地学习到手势特征,从而实现更高的识别精度。

同时,由图1 [1]可以看出,在推理延迟方面(使用A100 GPU和TensorRT FP16),YOLOv8在保持高准确率的基础上,也展现出了良好的实时性能。当延迟约为3.5 ms/img时,YOLOv8的mAP仍能达到约52%,而其他版本在相似延迟下的mAP略低。这说明YOLOv8在优化网络结构和训练策略后,不仅提高了识别精度,还保持着较快的推理速度,能够更好地满足实时手势识别的应用需求。这使得YOLOv8在剪刀石头布手势识别等需要实时交互的任务中成为更优的选择。

表1表2的数据可以看出,YOLOv8相较于YOLOv5在多个方面有显著性能提升。在模型精度上,YOLOv8的mAP_val 50-95优于YOLOv5,如640 pixels尺寸下,YOLOv5的yolov5xu.pt模型mAP

Figure 1. YOLOv5-v8 characteristic performance curve

1. YOLOv5-v8性能曲线

Table 1. YOLOv5 performance

1. YOLOv5性能表现

模型

Size (pixels)

mAP_val 50-95

Speed CPU ONNX (ms)

Speed A100 TensorRT (ms)

params (M)

yolov5nu.pt

640

34.3

73.6

1.06

2.6

yolov5su.pt

640

43.0

120.7

1.27

9.1

yolov5mu.pt

640

49.0

233.9

1.86

25.1

yolov5lu.pt

640

52.2

408.4

2.50

53.2

yolov5xu.pt

640

53.2

763.2

3.81

97.2

yolov5n6u.pt

1280

42.1

211.0

1.83

4.3

yolov5s6u.pt

1280

48.6

422.6

2.34

15.3

yolov5m6u.pt

1280

53.6

810.9

4.36

41.2

yolov5l6u.pt

1280

55.7

1470.9

5.47

86.1

yolov5x6u.pt

1280

56.8

2436.5

8.98

155.4

Table 2. YOLOv8 performance

2. YOLOv8性能表现

模型

Size (pixels)

mAP_val 50-95

Speed CPU ONNX (ms)

Speed A100 TensorRT (ms)

params (M)

yolov8n

640

37.3

80.4

0.99

3.2

yolov8s

640

44.9

128.4

1.20

11.2

yolov8m

640

50.2

234.7

1.83

25.9

yolov8l

640

52.9

375.2

2.39

43.7

yolov8x

640

53.9

479.1

3.53

68.2

为53.2,而YOLOv8的yolov8x模型达53.9,说明YOLOv8目标检测更精准,能有效减少误检和漏检。在推理速度方面,YOLOv8在CPU和GPU上均faster。以640 pixels模型为例,yolov8n的Speed CPU ONNX为80.4 ms,相比yolov5nu.pt的73.6 ms虽略有增加,但随着模型尺寸增大,如yolov8x的479.1 ms对比yolov5xu.pt的763.2 ms,YOLOv8速度优势明显。在A100 GPU上,yolov8n的Speed A100 TensorRT仅需0.99 ms,相比yolov5nu.pt的1.06 ms降低不少,且随着模型规模扩大,YOLOv8依然保持速度优势。在模型大小方面,YOLOv8参数量有所增加,如640 pixels下yolov8x为68.2 M,yolov5xu.pt为97.2 M,这是因YOLOv8网络结构优化,以容纳更多特征提取和学习能力,实现更高精度和速度,尽管参数量增加,但性能提升能弥补存储和内存占用增加。综上,YOLOv8在模型精度、推理速度和模型大小等方面均优于YOLOv5,使其在剪刀石头布手势识别等任务中表现更优秀,能提供更流畅、准确的交互体验,更好地满足实际应用需求,推动手势识别技术广泛应用。

如前文所述,YOLOv8在mAP和推理延迟方面相较于其他版本具有显著优势。

2.2. YOLOv8-P5算法概述

在计算机视觉技术快速迭代的背景下,Ultralytics公司于2023年1月10日正式开源的YOLOv8模型,作为YOLOv5的重要升级版本,自研发阶段起便吸引了学术界与工业界的广泛关注。该模型具备强大的多任务处理能力,可高效实现图像分类、目标检测与实例分割等核心任务,凭借优异的性能表现,成功跻身当前最先进(SOTA)模型之列。

在技术架构层面,YOLOv8深度继承YOLO系列的技术积淀,同时引入多项创新性改进。通过构建新型骨干网络,优化特征提取效率;采用无锚点(Anchor-Free)检测头设计,简化检测流程;革新损失函数,提升模型训练精度与泛化能力。这些技术创新使YOLOv8在性能与灵活性上实现显著突破,可在CPU、GPU等异构硬件平台上实现高效部署,充分适应多样化的应用场景需求。

值得关注的是,Ultralytics公司在开源该项目时,并未直接沿用YOLOv8命名,而是以“Ultralytics”作为开源库名称。这一命名策略体现了其深远的技术布局:将项目定位为综合性算法框架,突破单一算法的局限,以高度可扩展性为核心特征,不仅支持YOLO系列模型的持续演进,还兼容其他非YOLO架构,涵盖图像分类、实例分割、姿态估计等多元计算机视觉任务。

这种设计思路赋予Ultralytics开源库显著的竞争优势。一方面,它通过整合计算机视觉领域前沿技术,确保模型性能始终保持领先;另一方面,开放灵活的框架设计,为未来YOLO系列及其他创新算法的开发与应用,提供了统一高效的技术平台,有力推动了计算机视觉技术在学术研究与工程实践中的协同发展[5]图2为YOLOv8-P5模型结构,来源RangeKing@github。

2.3. YOLOv8在手势识别中的核心优势与局限性

2.3.1. YOLOv8在手势识别中的核心优势

技术架构层面:YOLOv8在无锚点检测机制上具有无可替代的优势。YOLOv8的无锚点设计减少了对手势形状先验假设的依赖,尤其适用于剪刀手势等不规则形态的检测。在“剪刀”手势召回率测试中,YOLOv8相较于YOLOv5提升了9.2%,有效缓解了传统锚框匹配对复杂手势形态的漏检问题。在PAFPN特征融合网络上,PAFPN通过跨层特征融合增强了多尺度表达能力,对手势细节(如指尖、关节)的捕捉精度显著提升。在COCO-Hand数据集的小目标检测实验中(目标尺寸 < 32 × 32像素),YOLOv8的平均精度(AP)达到58.7%,较SSD (42.1%)提升显著。任务解耦头(Decoupled Head)上,分类与回归任务的独立优化机制提升了手势类别区分能力。在“石头–布”“剪刀–布”等易混淆手势对的误判率对比中,YOLOv8的误判率(6.3%)较YOLOv7 (11.5%)降低近50%,表明其对相似手势的特征分离能力更强。最后,DFL (Distribution Focal Loss)通过概率分布建模优化边界框回归,在自建手势数据集上,YOLOv8的平均交并比(IoU)达到89.4%,较YOLOv5 (82.3%)提升7.1个百分点,对手势轮廓的定位精度显著提高[6]

Figure 2. YOLOv8-P5 mode structure

2. YOLOv8-P5模型结构

性能与效率层面:其实时性优势在NVIDIA Jetson Nano上测试得出,YOLOv8n达到42 FPS (1920 × 1080分辨率),显著高于Faster R-CNN (8 FPS),满足实时交互需求。其轻量化潜力方面,YOLOv8n参数量仅3.2 M,通过TensorRT量化后可部署于树莓派4B (INT8精度下FPS提升至65),而YOLOv5n需额外剪枝才能达到相近效率。

2.3.2. YOLOv8在手势识别中的局限性

时序建模能力不足,对动态手势(如“石头 → 剪刀”的过渡状态)识别不稳定,误判率高达18.7%。改进方向:引入光流特征或时序卷积网络(TCN),捕捉手势序列的时间依赖性,提升动态场景下的分类准确率。小目标检测性能下降,在远距离或遮挡场景中(手势占图像面积 < 5%),漏检率显著上升(测试集mAP@0.5从89.2%降至51.4%)。改进方向:在特征金字塔中增加浅层检测头(如P2层),或通过注意力机制增强小目标特征响应。语义相近手势区分能力有限,对“点赞”与“OK”等视觉相似但语义不同的手势,误判率达12.1%。改进方向:融合手部关键点检测结果(如指间角度、关节位置),通过多模态决策树辅助分类,提升语义理解精度。

在自建手势数据集上,YOLOv8与早期版本及改进方案的对比如下:

YOLOv5s的参数量为7.2 M,mAP@0.5为84.3%,在RTX 3080上的推理速度为118 FPS;YOLOv8s通过架构优化,参数量提升至11.2 M,mAP@0.5显著提升至89.7%,推理速度增至168 FPS;进一步引入背景过滤机制后(YOLOv8s改进版),复杂背景下的误检率从12.5%降至9.3%,mAP@0.5提升至92.4%,验证了优化策略的有效性,如表3为YOLOv8性能与其他手势识别方法的横向对比。

Table 3. Horizontal comparison of YOLOv8 performance with other gesture recognition methods

3. YOLOv8性能与其他手势识别方法的横向对比

方法

准确率(%)

参数量(M)

推迟延迟(ms)

复杂场景适应性

HOG + SVM

76.8

0.1

128

差(光照敏感)

MobileNetV3 + SSD

82.3

5.4

42

一般(背景干扰)

YOLOv8n (原始)

87.5

3.2

28

较好(复杂背景下有波动)

YOLOv8n (改进版)

91.2

3.5

31

优(抗遮挡/光照)

3. 页面效果展示

本文采用YOLOv8算法,结合PySide6开发工具,构建了一个创新的石头剪刀布手势识别系统。着重深入探讨了YOLOv8等算法的原理和应用,并为用户提供了一个美观友好的界面,使得手势识别更加直观便捷。页面效果如图3所示:

Figure 3. PySide6 interface presentation

3. PySide6界面展示

4. 实验结果与分析

4.1. 数据集及预处理

在本研究中,数据集的构建与预处理是手势识别系统开发的核心环节。我们深知数据集质量对深度学习模型训练效果的决定性影响,因此研究团队对原始数据进行了细致的筛选与预处理工作。总共整理出5229张有效图片,它们被科学地划分为训练集、验证集和测试集三个部分,具体数量分别为4178张、546张和505张。这一划分策略旨在为模型提供丰富多样的学习素材,同时确保验证和测试过程的客观性与准确性,以便真实地评估模型的泛化性能。

数据集涵盖了“石头”、“剪刀”和“布”三大类别的手势图片,全面覆盖了石头剪刀布游戏的基本手势。在数据分析过程中,我们注意到“石头”类别的样本数量相对较多,而“剪刀”和“布”两类的样本数量则呈现出较为均衡的状态。为了避免模型因类别样本数量差异而产生偏倚,我们通过采用适当的数据增强和采样技术,对数据集的类别分布进行了优化调整。这一过程不仅提升了数据集的均衡性,还增强了模型对各类手势特征的学习能力,从而为提高手势识别的准确性和鲁棒性奠定了坚实的基础。

4.2. 结合混合高斯模型(GMM)实现动态背景建模与抑制

采用混合高斯模型(GMM)对视频流背景进行实时建模,通过像素级背景差分提取动态手势区域。具体步骤为:初始化背景模型,采集前30帧图像构建背景高斯分布集合;实时更新,每帧图像通过像素匹配更新背景模型参数;前景分割,通过马氏距离计算像素属于背景的概率,生成二值掩码提取手势区域。实验验证,在包含动态背景(如人流、晃动物体)的测试集中,该方案使YOLOv8的误检率从18.7%降至9.2%,mAP@0.5提升8.3%。可视化结果显示,背景差分后的手势区域边缘更清晰,减少了误框干扰。公式如下:

GMM模型的数学表达 = λ 1 N( μ 1 , σ 1 )+ λ 2 N( μ 2 , σ 2 )+= λ i N( μ i , σ i ) (1)

4.3. 光照变化场景的自适应解决方案——光照归一化预处理

采用CLAHE (对比度受限的自适应直方图均衡化)算法增强低光照图像的对比度,同时通过Retinex-Net去除光照不均匀性。具体流程为:

I norm =CLAHE( Retinex( I ) ) (2)

其中,I为原始图像,Retinex模拟人类视觉系统对光照的感知,CLAHE避免过增强导致的噪声放大。

在低光照测试集(亮度 < 30 lux)中,预处理后模型的准确率从68.5%提升至82.1%,尤其对手势阴影区域的细节恢复效果显著。

4.4. 多模态交互技术的融合创新——RGB-D多模态特征融合

引入深度相机(如Intel RealSense D435i)获取手势的三维坐标信息,通过跨模态注意力机制融合RGB图像与深度图。具体结构为:分别通过独立主干网络提取RGB特征(YOLOv8主干)和Depth特征(轻量化CNN);在颈部网络通过交叉注意力(Cross-Attention)实现模态交互,公式为:

F fusion =Attention( F rgb , F depth )+ F rgb + F depth (3)

4.5. 边缘设备的轻量化部署优化

在模型压缩与硬件适配方面,本研究采用量化剪枝与硬件加速协同优化策略,显著提升YOLOv8n在边缘设备上的部署效率。首先通过INT8量化结合结构剪枝技术对模型进行压缩,在移除冗余卷积层等低效结构的同时,将权重量化为8位整数表示,使模型体积从原始的6.4 MB大幅压缩至2.1 MB,压缩率达67.2%。进一步利用TensorRT-LLM在NVIDIA Jetson Nano平台上实现层融合优化,通过算子融合、内存复用等技术减少数据传输开销,最终将单帧推理延迟从28 ms降至19 ms,性能提升32.1%。该优化方案在保持83.1% mAP@0.5检测精度的同时,实现了模型体积与推理延迟的双重优化,为资源受限环境下的实时手势识别应用提供了高效解决方案,表4为YOLOv8分别在背景建模和光照预处理、多模态融合、轻量化部署方面进行优化后对应的性能提升参数。

Table 4. Comprehensive performance improvement of YOLOv8 and its optimization

4. YOLOv8及优化综合性能提升

优化策略

复杂背景误检率(%)

低光照准确率(%)

多模态mAP(%)

边缘延迟(ms)

YOLOv8n

18.7

68.5

83.7

28

+背景建模 + 光照预处理

9.2

82.1

-----

30

+多模态融合

7.5

81.9

91.4

35

+轻量化部署

8.1

80.2

89.5

19

4.6. 评价指标介绍

Loss计算

Focal Loss是一种用于处理类别不平衡问题的损失函数,它在交叉熵损失的基础上引入了调节因子,使得模型更加关注难以分类的样本。公式如下:

FL( p )=α ( 1p ) γ log( p ) [7](4)

其中p是模型预测概率, α 是用于平衡正负样本比例的权重因子, γ 是用于调节损失函数焦点的参数。在剪刀石头布手势识别任务中,由于“石头”类别的样本数量相对较多,Focal Loss能够有效地减少易分类样本的权重,使模型更加专注于学习“剪刀”和“布”等样本数量相对较少的手势特征。

GIoU (Generalized Intersection over Union) Loss是一种用于边界框回归的损失函数。公式如下:

GIoU=1 Are a pred Are a gt Are a pred Are a gt + c 2 d 2 c 2 (5)

Are a pred Are a gt 分别表示预测边界框和真实边界框的面积,c是包含预测边界框和真实边界框的最小闭包区域的对角线长度,d是预测边界框和真实边界框中心点之间的距离。在手势识别中,GIoU Loss能够更准确地衡量预测边界框与真实边界框之间的差异,从而提高模型对不同手势形状和位置的定位精度。

Dice Loss是一种用于语义分割任务的损失函数,它通过计算预测分割图和真实分割图之间的相似度来衡量模型的性能。公式如下:

Dice=1 2×| XY | | X |+| Y | (6)

其中,X是模型预测的分割图,Y是真实分割图, | XY | 表示预测分割图和真实分割图的交集, | X | | Y | 分别表示预测分割图和真实分割图的面积。在手势识别中,Dice Loss可以用于分割手势区域,提高模型对不同手势形状的识别能力。

在我们的系统中,通过结合上述多种损失函数,能够充分利用它们各自的优势,使模型在训练过程中更加关注难以识别的手势样本,同时准确地定位和分割手势区域。这有助于提高模型在处理不同手势类别时的准确性和鲁棒性,从而实现高效、精确的剪刀石头布手势识别,Loss框架见表4

Figure 4. Loss frame

4. Loss框架

4.7. 数据结果分析

图5呈现了模型在测试集上分类结果与真实标签的对应关系。横轴代表真实类别,纵轴代表预测类别,单元格内数字表示模型将真实类别误判为相应预测类别的比例。图中对角线上的深蓝色块表示模型对各类别的正确分类比例较高,说明模型在区分不同手势类别方面表现良好。例如,“Rock”类别的正确分类率为0.93,“Scissors”为 0.94,“Paper”为0.92,表明模型对这三类手势的识别能力较强。而非对角线上的浅色块表示错误分类的比例相对较低,整体上模型的分类性能较为理想。

Figure 5. Confusion matrix normalized

5. 自混淆矩阵归一化

图6展示了模型在不同召回率下的精确率表现。横轴为召回率,纵轴为精确率,不同颜色曲线分别代表各目标类别。图中各类别的曲线在大部分召回率范围内都保持了较高的精确率,说明模型在识别各类手势时能够较好地平衡精确率和召回率。例如,“Paper”类别的精确率为0.957,“Rock”为0.944,“Scissors”为0.956,所有类别的综合平均精确率为0.952 (mAP@0.5)。

Figure 6. Precision-recall curve

6. 精确率–召回率曲线

Figure 7. F1-confidence curve

7. F1-置信度曲线

图7所示,该曲线呈现了F1分数随置信度阈值的动态变化趋势。其中,横轴以置信度为度量维度,纵轴反映F1分数的数值变化。图中不同颜色的曲线分别代表不同类别(“Paper”“Rock”“Scissors”)以及所有类别的综合情况。通过对图表数据的深入分析可知,在YOLOv8模型的性能评估中,各类别F1分数随置信度的变化呈现出非线性趋势。具体表现为,随着置信度阈值逐步提升,F1分数首先呈现稳步增长态势,在达到特定置信度阈值后开始回落。进一步观察发现,所有类别的综合F1分数在置信度约0.762处达到峰值0.93。这一结果表明,当将置信度设定为0.762时,模型在平衡精确率与召回率方面取得最优效果,实现了整体性能的最大化。各类别曲线的趋势也反映了模型在不同置信度区间对各类别的识别准确性和召回率的平衡情况。

图8展示了YOLOv8模型在剪刀石头布手势识别任务中的训练损失和验证损失变化情况。从图中可以看出,训练损失(包括边界框损失、分类损失和分布式焦点损失)均呈现出明显的下降趋势,这显示出模型的不断学习与优化性,能够较好地拟合所给的训练数据。验证损失的持续下降趋势直观地反映出,模型在验证数据集上能够有效抑制过拟合现象,从而展现出良好的泛化性能,确保在未见过的数据上依然具备可靠的预测能力。最终较低的损失值进一步证明了YOLOv8算法在手势识别任务中的有效性和优越性,为实际应用中的高效、准确手势识别提供了有力支持。

图9展示了YOLOv8模型在剪刀石头布手势识别在用户友好界面的应用情况。

Figure 8. Loss function curve and metric result graph

8. 损失函数曲线图和指标结果图

Figure 9. Model renderings

9. 模型效果图

5. 总结与展望

本研究成功开发并评估了一套基于YOLOv8算法的剪刀石头布手势识别系统。该系统借助PySide6库构建了直观且便捷的用户界面,极大地提升了用户体验。实验结果表明,YOLOv8在识别精度、速度以及复杂环境下的稳定性方面显著优于YOLO系列的早期版本。这一成果不仅为人机交互技术的进步提供了有力推动,也为手势识别技术在虚拟现实、增强现实、智能家居控制等领域的广泛应用奠定了基础。

参考文献

[1] Terven, J. and Cordova-Esparza, D. (2023) A Comprehensive Review of YOLO: From YOLOv1 to YOLOv8 and YOLO-NAS. arXiv: 2304.00501.
https://arxiv.org/abs/2304.00501
[2] Fang, W., Wang, L. and Ren, P. (2020) Tinier-YOLO: A Real-Time Object Detection Method for Constrained Environments. IEEE Access, 8, 1935-1944.
https://doi.org/10.1109/access.2019.2961959
[3] Li, C., Li, L., Jiang, H., et al. (2022) YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications. arXiv: 2209.02976.
https://arxiv.org/abs/2209.02976
[4] Wang, C., Bochkovskiy, A. and Liao, H.M. (2023) YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 7464-7475.
https://doi.org/10.1109/cvpr52729.2023.00721
[5] Liu, Y., Zheng, L., Lu, Z., Wang, L. and Zhou, L. (2023) Gesture Recognition Model Based on YOLOv8-AW. 2023 9th International Conference on Computer and Communications (ICCC), Chengdu, 8-11 December 2023, 2019-2023.
https://doi.org/10.1109/iccc59590.2023.10507393
[6] Li, H., Chen, Y., Yang, L., Shi, J., Liu, T. and Zhou, Y. (2024) A Gesture Recognition Method Based on Improved YOLOv8 Detection. 2024 China Automation Congress (CAC), Qingdao, 1-3 November 2024, 905-910.
https://doi.org/10.1109/cac63892.2024.10865756
[7] Feng, Z., Huang, J., Zhang, W., Wen, S., Liu, Y. and Huang, T. (2025) YOLOv8-G2F: A Portable Gesture Recognition Optimization Algorithm. Neural Networks, 188, Article ID: 107469.
https://doi.org/10.1016/j.neunet.2025.107469