1. 引言
YOLO算法全称“You Only Look Once”,是一种先进的实时目标检测算法,2016年由华盛顿大学的Joseph Redmon等提出[1],它的核心思想与传统的目标检测方法(如基于区域提议的R-CNN系列)有根本性的不同。传统的目标检测系统将任务重新定义为分类问题:首先通过复杂的方法在图像中生成大量可能的区域提议,然后对这些区域进行分类和微调。这个过程是分步的、缓慢的。YOLO则将其视为一个回归问题。它使用一个单一的神经网络,直接从一个完整的图像上预测边界框(Bounding Boxes)和类别概率。正如其名“你只看一次”,算法只需对图像进行一次前向传播计算,就能得出所有检测结果。该算法作为一种先进的实时目标检测技术,因其速度快、精度高、能够进行端到端优化等优点,已经被广泛应用于众多领域,包括自动驾驶与智能交通、安防与监控、工业制造与质量控制、零售与商业分析、医疗影像分析、农业与无人机应用、机器人技术与人机交互等,YOLO算法的应用几乎涵盖了所有需要“计算机视觉”的领域。其核心优势实时性使其在视频流处理、嵌入式设备和移动端应用中占据了主导地位。随着计算方法的不断更新,在原方法的基础上,2017年Joseph Redmon和Ali Farhadi [2]引入了锚框(Anchor Boxes)、批量归一化(Batch Normalization)等高阶特征,性能大幅提升。2018年Joseph Redmon和Ali Farhadi [3]采用了多尺度预测、更深的骨干网络(Darknet-53),在速度和精度之间取得了更好的平衡。随着YOLO版本的不断迭代(如v5, v7, v8, v9等),其精度和速度还在不断提升,未来必将开拓出更多新的应用场景。
YOLO算法作为一种先进的实时目标检测技术,被广泛运用于计算机视觉领域中。在我国的相关研究中,王宇宁等[4]较早对YOLO算法进行研究,他将YOLO算法用于车辆的实时检测,并与CNN和Faster R-CNN算法进行了对比,得出YOLO算法的检测速度是最快的,查准率接近9成。魏湧明等[5]较早对YOLO v2进行运用,将其应用在无人机航拍图像定位,结果发现其准确率达到8成。郑志强等[6]是较早使用YOLO v3方法的团队,将其应用在识别遥感图像中的飞机,结果显示其在高质量遥感图像中的识别准确率达到99.72%。前人的研究成果为本文的开展提供了很多有益的支撑材料,但是对YOLO算法进行总结性梳理的文献较少,多数文章仅就YOLO算法的某一方面进行着重分析;再次,在YOLO算法的研究领域内,基于文献计量学的综述研究更是鲜见于文献。因此为了对我国YOLO算法的研究情况以及未来发展进行科学认识,本文将采用CiteSpace软件对YOLO算法的相关文献进行系统分析,从而对现有国内的YOLO算法研究现状进行归纳分析,以期科学展示YOLO算法研究领域的态势与未来趋势,为该领域的进一步发展打下基础。
2. 数据样本与研究设计
2.1. 数据样本
本文研究样本来源于中国知网的中文期刊,能够保证研究数据的准确性和有效性,从而得出科学性、可靠的研究结论。以关键词为YOLO,研究年限为2016~2025年进行精确搜索,经过人工筛除,将新闻、报刊等与主题相关度较低的文献进行去除,最终得到与YOLO相关的研究文献共3741篇,本文以此作为样本文献进行CiteSpace分析,检索时间为2025年10月8日。
2.2. 研究设计
YOLO算法的研究是综合多种学科的跨领域研究,所以在对其进行文献归纳和梳理时,应考虑一种可以进行多学科交叉的研究工具。CiteSpace是由陈超美博士团队开发设计的一款针对文献归纳进行计量和科学分析的可视化软件[7],能够对相关研究文献的主题、关键词、作者以及研究机构等数据进行计量分析和处理,进行可视化的呈现,进而显示出数据之间的交叉、网络和突变等关系。可视化的知识图谱,可以清晰直观展示出该领域的研究成果,分析出当前研究的发展路径和未来趋势,展望研究领域的未来热点和前沿方向。因此,首先通过中国知网检索选择出与公共利益研究相关的数据文献,然后将其以RefWorks的格式保存,同时在知网上对年度发表的文献量进行初步统计;再次,运用CiteSpace软件对YOLO算法研究领域内的作者与研究机构的合作网络进行归纳梳理,分析出当前YOLO算法研究的基本情形;最后通过突变词检验等方法,展望YOLO算法领域内的未来动向和研究趋势,辨析YOLO算法的未来研究热点。
3. 计算机视觉领域YOLO算法研究的知识图谱归纳梳理
3.1. 文献基本现状分析
基于中国知网得到的上述数据样本,针对2016~2025年度国内“YOLO”研究领域的发文量进行年度发布统计分析,如图1所示,YOLO算法自2016年开始被提出以后,发文量呈现逐年上升的趋势,2016年和2017年作为开篇之年,分别只有2篇和3篇,在2018年猛涨到60篇,表明自2018年以后,YOLO算法的应用被逐步熟知,2019年达到185篇,是上年的3倍之多,之后均保持平稳增长的态势,2024年达到712篇,较上一年增长了29.69%,预计2025年全年将达到850篇左右。综上可以得出,国内对于YOLO算法的应用研究热情高涨,其在计算机视觉领域的应用范围也更加宽广。
图2给出了YOLO算法发文机构的数量图,可以看出安徽理工大学(46篇)和中国科学院大学(43篇)发文超过了40篇以上,是其中的佼佼者,接下来是昆明理工大学(35篇)、中国农业大学(34篇)、南京航空航天大学(31篇)、福州大学(31篇)和新疆大学(31篇)的发文均超过了30篇,是中坚力量。在作者层面上,浙江师范大学的徐慧英(18篇)、浙江师范大学的朱信忠(17篇)、三峡大学的张上(14篇)、浙江师范大学的黄晓(13篇)和西北农林科技大学的宋怀波(10篇)在YOLO算法方面的论文发表数超过10篇,是该领域的佼佼者。
Figure 1. Annual number of publications in YOLO algorithm research within China’s computer vision field (2016~2025)
图1. 中国计算机视觉领域YOLO算法研究论文年度发表数量(2016~2025)
Figure 2. Major publication institutions in YOLO algorithm research within China’s computer vision field (2016~2025)
图2. 中国计算机视觉领域YOLO算法研究论文的主要发文机构(2016~2025)
上述内容是根据中国知网搜索后直接得到的信息,上述信息从表面上可以对YOLO算法的发文机构和作者进行初步梳理,下面利用CiteSpace软件对上述内容继续进行深化。
3.2. 计算机视觉领域YOLO算法研究的高被引机构分析
CiteSpace主要根据机构的发文量和其发表作品的被引频次来判断其在该领域的影响力和活跃度,一个机构如果发表了大量高质量(被广泛引用)的论文,就会被系统识别为核心机构。图3给出了CiteSpace计算出的2016~2025年年度“YOLO”算法高被引合作机构,可以看出形成了分别以中国农业大学、中国科学院大学、华南农业大学、西北农林科技大学和南京信息工程大学为被引核心的五大研究机构群,这些机构之间保持着密切联系,形成YOLO算法的研究团体。值得注意的是安徽理工大学虽然发文数量最多,但是发表论文的被引频次并不高,导致没有出现在图3中。
图4给出了2016-2025年之间YOLO算法的高被引作者图,字体越大表示发文数量越多,节点之间的连续表示了作者之间存在着合作关系。从图4可以看出形成了以浙江师范大学朱信忠、西北农林科技大学宋怀波、三峡大学张上、华北理工大学张灿和常熟市中医院王甘红为核心的五大作者群。这五大作者群不仅发文量大,而且彼此之间保持密切联系,在YOLO算法的运用上互相借鉴,彼此帮助,形成了YOLO算法的研究团队,其中浙江师范大学的朱信忠团队主要致力于小目标检测的YOLO算法的改进理论研究;西北农林科技大学宋怀波主要致力于YOLO算法在农业问题上的运用和改进;三峡大学的张上主要致力于YOLO v7算法在船舶目标识别上的研究;华北理工大学的张灿主要致力于YOLO算法在军事目标识别上的研究;常熟市中医院的王甘红主要致力于YOLO v11算法在医学病理上的识别检验。
Figure 3. Highly cited institutions in YOLO algorithm research within China’s computer vision field (2016~2025)
图3. 中国计算机视觉领域YOLO算法研究的高被引机构(2016~2025)
Figure 4. Highly cited authors in YOLO algorithm research within China’s computer vision field (2016~2025)
图4. 中国计算机视觉领域YOLO算法研究的高被引作者(2016~2025)
3.3. 计算机视觉领域YOLO算法的高频主题词
图5为我国YOLO算法高频主题词图像,图中节点越大,表示词频越高。表1将这些关键词进行了排列,包括首现年份,出现频次以及中心度,可以发现我国YOLO算法应用主要分布在目标检测和深度学习上,这与YOLO算法的核心功能一致,在使用YOLO算法的时候,常常将其与深度学习等算法配合使用。除去上述两个关键词,其余关键词还包括轻量化、缺陷检测、机器视觉、特征融合和损失函数等。
Figure 5. High-frequency topic words in YOLO algorithm research within China’s computer vision field (2016~2025)
图5. 中国计算机视觉领域YOLO算法研究的高频主题词(2016~2025)
Table 1. High-frequency topic words in YOLO algorithm research within China’s computer vision field
表1. 中国计算机视觉领域YOLO算法研究的高频主题词
编号 |
关键词 |
词频 |
中心度 |
首现年份 |
编号 |
关键词 |
词频 |
中心度 |
首现年份 |
1 |
目标检测 |
1008 |
0.41 |
2017 |
18 |
YOLO v4 |
48 |
0.02 |
2021 |
2 |
深度学习 |
899 |
0.37 |
2017 |
19 |
数据增强 |
41 |
0.03 |
2018 |
3 |
轻量化 |
191 |
0.15 |
2021 |
20 |
车辆检测 |
41 |
0.07 |
2016 |
4 |
缺陷检测 |
138 |
0.06 |
2018 |
21 |
遥感图像 |
40 |
0.04 |
2019 |
5 |
机器视觉 |
117 |
0.06 |
2016 |
22 |
YOLO v5s |
38 |
0.05 |
2022 |
6 |
特征融合 |
116 |
0.09 |
2019 |
23 |
YOLO v7 |
38 |
0.04 |
2023 |
7 |
损失函数 |
113 |
0.13 |
2019 |
24 |
小目标 |
38 |
0.06 |
2019 |
8 |
YOLO v3 |
105 |
0.05 |
2019 |
25 |
YOLO v8 |
37 |
0.07 |
2024 |
9 |
YOLO v5 |
98 |
0.04 |
2021 |
26 |
目标跟踪 |
34 |
0.03 |
2019 |
10 |
图像处理 |
87 |
0.05 |
2017 |
27 |
实时检测 |
31 |
0.04 |
2018 |
11 |
目标识别 |
81 |
0.05 |
2018 |
28 |
迁移学习 |
31 |
0.04 |
2019 |
12 |
无人机 |
75 |
0.11 |
2019 |
29 |
多尺度 |
29 |
0.03 |
2018 |
13 |
行人检测 |
71 |
0.08 |
2018 |
30 |
红外图像 |
29 |
0.03 |
2018 |
14 |
图像识别 |
70 |
0.11 |
2019 |
31 |
图像增强 |
27 |
0.01 |
2019 |
15 |
神经网络 |
63 |
0.09 |
2018 |
32 |
行为识别 |
26 |
0.01 |
2019 |
16 |
特征提取 |
57 |
0.09 |
2018 |
33 |
人脸检测 |
24 |
0.02 |
2018 |
17 |
人工智能 |
54 |
0.04 |
2019 |
34 |
机器学习 |
22 |
0.02 |
2018 |
3.4. 计算机视觉领域YOLO算法的关键词聚类
图6汇报了YOLO算法的关键词聚类图谱,选取LLR算法,将门限值设置为10,得到图6所示聚类图谱,从图中可以看出,本文的样本数据聚类后得到的Q值为0.8627,超过界限值0.3,表示划分的聚类结构十分合理,Silhouette的值为0.9559,超过界限值0.5,这就表明聚类的结果是可信的[8]。其中排名前八的有#0轻量化,#1人脸检测,#2缺陷检测,#3深度学习,#4神经网络,#5 YOLO v5,#6损失函数,#7图像识别。通过图6也可以看出,YOLO算法研究确实是跨学科的多方面多类型的研究,各种关键词之间相互联系,不分彼此,形成一个密不可分的研究整体。关键词聚类的详细信息如表2所示。
下面对表2进行分析,#0轻量化主题:YOLO算法的轻量化研究旨在维持较高检测精度的前提下,显著压缩模型体积与计算复杂度,以适应移动端及边缘设备的部署需求。当前研究主要围绕三个方面展开:其一是设计更高效的轻量级主干网络,广泛采用深度可分离卷积与通道剪枝等技术来减少冗余参数。其二是进行模型压缩,通过结构化剪枝与量化感知训练,在硬件层面实现加速与存储优化。其三则是引
Figure 6. Keyword clustering in YOLO algorithm research within China’s computer vision field (2016~2025)
图6. 中国计算机视觉领域YOLO算法研究的关键词聚类(2016~2025)
Table 2. Detailed information on keyword clustering in YOLO algorithm research within China’s computer vision field
表2. 中国计算机视觉领域YOLO算法研究的关键词聚类详细信息
序号 |
关键词聚类名称 |
聚类大小 |
包含关键词(前五位) |
0 |
轻量化 |
19 |
轻量化;深度学习;重参数化;deep learning;硬件加速 |
1 |
人脸检测 |
19 |
人脸检测;图像增强;多尺度;YOLO v7;特征增强 |
2 |
缺陷检测 |
18 |
缺陷检测;YOLO v3;输电线路;目标检测;YOLO v4 |
3 |
深度学习 |
17 |
深度学习;目标检测;图像处理;特征融合;YOLO |
4 |
神经网络 |
16 |
神经网络;实时检测;树莓派;多目标;手势识别 |
5 |
YOLO v5 |
15 |
YOLO v5;数据增强;遥感图像;番茄;船舶检测 |
6 |
损失函数 |
14 |
损失函数;特征融合;YOLO v8;深度学习;红外图像 |
7 |
图像识别 |
14 |
图像识别;人工智能;迁移学习;视觉检测;小肠病变 |
入注意力机制与神经架构搜索,自动化地寻找精度与效率的最佳平衡。未来方向将侧重于硬件协同设计与自适应轻量化,以进一步提升其在资源受限环境中的实用性与鲁棒性[9]。
#1人脸检测主题:YOLO算法在人脸检测领域的应用研究主要聚焦于解决高密度场景下的小尺度人脸检测难题。针对人脸目标的特殊性,研究者通过在YOLO架构中引入注意力机制与改进的多尺度特征融合策略,增强模型对微小及遮挡人脸的敏感度与定位精度。同时,为适应移动端部署需求,轻量化设计如深度可分离卷积与模型剪枝被广泛采用以提升检测效率。当前研究进一步探索了在无约束环境下的跨姿态、跨光照鲁棒性增强方法。未来方向将侧重于弱监督学习在标注数据稀缺场景的应用,以及开发更具泛化能力的实时人脸检测系统[10]。
#2缺陷检测主题:YOLO算法在工业缺陷检测领域已成为一项关键技术,其核心优势在于能够实现端到端的实时定位与识别。针对工业场景中缺陷形态多变、背景复杂及小目标检测难度大等挑战,当前研究主要围绕网络结构优化展开,通过引入注意力机制、设计更高效的特征融合金字塔以及改进锚框机制来提升对微小缺陷的敏感度与定位精度。此外,为了解决缺陷样本稀缺问题,数据增强技术与自监督预训练策略被广泛采用。未来的研究方向将聚焦于开发轻量化模型以适应边缘设备部署,并探索跨域自适应能力以提升模型在多变工业环境中的泛化性能[11]。
#3深度学习主题:YOLO算法是深度学习领域的一个重要成果。它凭借其巧妙的设计和深度学习强大的能力,成为了目标检测领域的一个里程碑式的算法。YOLO算法的整体架构建立在卷积神经网络基础之上,其主干网络通过堆叠的卷积层与池化层实现多层次特征提取,从而捕获从低级边缘到高级语义的视觉模式。该网络利用非线性激活函数引入模型的表达能力,并采用锚点框机制将目标检测问题建模为边界框坐标与类别概率的回归任务,这一核心设计使得算法能够以端到端的方式直接从像素输入映射至检测结果[12]。
为应对多尺度目标检测的挑战,YOLO引入了特征金字塔等结构作为颈部网络,通过融合深层语义特征与浅层细节特征来增强模型对小尺寸物体的敏感度。在预测层面,算法采用一种复合损失函数进行优化,该函数综合了基于交并比的定位损失、衡量目标存在的置信度损失以及多类别分类损失,共同指导模型参数的更新方向。在训练过程中,YOLO广泛运用多种深度学习优化策略,包括动态学习率调度与梯度下降算法以稳定收敛,同时结合大规模数据增强技术如随机拼接与几何变换来提升模型泛化能力。此外,算法还集成注意力机制与正则化方法,进一步优化特征表示与抑制过拟合,最终形成一个完整且高效的检测系统[13]。
#4神经网络主题:YOLO算法在神经网络架构上的演进核心在于构建更高效强大的特征提取与融合体系。其研究主线始于对主干网络的持续优化,从最初的DarkNet到引入跨阶段局部网络的CSPDarknet,旨在解决梯度冗余并增强特征复用能力。另一关键进展体现在颈部网络的设计,特征金字塔与路径聚合网络的结合成为标准配置,通过构建多层次的特征融合路径,显著提升了模型对于不同尺度目标的感知能力。近期研究则聚焦于引入通道与空间注意力机制,使模型能自适应地聚焦于关键特征区域。此外,神经架构搜索技术与Transformer模块的探索,正推动网络结构向更高性能与更好泛化性演进[14]。
#5 YOLO v5主题:YOLO v5由Ultralytics团队于2020年提出,是YOLO系列中首个完全采用PyTorch框架实现的重要版本。该算法在承袭YOLO v4核心思想的同时,在工程实现与架构设计上进行了显著创新。其采用基于CSPDarknet的主干网络,并引入自适应锚框计算与焦点损失函数优化,同时创新性地整合了数据加载中的马赛克增强技术。这些改进使其在保持检测精度的同时,大幅提升了训练效率与部署便利性。在应用层面[15],YOLO v5凭借其卓越的实时性能与灵活的模型尺寸配置,已被广泛应用于工业质检、自动驾驶感知、医疗影像分析及安防监控等多个机器视觉领域。其提供的完整工程化实现,包括模型导出与部署工具链,极大促进了从研究到产业落地的转化过程,成为当前工业界应用最为广泛的轻量级检测模型之一。
#6损失函数主题:YOLO算法在损失函数方面的研究致力于更精确地引导模型优化边界框回归与分类任务。早期研究采用均方误差直接优化框的坐标,但其与交并比度量存在不一致性。为此,研究重心转向基于交并比的系列损失函数,从IoU Loss发展到考虑中心点距离与宽高比差异的CIoU Loss,有效提升了边框的定位精度。对于分类任务,损失函数从Softmax交叉熵过渡至二元交叉熵,以更好地支持多标签识别。当前前沿探索集中于引入动态标签分配策略,如Task-Aligned Assigner,它将分类置信度与定位质量联合考虑,在损失计算阶段进行正负样本的软分配,从而更精准地平衡两项任务的学习过程[16]。
#7图像识别主题:YOLO算法在图像识别领域的研究核心在于实现高效实时的多目标检测与识别。针对复杂场景中存在的尺度多变、目标遮挡及背景干扰等挑战,当前研究主要聚焦于网络架构的优化。通过引入注意力机制与设计更高效的多尺度特征融合模块,增强模型对关键特征的提取与判别能力。同时,为了提升对密集小目标和重叠目标的区分度,研究者们在损失函数设计与标签分配策略上进行了持续改进。未来的探索方向将侧重于与视觉Transformer等新兴架构的融合,以进一步增强其全局上下文建模能力与跨场景泛化性能[17]。
3.5. 计算机视觉领域YOLO算法的未来研究热点
突变词是以文献中的关键词为基础,在特定时间内发表的论文中的专业用语的显现,也能表现出该时间内的研究聚焦点。通过对突变词的年代分布和突变强度的分析,能够辨识出每个词汇在其特定时期内的YOLO算法研究领域内的热点与演进形式,从而更好地预测未来的研究前沿。本部分采用CiteSpace中Burstness功能,得到了2016~2025年间YOLO算法研究领域内出现的24个突变词,汇报在表3中。从表3中可以得到,突变度按照从大到小排序的前5个词汇为YOLO v3、YOLO v4、YOLO v5、YOLO v5s和残差网络,表明上述五个方面的内容在其时间段内成为了一个突然兴起的研究热点或前沿话题。按照持续时间的长度从大到小排序的前5个词汇为人脸检测、YOLO v3、车辆检测、机器视觉和数据增强。突变度高、持续时间也长的突变词为YOLO v3,这表明YOLO v3是一个在YOLO算法领域内具有持久生命力的核心技术,它在相当长的一段时间内持续引领着YOLO算法领域的发展。YOLO v5s和激活函数是仅有的跨越到2025年的两个突变词,说明YOLO v5s和激活函数会是未来YOLO算法领域的研究热点,人脸检测、YOLO v3、数据增强、图像识别、通道剪枝、YOLO v4和YOLO v5是跨越到2024年的7个突变词,未来有可能会是YOLO算法的研究热点。
Table 3. 24 Burst words in YOLO algorithm research within China’s Computer Vision Field
表3. 中国计算机视觉领域YOLO算法研究的24个突变词息
序号 |
突变词 |
突变度 |
时间 |
序号 |
突变词 |
突变度 |
时间 |
1 |
YOLO v3 |
23.41 |
2019~2024 |
13 |
数据增强 |
3.29 |
2019~2024 |
2 |
YOLO v4 |
11.38 |
2021~2024 |
14 |
图像处理 |
3.15 |
2017~2021 |
3 |
YOLO v5 |
8.09 |
2021~2024 |
15 |
图像分类 |
2.65 |
2018~2021 |
4 |
YOLO v5s |
7.43 |
2022~2025 |
16 |
图像识别 |
2.46 |
2019~2024 |
5 |
残差网络 |
5.84 |
2019~2021 |
17 |
激活函数 |
2.25 |
2023~2025 |
6 |
目标识别 |
5.15 |
2018~2021 |
18 |
快速检测 |
2.18 |
2019~2021 |
7 |
YOLO v2 |
4.87 |
2017~2021 |
19 |
激光雷达 |
1.99 |
2020~2021 |
8 |
车辆检测 |
4.76 |
2016~2021 |
20 |
通道剪枝 |
1.91 |
2020~2024 |
9 |
实时检测 |
4.65 |
2018~2021 |
21 |
双目视觉 |
1.87 |
2018~2021 |
10 |
机器视觉 |
4.28 |
2016~2021 |
22 |
剪枝 |
1.76 |
2019~2021 |
11 |
聚类 |
3.63 |
2019~2021 |
23 |
网络结构 |
1.76 |
2019~2021 |
12 |
人脸检测 |
3.42 |
2018~2024 |
24 |
聚类算法 |
1.7 |
2020~2021 |
4. 研究结论和展望
本文采用CiteSpace软件对中国知网2016~2025年间YOLO算法在计算机视觉领域的发表文献进行数据计量分析,分别通过文献统计分析,作者、机构的合作网络研究,关键词的聚类分析以及突变词分析,绘制了YOLO算法研究领域的知识图谱,系统直观地表现了我国计算机视觉领域YOLO算法的研究现状、热点分析以及前沿展望,预测了该领域内的前沿发展趋势,得到如下结论:
(1) YOLO算法自2016年开始被提出以后,发文量呈现逐年上升的趋势,2016年和2017年作为开篇之年,分别只有2篇和3篇,在2018年猛涨到60篇,表明自2018年以后,YOLO算法的应用被逐步熟知,预计2025年全年将达到850篇左右。从研究阶段来看,我国YOLO算法在计算机视觉领域中的应用在2016年引入之后,呈现三个阶段,2016~2019年为初步发展期,2019~2021年为稳步发展期,2022~2025年为快速发展期。
安徽理工大学(46篇)和中国科学院大学(43篇)关于YOLO算法发文超过了40篇以上,是其中的佼佼者,接下来是昆明理工大学(35篇)、中国农业大学(34篇)、南京航空航天大学(31篇)、福州大学(31篇)和新疆大学(31篇)。在作者层面上,浙江师范大学的徐慧英(18篇)、浙江师范大学的朱信忠(17篇)、三峡大学的张上(14篇)、浙江师范大学的黄晓(13篇)和西北农林科技大学的宋怀波(10篇)在YOLO算法方面的论文发表数超过10篇,是该领域的佼佼者。
(2) 通过使用CiteSpace的分析可知,在YOLO算法的研究机构中,形成了以中国农业大学、中国科学院大学、华南农业大学、西北农林科技大学和南京信息工程大学为被引核心的五大研究机构群。在研究人员中,形成了以浙江师范大学朱信忠、西北农林科技大学宋怀波、三峡大学张上、华北理工大学张灿和常熟市中医院王甘红为核心的五大作者群。从发文作者来看,我国作者的合作网络并不广泛,联系强度也较弱,仅有的几个发文作者联系也只有三四个作者,多数作者的研究基本处于独立研究的阶段。从发文机构来说,YOLO算法研究高等院校是其中主力,虽然安徽理工大学发文量居首,但是在研究机构的聚类分析中,安徽理工大学并没有形成聚类的中心点,说明安徽理工大学关于YOLO算法的研究并没有形成合作网络,而且从发文机构的地理位置来看,东部和南部地区居多。
(3) 目标检测、深度学习、轻量化、缺陷检测、机器视觉、特征融合和损失函数是YOLO算法中的高频关键词。通过使用CiteSpace的关键词聚类分析可知,排名前八的聚类关键词分别为#0轻量化,#1人脸检测,#2缺陷检测,#3深度学习,#4神经网络,#5 YOLO v5,#6损失函数,#7图像识别。从关键词共现和聚类分析的结果来看,YOLO算法在计算机视觉领域的应用集中在目标检测以及轻量化的目标分析层面,说明YOLO算法的研究在日趋精细化,结合深度学习和神经网络算法技术的日益更新壮大,YOLO算法的应用将越来越广泛。
(4) 通过突变词的分析可知,YOLO v3是一个在YOLO算法领域内具有持久生命力的核心技术,它在相当长的一段时间内持续引领着YOLO算法领域的发展。YOLO v5s和激活函数是仅有的跨越到2025年的两个突变词,说明YOLO v5s和激活函数会是未来YOLO算法领域的研究热点,人脸检测、YOLO v3、数据增强、图像识别、通道剪枝、YOLO v4和YOLO v5是跨越到2024年的7个突变词,未来有可能会是YOLO算法的研究热点。从突变词来看,未来的研究方向仍旧是专注于算法的改进和实现,而且越来越多的在人脸识别的领域出现。
结合上述分析和发现,未来我国关于YOLO算法在计算机视觉领域的研究应该关注在以下几个方面:
1) 深耕基础领域的研究
YOLO算法的提出和应用为计算机视觉领域的研究提供了坚强的理论支持,我国学者关于YOLO算法的研究也有了一定的积累,但是总体的研究还不够深入和系统,基础研究的小,应用研究的多,对于算法的研究更多的是基于外文文献的补充和使用,并没有提出关于YOLO算法的根本性和基础性的改进。因此未来关于YOLO算法的研究应该关注基础性和理论性的研究和扩展,首先政府通过税收优惠、财政补助、制度设计等手段,引导企业加大基础研究投入,对于高校层面,政府设立专门的基础研究基金,鼓励高校科研人员对于基础研究的投入。其次,营造鼓励基础研究的社会氛围,提升公众认知,倡导长期主义科研精神,培育长期的文化理念。
2) 深化合作共赢的研究生态
从上文得出的结论可知,我国关于YOLO算法的研究呈现研究机构分散和研究人员分散的现象,可能会出现资源重复投入,基准不统一,难以形成合力攻克重大难题的局面。为了改变这一现象,促进YOLO算法的合作共赢,首先,在政府与资助层面发挥导向作用,在资助机构设置项目资助条件是,可以优先资助那些由多个单位联合申请的课题组,将代码和数据开放共享作为结项的必要条件。其次,提供共同交流的平台,由顶尖研究机构或者高校牵头成立开源的非盈利研究社区,为YOLO算法的研究者们提供高质量的讨论环境,促进学者、工程师和学生之间的交流,汇集整理优秀的研究论文和实践案例,组织高水平的专题学术活动,在中国计算机大会等顶级国内学会会议上设置YOLO算法的专题研讨会,邀请国内外研究者分享研究经验,为分散的团队提供交流的固定舞台。然后,政府、高校与企业要加强合作,高校要与头部企业建立联合实验室,将学术界的想法与工业界的真实数据,真实需求进行结合,反过来企业也要将现实困境中的难题反馈给高校的研究机构、博士生和硕士生,打破不同研究机构之间的合作壁垒,促进技术的传播和融合,深度促进产学研融合。
3) 创建“理论研究 + 实际应用”的研究格局
在注重基础理论研究的同时,也要注重YOLO算法核心技术的创新与深化,包括神经网络架构的再设计,损失函数与标签分配的优化,新的检测范式探索等,紧跟甚至引领全球基础研究潮流,特别是在端到端架构、动态优化等方向,这是YOLO算法的核心研究内容。在实际应用的层面,要深化面向实际应用的场景实现,结合“中国智造”,实现工程化与产业落地,紧密结合我国丰富的实际应用场景,包括自动驾驶、遥感探测、工业质检等,解决我国在YOLO算法落地过程中的痛点问题。此外,也要注重对于YOLO算法的机器伦理的管控和监督,以人脸识别为例,基于YOLO算法的一系列计算机视觉领域的深度学习算法将人脸这种不可更改的信息进行了识别,可能产生侵犯个人隐私的问题,因此有必要从法律法规的角度出台专项法律对此种行为进行规范化,使公民个人能够具有知情权和选择权,在享受YOLO算法在计算机视觉领域带来便利之外,也要守法合规。
基金项目
2025年度河北省金融科技应用重点实验室课题:机器学习算法下的量化投资系统性研究(项目编号:2025009)。