1. 引言
计算机视觉作为人工智能的核心领域之一,旨在使计算机能够从数字图像或视频中提取、处理和理解视觉信息,进而模拟人类视觉的感知与识别能力。其目标是使计算机能够自动地识别和分析图像中的对象、场景、动作等内容,并做出相应的决策或响应。
计算机视觉领域起源于1950年代,图灵提出计算机模拟人类视觉认知的问题。1970年代,计算机视觉正式提出,学者们关注三维结构恢复与场景理解,并发展了基于二维拓扑结构推断三维形态的方法。1980年代,复杂数学技术与图像金字塔广泛应用于图像融合与匹配任务。立体视觉技术通过阴影恢复形状、光度立体和纹理恢复形状等技术,进一步发展了基于马尔可夫随机场(MRF)模型的图像分析方法。1990年代,投影不变量与因式分解技术在物体识别中得到应用,光流法与密集匹配算法不断优化,图像分割技术也获得显著进展。与此同时,统计学习方法应用于人脸识别与曲线跟踪,并推动计算机视觉与图形学的交互,尤其在图像建模与渲染领域。2000年代,数据驱动与学习方法成为核心,高动态范围(HDR)图像处理、图像拼接与修复等技术取得重要进展。2010年代,标注数据集(如ImageNet、Microsoft COCO、LVIS)和自监督学习促进了算法突破。图形处理单元(GPU)技术进步使深度卷积网络(如AlexNet)成为主流并广泛应用于识别、分割、去噪等任务。硬件进步(如Kinect)促进了3D建模与跟踪,低光降噪和光场成像逐渐普及,同步定位与地图构建(SLAM)以及视觉惯性里程计(VIO)提高了3D地图精度。截至目前,计算机视觉领域在性能、可靠性以及应用场景多样化方面已取得显著进展,但同时也面临一系列新挑战。
近年来,ChatGPT和Deepseek等深度学习语言模型在学术界和社会层面备受关注,人工智能,特别是计算机视觉领域,逐渐成为研究热点。本文基于CiteSpace6.4.R1软件,对1992年至2024年间我国计算机视觉领域的文献进行系统统计分析,涵盖发表时间、期刊、作者与机构等维度。通过分析,旨在揭示我国计算机视觉研究领域的主要热点与发展趋势,为该领域学者提供有益的成果总结,并对未来的研究方向进行展望。
2. 数据来源与研究工具
2.1. 数据来源
本文研究所用数据基于中国知网(CNKI)数据库,研究范围限定为学术期刊中的北大核心期刊、CSSCI期刊和CSCD期刊,这三大期刊来源被广泛认可为中文核心期刊的代表性期刊。为更精确限定检索范围于“计算机视觉”领域,通过中国知网数据库中的高级检索功能,设置“计算机视觉”作为主题词进行精确检索,并将检索时间范围设定为1992年1月1日至2024年12月31日。依据上述检索条件,共筛选出9753篇相关文献。经过人工筛选,剔除教学改革类文献、无署名的通讯稿、会议通知与报道、杂志卷首语、书评及书籍介绍等非学术类文献,最终选定有效文献9460篇。
2.2. 研究工具
本文所使用的CiteSpace 6.4.R1软件由美国德雷塞尔大学陈超美博士研发,主要通过文献数据处理和可视化功能,识别学术领域发展趋势、研究热点及其演变过程,广泛应用于前沿动态分析和知识图谱构建。
本文所采用的研究方法包括社会网络分析、关键词聚类、关键词时区图以及突现词分析等。其中,社会网络分析通过构建反映学术互动与领域内关系的知识图谱,从而揭示学术交流与合作的网络结构[1],基于文献计量学分析,结合关键词聚类、关键词时区图及突现词分析等方法,能够在特定条件下对关键词进行系统的分类与定量分析。通过研究关键词的出现频率、首次出现时间、相互关联性以及突现趋势等特征,进而揭示学术领域的研究现状、发展脉络、动态变化及未来方向。
3. 研究机构与分析
3.1. 文献总体分析
在特定时间区间内,某一研究主题的期刊文献发表量通常被视为该领域研究热度的直接量化指标。本文对1992年至2024年间32年期刊文献的发文量进行系统的统计分析,相关结果如图1所示。
1992年以来国内有关“计算机视觉”主题相关期刊文献的发文量经历三个主要发展阶段:斜坡式缓慢增长–阶梯式稳步上升–直线式快速增长。在1992~1999年的缓慢增长期,期刊文献发表量总计207篇,大约只占总体样本量的2%,这一阶段属于计算机视觉应用领域初步探索阶段,代表性研究为应义斌等(1999)关于机器视觉技术在黄花梨表面缺陷检测中的应用。该阶段文献主要聚焦于机器视觉对农副产品中简单三维立体物体的图像识别与边缘检测,以及通过对国外先进农业生产自动化的应用研究,提出发展我国未来农产品自动化的必要性、可行性与方向性[2]。也为下一阶段计算机视觉应用的多元化提供实践基础。
在2000~2014年的稳步上升期,国内“计算机视觉”主题相关期刊文献的发文量从2000年的78篇阶梯式稳步上升至2014年的376篇,文献发表总量为3297篇,占样本总量35%左右。这一阶段随着计算机视觉应用的多元化,学者们对计算机视觉理论的研究也愈加细化和丰富,应用研究与理论研究之间互为支撑、相互促进。以邱茂林等(2000)对各种摄像机定标方法的比较分析研究为“嚆矢”,摄像机标定成为实现计算机视觉中三维欧氏空间重建的关键一环。以史文中等(2001)、梁路宏等(2002)、李炜等(2003)、隋婧等(2004)、胡士强等(2005)、侯志强等(2006)、贾慧星等(2007)、王崴等(2008)、张鸿燕等(2009)、徐杰(2010)、韩延祥等(2011)、顾宝兴等(2012)、苏衡等(2013)、郑胤等(2014)等为代表的学者,对计算机视觉领域内的遥感影像、人脸检测、表面缺陷检测、双目立体视觉、粒子滤波算法、视觉跟踪、行人检测、Harris角点提取算法、Levenberg-Marquardt算法、摄像机标定Tsai两步法、单目视觉、机器人智能采摘、超分辨率图像重建、深度学习等问题进行了详细的分析,对计算机视觉在农副产品表面缺陷检测的研究不断深入拓展,并将计算机视觉从农学辐射向人体、交通等领域。与此同时,随着计算机视觉应用反馈机制的作用以及计算机性能持续提升,该领域内的算法、模型等理论研究亦逐步成为学术界研究热点。
在2015~2024的快速增长期,国内计算机视觉领域相关研究进入一个新的高峰时期,2022年期刊文献发文量高达796篇,达到截至2024年12月31日的历史峰值,文献发表总量为5921篇,占样本总量63%左右。相比于上一阶段主要开拓计算机视觉领域的广度,这一阶段学者们更聚焦于算法和模型的优化,挖掘二者的深度。以吴迪等(2015)、卢宏涛等(2016)、张顺等(2019)、徐冰冰等(2020)、汤勃等(2017)、张荣等(2018)、许德刚等(2021)、李柯泉等(2022)、杨锋等(2023)、祁宣豪等(2024)为代表的学者,分别对计算机视觉领域内的图像去雾、深度卷积神经网络、表面缺陷检测、深度学习、目标检测、注意力机制等问题进行了更为深入的研究与总结。
Figure 1. Distribution of paper publications in the field of computer vision research in China (1992~2024)
图1. 中国计算机视觉研究领域论文的发表时间分布(1992~2024)
3.2. 刊载期刊分布
1992~2024年间中国计算机视觉研究领域论文刊载量最多期刊为《激光与光电子学进展》,共刊载560篇论文,该刊是一本综合性较强的工业期刊,致力于发表工业领域的高质量原创研究成果、综述及快报,主要刊载综述、激光器与激光光学、光纤光学与光通信、光学设计与制造、材料、图像处理、成像系统、光学器件、遥感与传感器、大气光学与海洋光学、衍射与光栅、原子与分子物理学、探测器、薄膜、超快光学等栏目。其次是《光学学报》,共刊载453篇论文,该刊是反映中国光学科技的新概念、新成果、新进展的学术类期刊,包括综述、大气光学与海洋光学、光纤光学与光通信、几何光学、全息、图像处理、成像系统、仪器、测量与计量、机器视觉、光学设计与制造、光学器件、物理光学等栏目。论文刊载量位列第三位的期刊是《农业工程学报》,共刊载415篇论文,该刊是一本综合性较强的农业期刊,致力于发表农业领域的高质量原创研究成果、综述及快报刊,主要刊载农业装备工程与机械化、农业水土工程、农业信息与电气技术、农业生物环境与能源工程、土地保障与生态安全、农产品加工工程、专题论坛——农业工程学科发展研究等栏目。论文刊载量居前十位的期刊还有《农机化研究》《农业机械学报》《计算机工程与应用》《机床与液压》《组合机床与自动化加工技术》《机械设计与制造》《中国图象图形学报》,这些期刊的论文刊载量、主要栏目如表1所示。从刊载期刊分布角度分析,论文刊载量排在前列的期刊为光学与农学的科技应用类期刊。表明在此段时间范围内,相比于理论和算法优化为核心的基础研究,中国计算机视觉领域研究重点更聚焦于农业与光学领域的技术应用。
Table 1. Distribution of journals for papers in the field of computer vision research in China (1992~2024)
表1. 中国计算机视觉研究领域论文的刊载期刊分布(1992~2024)
期刊名称 |
载文量 |
主要栏目 |
激光与光电子学
进展 |
560 |
综述、激光器与激光光学、光纤光学与光通信、光学设计与制造、材料、图像处理、成像系统、光学器件、遥感与传感器、大气光学与海洋光学、衍射与光栅、原子与分子物理学、探测器、薄膜、超快光学 |
光学学报 |
453 |
综述、大气光学与海洋光学、光纤光学与光通信、几何光学、全息、图像处理、成像系统、仪器、测量与计量、机器视觉、光学设计与制造、光学器件、物理光学 |
农业工程学报 |
415 |
农业装备工程与机械化、农业水土工程、农业信息与电气技术、农业生物环境与能源工程、土地保障与生态安全、农产品加工工程、专题论坛——农业工程学科发展研究 |
农机化研究 |
358 |
农业发展新视点、理论研究与探讨、设计制造、试验研究、新技术应用、环境与能源动力工程 |
农业机械学报 |
291 |
特约专稿、农业装备与机械化工程、农业信息化工程、农业水土工程、农业生物环境与能源工程、农产品加工工程、车辆与动力工程、机械设计制造及其自动化 |
计算机工程与应用 |
242 |
博士论坛、网络、通信与安全、数据库、信号与信息处理、工程与应用 |
机床与液压 |
151 |
综述与分析、制造技术与装备、液压气动与专机、自动控制与检测、计算机应用与仿真、故障诊断与可靠性、技术改造与维修、经验交流、短讯与动态、产品与市场、知识讲座 |
组合机床与自动化
加工技术 |
142 |
设计与研究、控制与检测、工艺与装备、先进管理技术 |
机械设计与制造 |
132 |
计算机应用、设计与计算、数控与自动化、先进制造、信息技术、模具 |
中国图象图形学报 |
128 |
综述、图像处理和编码、图像分析和识别、图像理解和计算机视觉、医学图像处理 |
3.3. 高产机构分布
本研究旨在探究1992年至2024年期间,中国计算机视觉研究领域内各研究机构论文产出情况。通过对计算机视觉领域相关文献系统性分析,统计并列出在此期间发文量排名前20位的主要一级研究机构,并根据各机构发文量进行排序,具体结果如表2所示。
从表中可以看出,发文量最多的科研机构是中国农业大学(274篇),其次是天津大学(199篇)和浙江大学(179篇),其余发文量较多的科研机构还有上海交通大学(163篇)、江苏大学(161篇)、清华大学(142篇)、南京航空航天大学(142篇)、华南理工大学(139篇)、华中科技大学(139篇)、江南大学(131篇)等。其中排名前十的机构发文总量为1669篇,约占所有机构发文量的17.64%。排名前二十的机构发文总量为2748篇,约占所有机构发文量的29.04%。可见,中国计算机视觉领域研究机构较多,但研究机构之间发展并不均衡,科研能力差异较为显著。
Table 2. Distribution of high-productivity institutions for papers in the field of computer vision research in China (1992~2024)
表2. 中国计算机视觉研究领域论文的高产机构分布(1992~2024)
排名 |
机构名称 |
发文量 |
排名 |
机构名称 |
发文量 |
1 |
中国农业大学 |
274 |
11 |
中国科学院大学 |
128 |
2 |
天津大学 |
199 |
12 |
北京航空航天大学 |
121 |
3 |
浙江大学 |
179 |
13 |
广东工业大学 |
116 |
4 |
上海交通大学 |
163 |
14 |
吉林大学 |
109 |
5 |
江苏大学 |
161 |
15 |
华南农业大学 |
106 |
6 |
清华大学 |
142 |
16 |
燕山大学 |
102 |
7 |
南京航空航天大学 |
142 |
17 |
东南大学 |
102 |
8 |
华南理工大学 |
139 |
18 |
湖南大学 |
101 |
9 |
华中科技大学 |
139 |
19 |
四川大学 |
97 |
10 |
江南大学 |
131 |
20 |
南京农业大学 |
97 |
Figure 2. Co-occurrence knowledge map of high-productivity institutions in the field of computer vision research in China (1992~2024)
图2. 中国计算机视觉研究领域论文高产机构的共现知识图谱(1992~2024)
针对9460篇文献数据进行文本统计和可视化分析,使用CiteSpace 6.4.R1软件解析科研机构内部发文情况,具体操作如下:时间跨度(Time Slicing)设置为1992年1月至2024年12月;时间单位(Years Per Slice)设置为1年;节点类型(Node Types)选择“机构”(Institution);设置Top N为50以提取被引次数排名前50文献,从而生成全面分析网络;网络精简算法选择以时间段(Pruning sliced networks)进行探路算法(Pathfinder),其他选项为系统默认,经软件计算分析得到可视化文献9458篇,选择可视化(Visualize)进一步处理得到研究机构分布网络,如图2所示。
图谱包含1623个结点和454条连接,网络密度为0.0003。在该图中,每个结点代表一个研究机构,结点大小与机构论文产出量成正比。结点之间连线表示机构间合作关系,连线粗细反映这些机构共同发表论文的频次强度。考虑到样本总体为9458篇期刊文献,该数据表明,尽管计算机视觉领域研究机构众多,但机构间合作密切度较低、合作强度较弱,尚未形成强势合作网络结构。
从图2中可以看出,中国农业大学在计算机视觉研究领域发文量主要来自中国农业大学工学院(104篇)和中国农业大学信息与电气工程学院(56篇)等二级研究机构,天津大学在计算机视觉研究领域发文量主要来自天津大学精密测试技术及仪器国家重点实验室(61篇)和天津大学电气自动化与信息工程学院(38篇)等二级研究机构,浙江大学在计算机视觉研究领域发文量主要来自浙江大学生物系统工程与食品科学学院(32篇)和浙江大学(15篇)等二级研究机构。进一步对机构合作网络图谱进行分析,可以发现国内计算机视觉研究领域存在两个主要研究网络。第一个是以中国农业大学工学院为核心结点,以华南理工大学机械与汽车工程学院、南京农业大学工学院、华中农业大学工学院、华南农业大学工程学院、上海交通大学机械与动力工程学院等研究机构为分支结点的研究网络。第二个是以中国科学院大学为核心结点,以天津大学精密测试技术及仪器国家重点实验室、南京航空航天大学机电学院、南京林业大学机械电子工程学院、东北大学信息科学与工程学院等为分支结点的研究网络。结合表2中中国农业大学与中国科学院大学发文量统计结果,综合判断得出这两所研究机构在计算机视觉研究领域的科研能力和学术影响力已达到较高水平,且具备与其他科研单位有效合作的潜力,能够形成有影响力的科研网络。尽管表2中其他机构未能构建较大规模的科研网络,但它们仍在一定范围内以自身为核心,形成了小型的、具有一定影响力的科研网络。
同样可从图中发现,中国计算机视觉领域研究机构之间连线较为稀疏,网络密度较低,这进一步表明中国计算机视觉领域内各研究机构之间合作仍显有限,学术交流亟待进一步强化与深化。
3.4. 高产作者分布
表3给出1992~2024年间中国计算机视觉研究领域发文量达到20篇以上的作者。从表中可以看出,发文量最多的作者是湖南大学王耀南(50篇),其主要研究方向为智能控制、机器视觉和智能制造装备,其被引频次较高的学术论文主要有《智能制造装备视觉检测控制方法综述》和《钢轨缺陷无损检测与评估技术综述》,被引频次分别为316次和168次。其次是浙江大学应义斌(40篇)和中国环境科学院李伟(33篇),应义斌主要研究方向为农业信息智能感知和农业机器人,其被引频次较高的学术论文主要有《机器视觉技术在农产品品质自动识别中的应用(Ⅰ)》和《机器视觉技术在农产品品质自动识别中的应用研究进展》,被引频次分别为226次和213次。黄鲁成主要研究方向为农业工程、林业和自动化技术,其被引频次较高的学术论文主要有《基于计算机视觉的马铃薯自动检测分级》和《基于机器视觉的苹果最大横切面直径分级方法》,被引频次分别为118次和99次。发文量20篇以上作者还有江南大学白瑞林(27篇)、江苏大学毛罕平(27篇)、南京农业大学姬长英(26篇)、北京首农畜牧发展有限公司刘刚(25篇)、西北农林科技大学何东健(23篇)、浙江工业大学汤一平(22篇)、吉林大学王荣本(21篇)、深圳大学于起峰(21篇)。上述作者主要研究方向和该领域被引频次最高的学术论文如表3所示。
Table 3. Distribution of high-productivity authors in the field of computer vision research in China (1992~2024)
表3. 中国计算机视觉研究领域论文的高产作者分布(1992~2024)
作者 |
发文量 |
主要研究方向 |
被引频次最高的学术论文 |
王耀南 |
50 |
智能控制、机器视觉和智能制造装备 |
《智能制造装备视觉检测控制方法综述》(控制理论与应用,2015年,316次) |
应义斌 |
40 |
农业信息智能感知和农业机器人 |
《机器视觉技术在农产品品质自动识别中的应用(I)》(农业工程学报,2000年,226次) |
李伟 |
33 |
农业工程、林业和自动化技术 |
《基于计算机视觉的马铃薯自动检测分级》(农业机械学报,2009年,118次) |
白瑞林 |
27 |
机器视觉与机器人技术 |
《基于改进欧氏聚类的散乱工件点云分割》(激光与光电子学进展,2017年,66次) |
毛罕平 |
27 |
现代设施农业及环境自动控制技术 |
《缺素叶片彩色图像颜色特征提取的研究》(农业工程学报,2002年,206次) |
姬长英 |
26 |
机电一体化、农业机器人和土壤机械 |
《智能移动水果采摘机器人设计与试验》(农业机械学报,2012年,251次) |
刘刚 |
25 |
电子信息技术在农业中的应用 |
《基于改进粒子群优化模糊控制的农业车辆导航系统》(农业机械学报,2014年,178次) |
何东健 |
23 |
机器视觉、智能化检测与控制 |
《精准畜牧业中动物信息智能感知与行为检测研究进展》(农业机械学报,2016年,249次) |
汤一平 |
22 |
全景视觉传感器、计算机视觉 |
《基于机器视觉的茶陇识别与采茶机导航方法》(农业机械学报,2015年,84次) |
王荣本 |
21 |
智能车辆 |
《应用计算机图像处理技术识别玉米苗期田间杂草的研究》(农业工程学报,2001年,239次) |
于起峰 |
21 |
计算机视觉和摄影测量 |
《基于边缘连接的快速直线段检测算法》(光学学报,2013年,52次) |
使用CiteSpace 6.4.R1软件进一步探讨上述高产作者在计算机视觉研究领域学术团队组建情况,在软件中,参考构建研究机构合作网络时的参数设置,与前述方法不同,本研究结点类型选择“作者”(Author),生成后进一步处理得到作者间合作网络知识图谱,具体结果如图3所示。
从图3可见,研究中包含3115个代表作者结点,该数量低于样本文献总量9458篇,表明中国计算机视觉研究领域作者合作现象较为薄弱。代表作者结点之间连线达到4053条,网络密度为0.0008,进一步反映该领域内合作强度相对较弱,且作者间合作关系呈现分散性,尚未形成紧密合作网络。
再次研究表明,中国计算机视觉研究领域高产作者主要集中在两个主要研究网络中,这些网络揭示了该领域核心研究群体之间紧密协作关系和学术合作模式。第一个是以湖南大学王耀南为核心结点,以张辉、李明、周显恩、周博文、刘焕军等为分支结点的研究网络。第二个是以浙江大学应义斌为核心结点,以饶秀勤、赵匀、李江波、马俊福、蒋亦元等为分支结点的研究网络。上述两个研究网络中的诸多作者均位列表3所示高产作者名单,这表明这两个较大规模的研究网络在中国计算机视觉领域中贡献大量学术成果,且在该领域内具备深厚研究积累与广泛学术影响力。
表3中其他高产作者虽未构建较大规模学术网络,但均已形成以自身为核心结点的小型学术网络。典型的包括以江南大学白瑞林、南京农业大学姬长英为核心结点,以刘超、张伟、周俊、刘成良、彭彦昆、吉峰等为分支结点的小型研究网络;以吉林大学王荣本为核心结点,以纪寿文、郭克友、郭烈、李强、余天洪等为分支结点的小型研究网络;以中国环境科学院李伟为核心结点,以陈兵旗、张俊雄、李涛、任永新等为分支结点的小型研究网络。
从以上对研究机构和高产作者的社会网络分析可以看出,尽管我国计算机视觉研究领域的整体合作结构尚显松散,但研究机构与高产作者已初步形成“2 + n”的合作研究网络模式。这表明,在未来计算机视觉研究中,社会合作网络有望进一步发展,呈现出更加紧密的合作模式。
Figure 3. Co-occurrence knowledge map of collaborative authors in the field of computer vision research in China (1992~2024)
图3. 中国计算机视觉研究领域论文的合作作者共现知识图谱(1992~2024)
4. 中国计算机视觉研究领域的主要内容及研究专题
基于对关键词的共现研究,可以直观地展示出该领域共同出现的关键词的聚类分析,呈现该科研领域总体的热点分布情况[3]。通过对关键词共现网络的深入分析,可以揭示出各研究方向之间的相互关系与演变趋势,为明确当前研究热点提供有力支持。
4.1. 关键词共现分析
在软件中,参考构建研究机构合作网络时的参数设置,结点类型选择“关键词”(Node Types),生成后进一步处理得到关键词共现知识图谱,如图4所示。在该图中,每个结点代表一个关键词,结点大小与该关键词在文献中出现频次成正比,结点间的连线则表示关键词间的共现关系,连线粗细与关键词间共现频次成正比。该图谱包含1223个结点以及2761条连线,网络密度为0.0037,表明计算机视觉研究领域内关键词共现关系较为复杂,但整体共现密度相对较低。从图中观察到,1992~2024年间关键词共现频次最高的是“机器视觉”(5584),其次是“图像处理”(1001)和“深度学习”(687),关键词共现频次排在前20位的还有“缺陷检测”(266)、“目标检测”(262)、“特征提取”(228)、“图像分割”(222)、“边缘检测”(200)、“目标跟踪”(166)、“神经网络”(160)、“图像识别”(151)、“检测”(126)、“人工智能”(113)、“三维重建”(106)、“在线检测”(97)、“模式识别”(96)、“立体匹配”(93)、“机器学习”(89)、“识别”(86)、“模板匹配”(81)等。这些关键词所代表的研究主题构成1992~2024年间中国计算机视觉研究领域主体内容,也是该领域知识网络主要路径点。
Figure 4. Co-occurrence knowledge map of keywords in the field of computer vision research in China (1992~2024)
图4. 中国计算机视觉研究领域的关键词共现知识图谱(1992~2024)
4.2. 关键词聚类分析
通过聚类分析可以直观呈现该领域内热点研究主题和关键词聚类图谱。在关键词共现知识图谱基础上,选择K标签来源(Keywords Source of Labels)进行聚类分析,运行后进一步处理得到关键词共现聚类图,具体如图5所示。
通过对9458篇文献中关键词进行聚类最终得到21个聚类类别,这反映出计算机视觉研究领域内热点关键词聚类后,同一聚类中词频值最大的关键词共计21个。这21个关键词包括机器视觉、边缘检测、深度学习、检测、图像处理、分级、识别等。在显著性方面,该聚类的模块度Q值为0.5789大于0.3,表明该聚类显著。与此同时,平均轮廓S值为0.8551大于0.7,表明该聚类高效。
词频反映特定关键词在总体样本文献中的出现频次,而中心性则用于量化结点在网络中的相对重要性。当某一结点中心性值超过0.1时,表明该结点为网络中关键结点。通过对1992年至2024年间词频值排名前20位关键词及其对应中心性进行深入分析,可以揭示计算机视觉领域研究热点。具体如表4所示。
Figure 5. Co-occurrence clustering diagram of keywords in the field of computer vision research in China
图5. 中国计算机视觉研究领域关键词共现聚类图
从表4可知,词频值排名前20位关键词中有“机器视觉”、“图像处理”、“模式识别”这3个中心性大于0.1的关键结点(编号1、2、16)。这3个关键词体现计算机视觉的核心目标,即从二维图像中提取信息、识别物体并推断三维空间结构。计算机视觉旨在通过计算机与成像设备协同作用模拟人眼功能,实现对目标的识别、分割、分类、跟踪和检测。通过对图像中目标的检测与分析,提取出相关信息,并对其进行进一步图像处理与加工[4]。“机器视觉”(编号1)是基于计算机视觉理论工程化的应用学科,机器视觉系统使用光学装置和传感器获取被检测物体特征图像,通过计算机处理图像信息实现检测与控制[5]。“图像处理”一词(编号2)通常指对二维图像进行操作、增强、恢复等一系列处理过程,是计算机视觉任务中的一个重要环节,有助于计算机理解和分析图像或视频内容。“图像处理”的中心性为0.24,属于除“计算机视觉”关键词外最关键结点。“模式识别”(编号16)通常用于帮助计算机从复杂视觉信息中提取结构化数据并进行下一步决策,表明其在计算机视觉任务中的过渡作用,“模式识别”的中心性为0.1。
进一步分析词频值前20位关键词,根据计算机视觉任务的关键步骤将这些关键词分为五类,分别是图像采集与处理类(图像处理、特征提取、边缘检测、三维重建、立体匹配)、目标检测与识别类(缺陷检测、目标检测、目标跟踪、图像识别、检测、模式识别、识别、模板匹配)、人工智能类(机器视觉、深度学习、神经网络、人工智能、机器学习)、图像分类与分割类(图像分割)、应用类(在线检测)。除上述“图像处理”关键词,“特征提取”、“边缘检测”、“三维重建”、“立体匹配”4个词(编号6、8、14、17)同样反映图像采集与处理对于计算机视觉的基础性作用,可见图像处理与分析类是计算机视觉研究领域内学者的一贯热衷方向。“目标检测”、“深度学习”2个词(编号3、15)涉及计算机视觉中的两个热点领域。目标检测旨在从复杂背景中准确识别并定位运动目标,同时实现目标与背景有效分离。这一过程为后续目标跟踪、行为识别等计算机视觉任务奠定基础[6]。“深度学习”作为当前人工智能领域核心研究方向之一,在计算机视觉领域已广泛应用于交通标志识别与分类、人脸识别与检测等任务[7]。
Table 4. Top 20 keywords by frequency and their centrality
表4. 词频值前20位的关键词及其中心性
关键词编号 |
关键词 |
词频 |
中心性 |
1 |
机器视觉 |
5584 |
0.7 |
2 |
图像处理 |
1001 |
0.24 |
3 |
深度学习 |
687 |
0.02 |
4 |
缺陷检测 |
266 |
0.02 |
5 |
目标检测 |
262 |
0.04 |
6 |
特征提取 |
228 |
0.05 |
7 |
图像分割 |
222 |
0.09 |
8 |
边缘检测 |
200 |
0.06 |
9 |
目标跟踪 |
166 |
0.03 |
10 |
神经网络 |
160 |
0.05 |
11 |
图像识别 |
151 |
0.06 |
12 |
检测 |
126 |
0.08 |
13 |
人工智能 |
113 |
0.02 |
14 |
三维重建 |
106 |
0.05 |
15 |
在线检测 |
97 |
0.03 |
16 |
模式识别 |
96 |
0.1 |
17 |
立体匹配 |
93 |
0.02 |
18 |
机器学习 |
89 |
0.01 |
19 |
识别 |
86 |
0.03 |
20 |
模板匹配 |
81 |
0.01 |
4.3. 关键词共现时区图分析
关键词共现时区图可直观呈现特定研究领域在时间维度上的动态演变。时区图横轴代表时间单位(如年份),通过分析关键词出现频次、首次出现时间以及关键词结点间共现关系,揭示该领域历史发展趋势与未来演化方向。图中,关键词结点大小与其频次成正比,结点具体位置表示该关键词首次出现的特定年份(如“特征提取”结点位于1999年纵轴上,表明该关键词首次出现于1999年)。结点间连线则表示关键词间共现关系,如“目标检测”与“图像识别”之间连线表明前者对后者的支持作用。在关键词共现知识图谱基础上,选择时区图(Timezone View),运行后进一步处理得到相应关键词时区图,具体如图6所示。
根据图6所示,关键词的动态演变呈现三个主要发展阶段,这与前文分析所得研究结论一致。第一阶段为1992~1999年,从发文量变化趋势来看,此阶段标志着国内计算机视觉领域在技术应用的初步探索与基础研究的概念形成。这一阶段出现的主要关键词是“机器视觉”、“图像处理”、“目标检测”、“目标跟踪”、“边缘检测”、“特征提取”、“图像分割”等基础概念名词。由于这些词属于计算机视觉任务,并在后续文献中频繁作为关键词使用,因此在图中结点面积较大。
第二阶段为2000~2014年,从发文量变化趋势来看,这一阶段属于计算机视觉研究领域稳步上升期,研究逐渐细化。这一阶段出现的主要关键词是“缺陷检测”、“相机标定”、“位姿估计”、“亚像素”、“双目视觉”、“计量学”、“单目视觉”、“尺寸测量”、“行为识别”等,以上大部分关键词属于图像采集与处理类以及目标检测与识别类进一步细分研究方向。与此同时,“车辆检测”、“图像采集”、“直线检测”、“图像配准”等关键词是在第一阶段研究基础上新的衍生方向。
第三阶段为2015年~2024年,这一阶段发表文献数量达到计算机视觉研究领域历史最高峰,属于快速增长阶段。相比上一阶段,此阶段研究更加多元化,学者深入挖掘计算机算法与模型,探索若干新兴且具有重大意义的研究方向。这一阶段主要关键词“深度学习”、“机器学习”是人工智能技术与计算机视觉研究相结合的新方向,机器学习属于人工智能的重要子领域,而深度学习则属于机器学习的重要子集。同时,随着深度学习研究和机器学习研究在这一阶段持续推进,在计算机视觉研究领域内“自动驾驶”、“桥梁工程”等新兴技术应用类文献不断涌现。可以发现,该阶段发生显著的范式转变,研究重点从技术应用逐步转向以理论和算法优化为核心的基础研究,进入计算机视觉研究领域新时代。
Figure 6. Temporal co-occurrence diagram of keywords in the field of computer vision research in China
图6. 中国计算机视觉研究领域的关键词共现时区图
4.4. 关键词突现分析
突现词指在特定统计时间范围内,词频显著上升的若干关键词或关键词组。通过对这些突现词进行定量分析,软件能够追踪其在时间线上出现和消失的节点,进而揭示出突现词动态演变趋势、分析研究热点发展与转变。在热点(Burstness)模块中,最小持续时长(Minimum Duration)设置为4,参数γ值设置为1,选择更新(Refresh)得到89个突现词,为进一步挖掘领域关键趋势,提取前30位突现词,采用“按突现起始年份排序(Sort by the beginning year of burst)”方式,选择可视化(View)得到相应关键词突现图,如图7所示。
Figure 7. Keyword burst detection diagram in the field of computer vision research in China
图7. 中国计算机视觉研究领域关键词突现图
从图7可知,在计算机视觉研究领域中,“模式识别”关键词研究持续时间最长,从1993年起至2010年止,共历时17年。其次是“小波变换”,该主题研究始于1995年并持续至2011年,总计16年。而“图象处理”则从1992年开始至2005年结束,研究时长为13年。“模式识别”与“图象处理”是计算机进行识别、理解、分析图象的重要组成部分,是计算机视觉任务的核心功能之一,而“小波变换”则是图象处理的重要工具,帮助计算机处理图象中不同频率信息,提高图象处理精度和效率。
在以上30个突现词当中,“目标检测”、“目标跟踪”、“深度学习”的突现强度(Strength)均超过20。“目标检测”属于计算机视觉基础任务,旨在将目标定位和目标分类结合,利用图像处理、机器学习等多个技术领域,从图像(视频)中定位所需对象[8]。“目标跟踪”旨在通过在连续视频图像序列中估计并跟踪目标位置、形状或所占区域,确定目标运动速度、方向及轨迹等信息,实现对运动目标行为的分析[9]。而“深度学习”突现词的突现强度显著高于其他突现词达到145.66,表明“深度学习”近几年在该领域被大量引用并成为研究热点,受到众多学者关注。
从未来发展趋势的视角预测,“深度学习”、“机器学习”、“特征融合”、“目标检测”、“人工智能”以及“迁移学习”将成为计算机视觉领域下一阶段的重要研究热点,这些领域的交叉与融合预计将催生新的技术突破,同时为此前失去影响力和活力的研究热点注入创新驱动力,促使其焕发新的学术价值。首先,特征融合是整合图像上下文信息并提高全局特征利用率的一种策略,随着计算机性能的大幅提升以及深度学习的快速发展,特征融合的优势越来越明显[10] [11]。其次,近几年机器学习相关技术在计算机视觉领域取得显著进展,广泛应用于人脸识别、自动驾驶和智慧医疗等重要前沿领域。通过深度学习等算法,机器学习模型有效提升数据分析与决策支持能力。再次,小样本学习最早源于计算机视觉,旨在通过少量标注数据实现有效学习[12]。“迁移学习”作为其重要方法,通过将源领域知识迁移到目标领域,在数据稀缺情况下提高模型泛化能力,从而缓解小样本学习问题[13]。此外,“目标检测”是计算机视觉的重要内容,是众多计算机视觉任务的基础。其应用范围非常广泛,如人脸检测、无人驾驶、目标跟踪、智能交通等。近年来,随着大数据的出现以及计算机处理能力的提升,出现了一系列以卷积网络为核心的检测算法,目标检测精度与检测速度得到大幅提升,拓宽了计算机视觉应用范围,带来了更多应用价值[14]。最后,“深度学习”是机器学习的一个分支,是近些年来机器学习领域取得的重大突破和研究热点之一。2012年,基于卷积神经网络的深度学习模型就在大规模图像分类任务上取得了非常大的性能提高,掀起了深度学习研究的热潮。目前,谷歌、微软和Facebook等众多国际互联网科技企业争相投入大量的资源,研发布局大规模的深度学习系统[15]。
5. 结论和建议
本文采用CiteSpace 6.4.R1软件,对1992至2024年间来源于中国知网的北大核心期刊、CSSCI期刊和CSCD期刊中的9460篇计算机视觉领域的文献进行了系统分析。采用共现分析、聚类分析以及突现词分析等多维度文献计量方法,深入探讨中国计算机研究领域的研究现状、发展脉络、动态变化及未来方向,得到以下结论。
1) 我国计算机视觉研究领域从时间上可以分为斜坡式缓慢增长–阶梯式稳步上升–直线式快速增长三个阶段,各个阶段学术研究进展存在差异,进而导致不同阶段研究热点在特点和关注点上有所不同。在1992年~1999年,计算机视觉领域研究集中在基础概念提出和技术应用探索。在2000年~2014年,领域发文量逐渐增多,到2014年达到第一个历史峰值,整体呈现阶梯式稳步上升态势,在上一阶段基础上这一阶段的研究内容更加细化。在2015年~2024年,领域发文量直线式快速增长并达到第二个历史峰值。这一阶段研究经历了显著范式转变,研究重点从技术应用逐步转向以理论和算法优化为核心的基础研究,诸如“特征融合”、“迁移学习”以及“深度学习”等前沿且活跃的研究领域迅速成为学术界重要研究方向。
2) 中国计算机视觉研究领域内的研究机构和作者均呈现出“2 + n”的合作格局。研究机构方面,以中国农业大学工学院和中国科学院大学为核心,形成了两个大型合作网络。作者方面,以湖南大学王耀南和浙江大学应义斌为核心,分别构建了两个大型合作网络。其他主要研究机构和作者则形成了若干小型合作网络。
3) 图像采集与处理、目标检测与识别以及人工智能是中国计算机视觉研究的主要领域,未来的研究将主要聚焦于“目标检测”与“深度学习”以及与这两者紧密相关的研究方向。通过对词频值在前20位的关键词进行共现分析,发现大多数符合条件的关键词主要集中于图像采集与处理、目标检测与识别以及人工智能三个领域。通过突现词分析可见,最新的研究热点聚焦于基于大数据的深度学习如何优化目标检测等计算机视觉任务的性能与计算效率。与此同时,结合深度学习的其他计算机视觉技术应用及其算法理论研究亦成为重要研究方向。
4) 根据上述研究结论可得出,当前我国计算机视觉研究领域学术发文量处于快速增长态势。虽然研究机构以及作者之间的合作网络已初步建立,但机构间以及作者间的协同合作仍需进一步深化与强化。研究方向已逐渐显现,未来的研究热点趋向明确,其中,以深度学习为核心的相关领域预计将持续推动计算机视觉理论与应用的深入发展与创新;与此同时,计算机视觉也为这些领域的优化与创新提供了新的研究方向与实践问题,从而形成了相互依存、互为驱动的正反馈机制。可以预见,随着研究不断深入,计算机视觉领域将在未来呈现出更多高水平学术成果与文献发表。
基金项目
2024年度河北省高等学校科学研究项目青年基金项目,课题号:SQ2024154。