1. 引言
人工智能的发展已对人类及其未来产生了深远的影响,这些影响涉及人类的经济利益、社会作用和文化生活等方面[1]。在人工智能的整个发展中,深度学习起到了关键推动作用。传统的人工智能方法往往依赖于人工提取数据特征,而深度学习通过多层神经网络,能够自动学习数据的特征,大大减少了人工干预的需要,使得模型的泛化能力和性能有了显著提升。深度学习源于神经网络的研究,是机器学习的一个全新领域,即通过海量数据用以训练从而构建相关模型来学习特征数据,深度学习能够发现大数据中的复杂结构[2]。深度学习模型(如卷积神经网络、循环神经网络等)在大规模数据上的表现非常优异,这使得深度学习不仅成为AI领域中的主要应用技术,更通过算法、数据与算力的协同进化,重塑了产业生态,成为驱动社会智能化转型的核心引擎。
2. 研究设计
2.1. 研究数据
本文采集的数据来源于中国知网(CNKI)收录的人工智能与深度学习相关的期刊论文作为研究数据。通过中国知网数据库中的高级检索功能,检索主题设定为“人工智能”和“深度学习”,通过初步文献检索,在知网上能检索到该研究主题最早期刊论文发表于2010年,故文献检索时间范围为2010年至2024年,为了提高检索期刊的代表性,将期刊来源限定北大核心、CSSCI、CSCD,文献类型设定为学术期刊,共检索出文献3223篇,经过手动筛选,剔除专题简介、会议通知、人物访谈、序言、前言、评述、书评等冗余信息,最终筛选出3040篇文献作为研究样本。
2.2. 研究方法
CiteSpace是一款由美国德雷塞尔大学陈超美教授团队开发的科学文献可视化分析工具,广泛应用于科研文献数据计量分析、知识图谱构建和趋势挖掘[3]。本文利用CiteSpace来进行知识图谱绘制,并基于图谱进行可视化分析。通过关键词、机构的共现网络和聚类分析,揭示研究领域的热点主题。采用时间线分析,展示研究主题的演变脉络,识别新兴研究趋势。通过突现词检测,识别短期内高频出现的关键词,辅助捕捉前沿方向。最终,得出中国人工智能领域深度学习研究的热点及发展趋势等相关结论。
3. 研究结果与分析
3.1. 年发文量分析
期刊文献年发文量分析通过量化数据客观展示趋势,通过分析发文量的阶段性变化,可以体现学术界对该领域的关注程度及划分学科发展的研究阶段。本文对2010年至2024年人工智能领域深度学习研究的年发文量进行统计分析,相关结果如图1所示。
Figure 1. Distribution of paper publications of deep learning research in the artificial intelligence field in China (2010~2024)
图1. 中国人工智能领域深度学习研究论文的发表时间分布(2010~2024)
2010年以来国内有关“人工智能”和“深度学习”主题相关期刊文献的发文量经历了两个主要发展阶段:斜坡式缓慢增长、直线式快速增长。
2010~2015年研究处于萌芽期,年发文量处于个位数量,这6年发文量总计17篇,占比不到1%。这一阶段主要对深度学习发展的过去、现在、未来发展及面临的挑战做一个全景式的介绍[4]。针对以往浅层学习存在的诸多不足,研究文献主要介绍了深度学习的基本状况、概念和原理,阐述了深度学习与神经网络之间的关系、深度学习的优缺点以及目前深度学习理论需要解决的主要问题[5]。并对深度学习在语音识别、计算机视觉、自然语言处理以及信息检索等领域的应用进行了介绍,展望了今后深度学习的发展方向[6]。
2016~2024年,年发文量呈直线式快速增长,人工智能领域深度学习研究成果实现快速增长,这9年发文量总计3204篇,占比99%以上。2016年,AlphaGo击败围棋世界冠军李世石,结合蒙特卡洛树搜索与深度强化学习,展示AI在复杂决策中的能力。该阶段随着算法的逐步优化,深度学习通过多层神经网络实现特征自动提取,解决了传统机器学习依赖人工设计特征的局限性,深度学习的模型能力会随着深度的增加而呈指数增长[7]。深度学习善于从原始输入数据中挖掘抽象的特征表示,具有良好的泛化能力。它在目标检测和计算机视觉、自然语言处理、语音识别和语义分析等领域成效卓然,因此促进了人工智能的发展[8]。深度学习通过持续的技术突破与跨学科融合,正在重塑人类社会的生产力和创造力,驱动更多学者投入到人工智能领域深度学习的研究中,推动人工智能向可信、高效、安全的方向演进。
3.2. 研究机构分析
运用CiteSpace 6.4.R1软件,对3040篇文献数据绘制机构可视化图谱进行分析,设置时间划分为2010年至2024年,1年为一个时间段,节点类型勾选“机构”,节点筛选方式为Top N = 50,网络精简算法选择以时间段进行探路算法,其他选项为系统默认,节点标签Threshold设置为5,生成的可视化图谱如图2所示。
Figure 2. Co-occurrence knowledge map of high-productivity institutions in deep learning research papers in the artificial intelligence field in China (2010~2024)
图2. 中国人工智能领域深度学习研究论文高产机构的共现知识图谱(2010~2024)
图谱分析显示,共有1598个节点和1516条连接,图谱密度为0.0012。考虑到样本总体为3040篇期刊文献,表明机构间的合作关系较为松散,对该领域的联合研究相对较少,尚未形成强势合作网络结构。
从图2中可以看出,中国科学院大学在人工智能领域深度学习研究的发文量主要来自中国科学院(36篇)、中国科学院自动化研究所(13篇)、中国科学院复杂系统管理与控制国家重点实验室(11篇)、中国科学院信息工程研究所(7篇)和中国科学院人工智能学院(7篇)等研究机构。武汉大学的发文量主要来自武汉大学信息管理学院(13篇)、武汉大学测绘遥感信息工程国家重点实验室(13篇)、武汉大学遥感信息工程学院(9篇)及武汉大学计算机学院(6篇)等二级研究机构。清华大学的发文量主要来自清华大学(6篇)及清华大学计算机科学与技术系(13篇)、清华大学自动化系(7篇)等二级研究机构。此外,发文量较多的机构还有中国电力科学研究院有限公司(13篇)、北京工业大学信息部(9篇)、华中科技大学人工智能与自动化学院(8篇)、复旦大学计算机科学技术学院(7篇)、浙江大学计算机科学技术学院(7篇)等二级研究机构。对机构合作网络图谱进行分析,可以发现国内人工智能领域深度学习研究存在“一超多强”的现状。以中国科学院大学为核心节点的合作网络最为紧密,以武汉大学、清华大学、北京工业大学、复旦大学、华中科技大学以及中国电力科学研究院为核心节点也形成了合作网络。但总体来说,中国人工智能领域深度学习研究机构之间合作关系较为松散,同一机构与其二级机构间合作较为紧密,不同机构之间合作联系相对较少,各机构间的协作程度尚有提升空间。
4. 研究热点分析
研究热点是指某个领域中学者共同关注的一个或者多个话题,可结合研究主题的词频分析[3]。关键词通过对文章主题的高度概括与凝练,体现一篇文献的核心与精髓,是文献计量研究的重要指标。高频关键词反映了一个研究领域的主题和研究热点。
4.1. 关键词共现分析
在CiteSpace中,参考构建研究机构合作网络时的参数设置,节点类型选择“关键词”,节点标签Threshold设置为8,运行分析生成关键词共现知识图谱,如图3所示。
Figure 3. Co-occurrence knowledge map of keywords in deep learning research in the artificial intelligence field in China (2010~2024)
图3. 中国人工智能领域深度学习研究的关键词共现知识图谱(2010~2024)
在图谱中,节点大小表示词频,连线粗细反映共现强度。该图谱包含761个节点以及1447条连线,网络密度为0.005。从图中观察到,2010~2024年间关键词共现频次最高的是“人工智能”(1616),其次是“深度学习”(1307)和“机器学习”(318),关键词共现频次排在前20位的还有“神经网络”(98)、“大数据”(89)、“目标检测”(85)、“影像组学”(50)、“知识图谱”(47)、“机器人”(40)、“图像处理”(39)、“强化学习”(39)、“诊断”(33)、“医学影像”(28)、“可解释性”(27)、“算法”(27)、“迁移学习”(26)、“特征提取”(24)、“图像识别”(24)、“数据驱动”(22)、“物联网”(22)。这些关键词所代表的研究主题构成2010~2024年间中国人工智能领域深度学习研究的主体内容,也是该领域知识网络主要路径点。
4.2. 高频关键词分析
在CiteSpace中,关键词共现分析的词频与中心性是揭示研究领域核心热点与知识结构的关键指标。词频是指特定时间段内某关键词在文献中出现的次数,反映研究热点的集中度,中心性衡量关键词在网络中的枢纽作用,中心性大于0.1为关键节点。具体如表1所示。
Table 1. Top 20 keywords by word frequency values and their centrality
表1. 词频值前20位的关键词及其中心性
关键词编号 |
关键词 |
词频 |
中心性 |
1 |
人工智能 |
1616 |
0.83 |
2 |
深度学习 |
1307 |
0.73 |
3 |
机器学习 |
318 |
0.29 |
4 |
神经网络 |
98 |
0.19 |
5 |
大数据 |
89 |
0.27 |
6 |
目标检测 |
85 |
0.05 |
7 |
影像组学 |
50 |
0.05 |
8 |
知识图谱 |
47 |
0.05 |
9 |
机器人 |
40 |
0.05 |
10 |
图像处理 |
39 |
0.02 |
11 |
强化学习 |
39 |
0.05 |
12 |
诊断 |
33 |
0.05 |
13 |
医学影像 |
28 |
0.03 |
14 |
可解释性 |
27 |
0.02 |
15 |
算法 |
27 |
0.06 |
16 |
迁移学习 |
26 |
0.02 |
17 |
特征提取 |
24 |
0.01 |
18 |
图像识别 |
24 |
0.03 |
19 |
数据驱动 |
22 |
0.02 |
20 |
物联网 |
22 |
0.02 |
如表1所示,中心性大于0.1的关键词有人工智能(0.83)、深度学习(0.73)、机器学习(0.29)、大数据(0.27)和神经网络(0.19)。
“人工智能”的兴起不仅是技术和产业领域的重大发展,更是经济、社会、政治各领域的基础性和综合性变革,人工智能的核心是算法与数据,旨在模拟人类智能的感知、推理与决策能力[9]。
“深度学习”是一种深层的机器学习模型,针对以往浅层学习对特征表达能力不足和特征维度过多导致的维数灾难等现象,深度学习通过所特有的层次结构和其能够从低等级特征中提取高等级特征很好地解决了这些问题,并给人工智能带来了新的希望[6],“深度学习”是产业智能化的核心驱动力。
“机器学习”(尤其是深度学习)是人工智能的一个组成部分,更是人工智能领域科研和应用的重要动力,其算法的快速发展将会引起市场决策和政策研究的根本性变革[10]。驱动人工智能从理论到应用的跨越,支撑多模态与通用智能发展。
“大数据”蕴含巨大的社会、经济、科学价值,大数据为人工智能领域算法发展提供了海量、多模态的训练样本,基于神经网络的大数据分析方法在语音、图像、医学等各应用领域取得了巨大的成果,引领了人工智能的发展[11]。
“神经网络”在人工智能领域深度学习研究中扮演了核心架构的角色,为深度学习提供了可扩展的层次化结构。神经网络已成为实现通用人工智能不可或缺的技术路径。其中,深度卷积神经网络已经广泛应用到信息检索、自然语言处理、计算机视觉、语音识别、语义理解等多个领域,促进了人工智能的发展[8]。
4.3. 关键词聚类分析
通过关键词聚类分析,可以识别具有相似研究方向、关键词或研究方法的文献集合,继而深化对学术领域知识结构和发展趋势的理解,并有助于研究者发现研究领域的热点问题和关键主题[12]。本文选择K标签来源(Keywords Source of Labels)进行聚类分析,运行后结果如图4所示。
Figure 4. Co-occurrence clustering diagram of keywords in deep learning research in the artificial intelligence field in China
图4. 中国人工智能领域深度学习研究的关键词共现聚类图
通过对3040篇文献中的关键词进行聚类,选择前19个聚类并根据有效性,共筛选出16个聚类类别。这16个关键词聚类包括人工智能、深度学习、机器学习、影像组学、大数据、神经网络、目标检测等。在显著性方面,该聚类的模块度Q值为0.8851大于0.3,表明该聚类显著。与此同时,平均轮廓S值为0.9843大于0.7,表明该聚类高效[13]。具体如表2所示。
Table 2. Clustering topics in deep learning research in the artificial intelligence field in China
表2. 中国人工智能领域深度学习研究的聚类专题
聚类专题名称 |
聚类大小 |
轮廓值 |
平均年份 |
聚类高频关键词 |
人工智能 |
125 |
1 |
2019 |
人工智能、计算机视觉、特征提取、自然语言处理 |
深度学习 |
90 |
0.998 |
2018 |
深度学习、卷积神经网络、多尺度、智能识别 |
机器学习 |
52 |
0.983 |
2018 |
机器学习、图像识别、用户标签、
长短期记忆递归神经网络 |
影像组学 |
39 |
0.942 |
2020 |
影像组学、诊断、病理学、肿瘤、肝细胞癌 |
大数据 |
38 |
0.985 |
2018 |
大数据、智能、食品工业、数据分析、预测模型 |
神经网络 |
35 |
0.983 |
2016 |
神经网络、脑科学、学习、智能图书馆、位姿估计 |
目标检测 |
30 |
0.972 |
2018 |
目标检测、目标跟踪、模式识别、孪生网络 |
智能化 |
29 |
1 |
2018 |
智能化、数字化、创新、信息技术、智能算法 |
强化学习 |
28 |
0.984 |
2019 |
强化学习、电力系统、信号处理、迁移学习 |
学习分析 |
26 |
0.964 |
2017 |
学习分析、在线教育、智慧教育、智能教育、区块链 |
语义分割 |
22 |
0.991 |
2019 |
语义分割、图像分类、环境感知、
图像分割、标签缺陷 |
知识图谱 |
22 |
1 |
2018 |
知识图谱、认知计算、核心素养、
类脑智能、知识获取 |
知识服务 |
21 |
0.942 |
2019 |
知识服务、运动表现、图书馆、目标识别 |
云计算 |
21 |
0.979 |
2019 |
云计算、数据挖掘、边缘计算、边缘智能、智能投顾 |
数据驱动 |
13 |
0.955 |
2019 |
数据驱动、知识驱动、知识引导、
媒体学习、遥感图像解译 |
超声检查 |
11 |
1 |
2019 |
超声检查、病理诊断、乳腺肿瘤、胃肿瘤、自动测量 |
由表2可知,中国人工智能领域深度学习研究排在前十的核心主题包括人工智能、深度学习、机器学习、影像组学、大数据、神经网络、目标检测、智能化、强化学习、学习分析。轮廓值大于0.7表明聚类质量高,表中的16个聚类专题轮廓值均接近于1,表明聚类的结构分布具有合理性。这些聚类专题表明了人工智能领域深度学习的主要研究主题,具体可以概况为三类:一是基础研究,包括人工智能、深度学习、机器学习、大数据、知识图谱,这构成了该领域研究发展的根基。二是核心技术研究,包括神经网络、强化学习、学习分析、语义分割、云计算、数据驱动,这些技术拓展了该领域的使用空间。三是应用领域研究,包括影像组学、目标检测、智能化、知识服务、超声检查,这些研究表明了该领域研究的核心价值,体现了现实应用意义。
4.4. 关键词共现时区图分析
关键词共现时区图是揭示研究领域动态演化的有效工具,节点大小表示关键词的频次,节点间连线显示不同年份关键词间的共现关系,选择时区图(Timezone View)运行后得到关键词时区图如图5所示。
Figure 5. Co-occurrence time zone diagram of keywords in deep learning research in the artificial intelligence field in China
图5. 中国人工智能领域深度学习研究的关键词共现时区图
根据图5所示,关键词的动态演变呈现两个主要发展阶段。第一阶段为2010~2015年,从发文量来看,此阶段发文量极少,主要是基于基础理论与概念的研究。这一阶段出现的主要关键词是“深度学习”、“人工智能”、“机器学习”、“大数据”、“目标检测”、“模式识别”、“图像识别”等基础概念名词,为研究提供逻辑推理框架和技术基础。
第二阶段为2016~2024年,从发文量变化趋势来看,此阶段属于人工智能领域深度学习研究的直线上升期,研究范围逐步扩大。2016年左右神经网络在技术上持续突破为深度学习在人工智能领域的应用提供了基础,出现的主要关键词有“强化学习”、“类脑智能”、“云计算”、“学习算法”、“迁移学习”、“边缘计算”、“知识图谱”、“平行智能”、“区块链”、“数据挖掘”等核心技术领域的研究以及“机器视觉”、“人机交互”、“影像组学”、“图像处理”、“智能投顾”、“智能诊断”、“金融科技”、“精准医疗”等应用领域的拓展,表明深度学习模型优化和应用场景的逐步落地。
近几年,研究更加多元化,应用领域进一步探索。这一阶段关键词主要包括“大模型”、“智能识别”、“知识驱动”、“算法模型”、“数字经济”、“模型部署”、“知识蒸馏”等算法层面及“产业变革”、“疗效预测”、“智能识别”、“智慧城市”、“损伤检测”、“视觉感知”、“实践教学”等应用场景层面和“信息安全”、“伦理风险”、“隐私保护”、“算法歧视”等伦理层面。表明深度学习研究正从单一的技术突破转向“算法–场景–伦理”的系统性创新,其发展方向聚焦于高效能、可解释、跨模态和伦理合规四大主线,未来将深度重构医疗、制造、交通等核心产业的价值链。
4.5. 关键词突现分析
关键词突现度指的是该关键词在某段时间内出现次数的变化率。在CiteSpace中通过探测突现词,可以对该领域发展的脉络以及未来发展前沿进行预测[14]。在热点模块中,参数γ值设置为0.7,最小持续时长设置为2,选择更新,得到23个突现词,采用“按突现起始年份排序(Sort by the beginning year of burst)”方式,得到相应关键词突现图,如图6所示。
Figure 6. Keyword burst detection diagram in deep learning research in the artificial intelligence field in China
图6. 中国人工智能领域深度学习研究的关键词突现图
从图6可知,在人工智能领域深度学习研究中,突现时长排在前列的关键词是“学习”(2010~2018年),共历时9年;“模式识别”(2015~2020年),历时6年;“迁移学习”(2021~2024年),历时4年。“学习”不仅包括通过多层神经网络结构对数据进行深层次的模式识别,也包括通过大量数据进行训练来优化模型的参数,从而来实现智能任务的过程。“学习”既是深度学习的技术内核,也是AI范式革命的驱动力。“模式识别”是人工智能领域的经典技术,通常用来对图像、文字、照片以及声音等信息进行识别、处理和分类[15],核心价值在于自动特征提取和非结构化数据处理。“迁移学习”通过领域自适应技术,能有效弥合源域与目标域的数据分布差异,在人工智能领域深度学习研究中具有知识迁移引擎和技术效能放大的双重作用。
从未来发展趋势的视角,“预测”、“可解释性”、“隐私保护”、“边缘计算”等将成为人工智能领域深度学习下一阶段的重要研究热点。在诸多应用领域,人们借鉴不同的测量模型,探讨现象或事件发生的因果机制,在此基础上进行“预测分析”。如深度学习因其算法在预测上的优势,可以提高“经济预测”的精准性[10]。“可解释性”是人类与决策模型之间的接口,是人工智能重点突破深度学习的“黑箱”问题,通过可视化工具和数学建模揭示模型决策逻辑。深度学习模型依赖大规模数据集训练,而这些数据往往包含用户敏感信息,隐私泄露导致的技术抵触直接影响AI商业化进程,所以“隐私保护”是深度学习可持续发展的基本伦理要求。“边缘计算”能够为云计算模式中敏感隐私数据提供较好的隐私保护机制,在边缘计算场景中应用联邦学习技术能够有效解决物联网设备的数据隐私问题[16]。
5. 研究结论
本文以CNKI中2010~2024年以来有关人工智能领域深度学习研究的相关核心文献为研究对象,运用CiteSpace 6.4.R1软件,构建知识图谱,并对图谱和相关数据进行了不同层次的分析,得出了如下结论:
1) 年度发文量趋势分析:2010年以来国内有关“人工智能”和“深度学习”主题的期刊发文量经历了两个主要发展阶段:斜坡式缓慢增长、直线式快速增长。2010~2015年发文量较少,处于研究的萌芽阶段。自2016年起发文量显著增加,随着算法和算力的提升,该研究应用前景巨大,研究关注度呈持续高增长态势。
2) 研究合作机构分布:整体来说,合作关系较为松散,机构间尚未形成较强凝聚力的科研团队。从已有合作网络来看,存在“一超多强”的现状,以中国科学院大学为核心节点的合作网络最为紧密,以武汉大学、清华大学、北京工业大学、复旦大学等为核心节点也形成了小范围的合作网络。
3) 关键词热点分析:人工智能、深度学习、机器学习、大数据和神经网络等是该领域的核心研究节点。深度学习源于人工神经网络的研究,深度学习的构建离不开系统与算法等。通过聚类分析,发现人工智能领域深度学习研究主要聚类于基础、技术和应用三个层面的16个研究专题。
4) 时区图和突现词分析:预测、可解释性、隐私保护、边缘计算等为未来核心研究热点,产业变革、智能识别、损伤检测、视觉感知、实践教学等成为应用场景拓展方向,深度学习研究正从单一的技术突破转向“算法–场景–伦理”的系统性创新,未来将深度重构医疗、制造、交通等核心产业的价值链。
6. 研究建议
结合中国人工智能领域深度学习发展现状,从加强机构间合作、核心技术突破、重塑人才培养、拓展应用落地和制定行业标准等层面提出如下发展建议:
1) 研究机构间应建立多维度合作机制。整合核心要素资源,建立国家级算力调度平台,支持医疗、交通、工业等领域数据集协同构建。通过联合攻关实现底层技术自主可控,组建跨机构、跨地域的项目攻关团队,快速响应行业需求。只有各研究机构合力形成“创新共生体”,才能提升中国在该领域的国际竞争力,助力中国在该领域实现跨越式发展。
2) 持续推动核心技术突破。设立国家级攻关项目,重点支持深度学习理论与核心技术的自主研发。设立产学研专项基金,支持高校与科研机构合作研究前沿领域,与企业共建应用场景实验室,持续发力突破底层技术瓶颈。
3) 重塑人才培养体系。除将深度学习相关教材纳入人工智能等相关专业必修课外,要重视AI实训基地建设,强化学生实操能力。推动校企双导师制,联合培养“AI+”复合型人才。积极引进海内外高端人才,推动国内该领域研究与国际接轨并逐步实现超越。
4) 拓展应用场景落地。探索深度学习在新兴领域的应用,拓展人工智能领域深度学习的应用场景,重点突破深度学习在“疗效预测”、“智能制造”、“智慧城市”、“视觉感知”等应用场景的技术壁垒,赋能产业智能化升级。
5) 政策支持与标准制定。政府应设置专项基金,加大税收优惠政策,扶持该领域的发展。制定相关发展指南和规则制度,建立行业标准和技术标准,强化数据安全和隐私保护,确保该领域规范有序发展。
深度学习作为机器学习的一个新的领域,势必会对机器学习及人工智能系统产生影响,信息化下的深度学习也将成为新的发展趋势。随着深度学习相关理论的完善和我国对该领域研究的不断深入,人工智能领域深度学习的研究和应用势必将达到一个新的高峰。
基金项目
2024年度河北金融学院科研基金项目(项目号:JY202407)。