1. 引言
以大数据、算法和计算能力作为发展支撑的人工智能已经席卷了人类社会,给各个领域都带来了巨大的影响与改变。这些影响涉及人类的经济利益、社会作用和文化生活等方面[1]。机器学习通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。机器学习是人工智能研究的核心问题,是使计算机具有智能的根本途径,同时也是人工智能理论研究和实际应用的主要瓶颈之一[2]。
早期人工智能研究以符号主义为主导,依赖人工规则与逻辑推理(如专家系统),但受限于知识工程的高成本与泛化能力不足。20世纪80年代,统计学习理论(如支持向量机、决策树)的兴起推动机器学习向数据驱动范式转型。2006年后,深度学习的复兴通过多层神经网络自动提取特征,突破了浅层模型的局限,带动了几乎所有机器学习相关的研究。近年来,随着计算能力的提高和各行业数据量的剧增,人工智能取得了快速发展,使得研究者对人工智能的关注度以及社会大众对人工智能的憧憬空前提升[3]。
中国已将人工智能列为战略性新兴产业,人工智能领域机器学习算法研究既是技术演进的必然选择,也是国家战略和产业应用共同作用的结果。当前探索始终围绕数据、算法与算力三大核心要素展开,未来研究将聚焦多模态融合、低资源学习与伦理对齐,推动人工智能向更安全、更智能的方向发展。
2. 研究设计
2.1. 研究数据
本文研究所用数据基于中国知网(CNKI)数据库,通过中国知网数据库中的高级检索功能,研究主题设置为“人工智能”和“机器学习”,检索范围为期刊论文,剔除学位论文、报纸、年鉴等。通过初步文献检索,在知网上能检索到该研究主题的最早期刊论文发表于1986年。为了选择有代表性的期刊论文,将期刊来源类别限定为北大核心期刊、CSCD期刊和CSSCI期刊,能检索到的论文最早发表时间是1992年,故将文献研究时间范围设定为1992年1月1日至2024年12月31日。根据上述设定条件,初步检索出2628篇相关文献。为了提高研究的准确度,对文献进行人工筛选,剔除会议通知、无署名的通讯稿、杂志卷首语、序言、前言、题录、论坛、评述、专题简介、书评及书籍介绍等非学术类文献,最终筛选出2382篇有效文献。
2.2. 研究方法
文献计量分析主要以文献为数据源,包括搜集、整理和分析三大基本过程。本文使用CiteSpace 6.4.R1软件对文献进行可视化分析,CiteSpace 6.4.R1是一款用于科学文献计量分析和知识图谱可视化的工具,由美国德雷赛尔大学陈超美教授基于Java开发,主要用于科学文献数据计量分析、识别和显示科学发展新趋势和新动态[4]。
该软件广泛应用于学术热点识别、科研趋势分析、学科前沿探测、合作网络分析等领域,帮助研究者从海量文献数据中提取关键信息并生成直观的可视化图谱。本文主要采用文献计量和网络分析,通过关键词共现等分析,发现该领域的核心研究主题和热点方向,展示机构之间的合作网络,识别关键贡献者或研究群体。采用知识图谱可视化操作,生成时间线图谱、聚类图谱、突现词图谱等多维度的知识图谱,识别新兴研究趋势或技术突破,直观呈现学术领域的发展脉络、演变趋势及未来方向。
3. 研究结果与分析
3.1. 年发文量分析
期刊文献发表量可以度量该领域的研究热度,划分研究阶段。本文对1992年至2024年人工智能领域机器学习算法研究的期刊文献发文量进行统计分析,相关结果如图1所示。
1992年以来国内有关“人工智能”和“机器学习算法”主题相关期刊文献的发文量经历了两个主要发展阶段:处于低位略有增量–直线式快速增长。
1992~2015年研究处于萌芽期,年发文量处于低位略有增量,年平均发文量从5篇左右缓慢增长到10篇左右,这24年发文量总计161篇,占比6%。这一阶段属于人工智能领域机器学习算法研究的初步探索阶段,研究集中于传统机器学习理论(如支持向量机、贝叶斯网络)、统计学习理论等基础理论及模式识别、专家系统、知识工程、遗传算法、神经网络等核心点[5]。应用场景聚焦中文信息处理、生物信息学、工业控制等领域。尽管国际影响力有限,但这一时期的积累为2016年后中国在深度学习时代的崛起提供了重要跳板。
2016~2024年,年发文量呈直线式快速增长,人工智能领域机器学习算法研究成果实现快速增长,这9年发文量总计2467篇,占比94%。2016年,DeepMind的AlphaGo击败围棋世界冠军李世石,引发全球对AI的广泛关注。该阶段随着算法的逐步优化,深度学习革命带来训练效率提升,开源数据集推动算法迭代,机器学习在计算机视觉、语音识别、自然语言处理等多个领域落地。技术突破、数据与算力的爆发及产业需求驱动使更多学者投入到人工智能领域机器学习算法的研究中,发文数量有了快速的提升。
Figure 1. Distribution of paper publications of machine learning algorithms research in the artificial intelligence field in China (1992~2024)
图1. 中国人工智能领域机器学习算法研究论文的发表时间分布(1992~2024)
3.2. 研究机构分析
针对2382篇文献数据进行文本统计和可视化分析,使用CiteSpace 6.4.R1软件解析科研机构内部发文情况,具体操作如下:时间划分(Time Slicing)设置为1992年1月至2024年12月;时间单位(Years Per Slice)设置为1年;节点类型(Node Types)选择“机构”(Institution);设置Top N为50以提取被引次数排名前50文献,从而生成全面分析网络;其他选项为系统默认,经软件计算分析得到可视化文献2375篇,选择可视化(Visualize)进一步处理得到研究机构分布网络,节点标签Threshold设置为4,结果如图2所示。
在该图中,每个节点代表一个研究机构,节点大小与机构论文产出量成正比。节点之间连线表示机构间合作关系,连线粗细反映这些机构共同发表论文的频次强度。图谱包含2222个节点和2278条连接,网络密度为0.0009。分析合作机构间的连线可以发现,人工智能领域机器学习算法的研究机构之间连线较为稀疏,网络密度较低,考虑到样本总体为2328篇期刊文献,该数据表明,尽管人工智能领域机器学习算法研究的机构众多,但机构间合作密切度较低、合作强度较弱,尚未形成强势合作网络结构。
从图2中可以看出,中国科学院大学在人工智能领域机器学习算法研究的发文量主要来自中国科学院(25篇)、中国科学院自动化研究所(9篇)和中国科学院大学经济与管理学院信息资源管理系(6篇)等研究机构。清华大学的发文量主要来自清华大学计算机科学与技术系(13篇)、清华大学自动化系(6篇)、清华大学地球系统科学系(4篇)及清华大学电子工程系(4篇)等二级研究机构。浙江工商大学的发文量主要来浙江工商大学经济学院(19篇)和浙江工商大学(11篇)。武汉大学的发文量主要来自武汉大学信息管理学院(17篇)和武汉大学信息资源研究中心(6篇)等二级研究机构。进一步对机构合作网络图谱进行分析,可以发现国内人工智能领域机器学习算法研究存在两个主要研究网络。第一个是以中国科学院大学为核心节点,以浙江大学、西安交通大学人工智能与机器人研究所、华东师范大学、复旦大学、青岛智能产业技术研究院等研究机构为分支节点的研究网络。第二个是以清华大学为核心节点,以国家气象中心、哈尔滨工业大学计算机科学与技术学院、北京信息科学与技术国家研究中心、中国人民大学信息学院、中国科学院自动化研究所等为分支节点的研究网络。由此得出这两所研究机构在人工智能领域机器学习算法研究方面的科研能力和学术影响力已达到较高水平,且具备与其他科研单位有效合作的潜力,能够形成有影响力的科研网络。其他机构在一定范围内以自身为核心,形成了小型的、具有一定影响力的科研网络,例如浙江工商大学和武汉大学各二级机构之间产生了稳定的合作关系。但总体来说,中国人工智能领域机器学习算法研究机构之间合作仍显有限,倾向于“小团体”的形式,即同一机构与其二级机构合作较为紧密,不同机构之间合作联系相对较少,学术交流亟待进一步强化与深化。在今后的研究中, 应充分发挥不同机构的设施优势和人才优势, 共同推进该领域的理论和应用研究。
Figure 2. Co-occurrence knowledge map of high-productivity institutions in machine learning algorithms research papers in the artificial intelligence field in China (1992~2024)
图2. 中国人工智能领域机器学习算法研究论文高产机构的共现知识图谱(1992~2024)
4. 研究热点分析
研究热点是特定研究领域内在一个时间区段内受到大量相关论文集中探讨的科学问题,关键词通常是对文章核心内容的高度概括和浓缩表达,其在领域文献中的频率可用于揭示研究热点。因此,通过关键词共现构建的知识图谱可以有效反映该领域的研究热点[6]。
4.1. 关键词共现分析
在软件中,参考构建研究机构合作网络时的参数设置,节点类型选择“关键词”(Node Types),运行分析生成关键词共现网络图,如图3所示。
Figure 3. Co-occurrence knowledge map of keywords in machine learning algorithm research in the artificial intelligence field in China (1992~2024)
图3. 中国人工智能领域机器学习算法研究的关键词共现知识图谱(1992~2024)
在该图中,节点大小表示关键词频次,节点越大,代表该关键词在领域内关注度越高,连线粗细反映共现强度,节点颜色对应首次出现年份。该图谱包含1079个节点以及2209条连线,网络密度为0.0038,表明人工智能领域机器学习算法研究关键词共现关系较为复杂,但整体共现密度相对较低。从图中观察到,1992~2024年间关键词共现频次最高的是“人工智能”(1326),其次是“机器学习”(836)、“深度学习”(311)和“大数据”(138),关键词共现频次排在前20位的还有“神经网络”(46)、“数据驱动”(34)、“知识图谱”(33)、“算法”(32)、“影像组学”(28)、“数据挖掘”(25)、“可解释性”(21)、“智能化”(19)、“强化学习”(18)、“诊断”(17)、“预测模型”(17)、“合理使用”(16)、“专家系统”(15)、“物联网”(14)、“互联网”(14)、“数字经济”(13)等。这些关键词所代表的研究主题构成1992~2024年间中国人工智能领域机器学习算法研究的主体内容,也是该领域知识网络主要路径点。
4.2. 高频关键词分析
在CiteSpace软件中,关键词共现分析的词频和中心性是两个核心指标,分别用于量化关键词的热度及其在网络中的枢纽作用。词频指某一关键词在文献集合中出现的总次数,中心性量化节点在网络中的相对重要性。词频与中心性分析是关键词共现研究的双核心,前者量化热点强度,后者揭示知识流动路径。
Table 1. Top 20 keywords by frequency and their centrality
表1. 词频值前20位的关键词及其中心性
关键词编号 |
关键词 |
词频 |
中心性 |
1 |
人工智能 |
1326 |
0.8 |
2 |
机器学习 |
836 |
0.71 |
3 |
深度学习 |
311 |
0.26 |
4 |
大数据 |
138 |
0.26 |
5 |
神经网络 |
46 |
0.07 |
6 |
数据驱动 |
34 |
0.03 |
7 |
知识图谱 |
33 |
0.05 |
8 |
算法 |
32 |
0.04 |
9 |
影像组学 |
28 |
0.04 |
10 |
数据挖掘 |
25 |
0.03 |
11 |
可解释性 |
21 |
0.02 |
12 |
智能化 |
19 |
0.01 |
13 |
强化学习 |
18 |
0.02 |
14 |
诊断 |
17 |
0.02 |
15 |
预测模型 |
17 |
0.01 |
16 |
合理使用 |
16 |
0.02 |
17 |
专家系统 |
15 |
0.04 |
18 |
物联网 |
14 |
0.01 |
19 |
互联网 |
14 |
0.03 |
20 |
区块链 |
13 |
0.03 |
关键词中心性大于0.1的节点通常为关键枢纽,如表1所示,中心性大于0.1的关键词有人工智能(0.80)、机器学习(0.71)、深度学习(0.26)和大数据(0.26)。
“人工智能”和“机器学习”是人工智能领域机器学习算法研究的核心主题。“人工智能”作为学科目标,定义了智能系统的终极愿景,旨在模拟人类智能的感知、推理与决策能力,算法与数据是人工智能技术发展和应用的两大基础[7]。而“机器学习”是人工智能的技术基石,驱动人工智能从理论到应用的跨越,支撑多模态与通用智能发展。两者的结合不仅推动了算法研究的纵深发展,更重塑了产业形态与社会运行模式。机器学习模型也被广泛地应用到一些重要的现实任务中,如人脸识别、自动驾驶、恶意软件检测和智慧医疗分析等,在某些场景中,机器学习模型的表现甚至超过了人类[8]。
“深度学习”是一种深层的机器学习模型,通过建立和模拟人脑结构,能从低级到高级提取外部的数据,从而对外部数据进行处理、解释[9]。与浅层模型相比,“深度学习”直接把原始观测数据作为输入,通过多层模型进行逐级特征提取与变换,实现更有效的特征表示。“深度学习”在机器学习研究中兼具技术革新者与应用赋能者双重角色,以自动特征提取、复杂任务建模、多模态融合为核心,突破传统机器学习瓶颈。“深度学习”如大模型、自监督学习既是学术研究的前沿方向,也是产业智能化的核心驱动力。
人类进入了万物互联的时代,网络不仅可以收集人的数据,还可以收集机器运行、自然界变化、组织运行等数据[10]。数据成为战略性资源,成为新生产要素,数据的智能性与传统行业融合,可以打造智慧医疗、智慧交通、智慧教育、智慧城市,开启智慧时代[11]。“大数据”为机器学习算法提供了海量、多模态的训练样本,解决了传统算法依赖小样本数据的局限性。大数据的多样性与复杂性倒逼机器学习算法迭代升级,与机器学习形成“数据–算法–算力”三位一体的技术闭环,涵盖文本、图像、语音等多模态信息,为人工智能跨领域任务应用提供了数据基础。“大数据”在机器学习算法研究中的价值不仅在于规模效应,更在于推动多模态融合、实时决策等前沿方向,以实现“数据驱动智能”与“人类价值导向”的协同发展。基于神经网络的大数据分析方法在各应用领域,如语音、图像、医学等大数据分析取得了巨大成功,引领了人工智能的发展[12]。
4.3. 关键词聚类分析
关键词共现分析已识别出中国人工智能领域机器学习算法研究文献中出现频次较高的关键词,并将其视为主要的研究内容,但只根据高频关键词个体无法识别出人工智能领域机器学习算法研究专题及其所涵盖内容[13]。通过聚类分析可以直观呈现该领域内热点研究主题和关键词聚类图谱[14]。在关键词共现知识图谱基础上,选择K标签来源(Keywords Source of Labels)进行聚类分析,运行后进一步处理得到关键词共现聚类图,具体如图4所示。
Figure 4. Co-occurrence clustering diagram of keywords in machine learning algorithm research in the artificial intelligence field in China
图4. 中国人工智能领域机器学习算法研究关键词共现聚类图
通过对2328篇文献中关键词进行聚类最终得到16个有效聚类类别,这反映出人工智能领域机器学习算法的研究专题,同一聚类中词频值最大的关键词共计16个。这16个关键词聚类包括人工智能、机器学习、深度学习、大数据、知识工程、中医药、强化学习等。在显著性方面,该聚类的模块度Q值为0.8569大于0.3,表明该聚类显著。与此同时,平均轮廓S值为0.9789大于0.7,表明该聚类高效[15]。具体聚类专题及高频关键词如表2所示。
Table 2. Composition and clustering topics in machine learning algorithm research in the artificial intelligence field in China
表2. 中国人工智能领域机器学习算法研究的聚类专题及构成
聚类专题名称 |
聚类编号 |
聚类大小 |
轮廓值 |
平均年份 |
聚类高频关键词 |
人工智能 |
0 |
128 |
1 |
2017 |
人工智能、计算机视觉、儿童、影像报告和数据系统 |
机器学习 |
1 |
103 |
0.976 |
2012 |
机器学习、大数据、决策树、路径规划、知识图谱 |
深度学习 |
2 |
50 |
0.991 |
2018 |
深度学习、图像识别、平行智能、对抗学习 |
大数据 |
3 |
49 |
0.957 |
2016 |
大数据、神经网络、智能算法、算法治理 |
知识工程 |
4 |
48 |
0.988 |
2008 |
知识工程、知识获取、知识表示、知识发现 |
中医药 |
5 |
41 |
0.943 |
2015 |
中医药、智能化、可解释性、模式识别、中医诊断 |
合理使用 |
6 |
36 |
0.972 |
2021 |
合理使用、法定许可、大模型、应用场景、数据挖掘 |
诊断 |
7 |
33 |
0.992 |
2021 |
诊断、影像组学、预后、肿瘤、预后预测 |
强化学习 |
8 |
32 |
0.976 |
2015 |
强化学习、区块链、联邦学习、隐私保护、信息安全 |
机器人 |
9 |
31 |
0.979 |
2017 |
机器人、人机交互、数字孪生、伦理问题、伦理治理 |
知识图谱 |
10 |
29 |
0.928 |
2016 |
知识图谱、信息检索、发展趋势、知识服务 |
智能教育 |
11 |
26 |
0.967 |
2020 |
智能教育、管理会计、智能技术、研究方法、文本分析 |
数据驱动 |
12 |
24 |
0.979 |
2017 |
数据驱动、数字技术、知识驱动、数字经济 |
智能制造 |
13 |
14 |
0.974 |
2019 |
智能制造、激光技术、自动化、过程控制 |
算法 |
14 |
13 |
0.972 |
2017 |
算法、出版业、法律规制、风险、自动化行政 |
智能电网 |
15 |
12 |
1 |
2019 |
智能电网、知识经验、引导学习、云计算、智能物联网 |
在CiteSpace生成的关键词聚类表中聚类编号由系统自动生成的标签表示,用于区分不同的聚类。聚类大小(Size)包含的成员数量,用于反映聚类的规模,较大的聚类一般表示研究领域的核心主题。由表2可知中国人工智能领域机器学习算法研究排在前十的核心主题包括人工智能、机器学习、深度学习、大数据、知识工程、中医药、合理使用、诊断、强化学习、机器人。轮廓值(Silhouette)衡量聚类内部成员的一致性和聚类间的区分度,取值范围为[−1, 1],轮廓值大于0.7表明聚类质量高,表中的16个聚类专题轮廓值均接近于1,表明各聚类专题内部紧密且与其他聚类区分明显,聚类的结构分布具有合理性。高频关键词列出了聚类中权重最高的关键词,表明了该聚类专题的主要研究要点。平均年份(Average Year)显示聚类中文献的平均发表年份或关键词首次出现的时间,反映该聚类主题的时间活跃度,帮助识别新兴或衰退趋势。2016年之前主要研究主题是知识工程、知识获取、机器学习、知识图谱并且开始尝试在中医药领域的应用。2016~2020年主要研究主题为大数据、神经网络、人工智能、人机交互、深度学习以及开始研究在智能电网、智能教育、智能制造等领域的应用。2020年以后,开始进行数据挖掘、智能技术、文本分析、大模型应用等方面的研究,探讨使用的合理性及伦理性,并进一步应用于管理会计和疾病、疗效预测预后等。为考察这些研究专题的分布特征、研究热点,根据人工智能领域机器学习算法研究的核心内容,这些聚类专题大致可分为三类,一是基础理论研究,包括人工智能、机器学习、知识工程、知识图谱。二是核心算法研究,包括深度学习、大数据、算法、强化学习、数据驱动。三是应用领域研究,包括中医药、诊断、机器人、智能教育、智能制造、智能电网以及合理使用。
4.4. 关键词共现时区图分析
关键词共现时区图(Time-Zone View)是CiteSpace中将时间维度融入共现分析的可视化图谱,为研究领域的动态演化提供直观视角,用于展示研究领域内关键词的首次出现时间及其随时间演变的共现关系。节点大小反映关键词的累计频次,频次越高表示该关键词在领域内的关注度越持久。时区图横轴代表时间,关键词首次出现的年份分布可揭示研究主题的起源与扩散趋势,节点间连线显示不同年份关键词间的共现关系,表明前期研究对后期主题的延续性影响,运行软件后得到相应的关键词时区图如图5所示。
Figure 5. Temporal co-occurrence diagram of keywords in machine learning algorithm research in the artificial intelligence field in China
图5. 中国人工智能领域机器学习算法研究的关键词共现时区图
根据图5所示,关键词的动态演变呈现两个主要发展阶段,这与前文文献分析所得研究结论一致。第一阶段为1992~2015年,从发文量来看,此阶段标志着国内人工智能领域机器学习算法研究在技术应用的初步探索与基础理论的研究和概念的形成。这一阶段出现的主要关键词是“专家系统”、“遗传算法”、“知识获取”、“模式识别”、“数据挖掘”、“神经网络”、“算法模型”、“强化学习”、“机器人”等基础概念名词。这些关键词属于人工智能领域机器学习研究的基础理论和算法,为研究提供逻辑推理框架和技术基础,并初步尝试场景应用,在后续文献中频繁作为关键词使用,因此在图中节点面积较大。
第二阶段为2016~2024年,从发文量变化趋势来看,这一阶段属于人工智能领域机器学习算法研究直线上升期,研究逐渐细化。2016年左右深度学习和大数据在技术上持续突破并在多个领域成功应用,出现的主要关键词有“联邦学习”、“知识图谱”、“云计算”、“区块链”、“宽度学习”、“可解释性”、“算法偏见”、“信息安全”等,表明深度学习模型优化,推动计算机视觉、语音识别、自然语言处理等领域的突破,学者开始结合具体应用场景开展研究,如“影像组学”、“人机协作”、“智能电网”、“智能教育”、“金融科技”、“决策支持”等。
近几年,研究更加多元化,学者深入挖掘计算机算法与模型,进入大模型与通用智能探索阶段(2020年~2024年)。这一阶段主要关键词“大模型”、“预后预测”、“数字技术”、“可解释性”、“知识驱动”、“数据共享”等表明深度学习、强化学习和大模型技术成为核心方向,学者开始关注该领域研究的“隐私保护”与“伦理问题”。在应用场景上紧密结合产业需求,在“智能时代”、“算法行政”、“智慧医疗”、“新能源”、“自动驾驶”、“AI赋能”、“智能决策”等方面进一步深入研究。可以发现,该阶段发生显著的范式转变,研究重点从理论和算法优化为核心的基础研究逐步转向技术优化、应用落地及合理使用,进入人工智能领域机器学习算法研究新时代。
4.5. 关键词突现分析
关键词突现分析指在特定时间范围内,通过统计关键词在文献中的出现频次随时间的变化,检测其是否在某一时间段内呈现“爆发性增长”(即突现性),根据突现强度衡量关键词突现的显著性,数值越高代表研究关注度越高,根据突现持续时间定位研究热点的生命周期,进而揭示出突现词动态演变趋势,分析研究热点发展与转变。在热点(Burstness)模块中,参数γ值设置为0.6,最小持续时长(Minimum Duration)设置为2,选择更新(Refresh)得到21个突现词,采用“按突现起始年份排序(Sort by the beginning year of burst)”方式,得到相应关键词突现图,如图6所示。
Figure 6. Keyword burst detection diagram in machine learning algorithm research in the artificial intelligence field in China
图6. 中国人工智能领域机器学习算法研究的关键词突现图
从图6可知,在人工智能领域机器学习算法研究中,突现时长排在前列的关键词包括:“专家系统”(1993年~2019年),共历时27年;“模式识别”(1994年~2012年),历时18年;“机器人”(1992年~2005年),研究时长为22年。“专家系统”与“模式识别”是人工智能领域的两大经典技术,分别代表了人工智能“知识驱动”与“数据驱动”两条技术路线,前者为机器学习提供逻辑推理框架和可解释性范式,后者则通过特征学习和自适应优化推动算法性能的跃升。“机器人”不仅是机器学习算法的验证平台与应用出口,更是技术融合与伦理探索的关键节点,其物理交互特性与复杂场景需求,持续推动算法从理论到实践的跨越。
在以上21个突现词当中,“大数据”的突现强度(Strength)显著超过其他20个突现词。“大数据”作为算法训练的必需资源,为机器学习提供了海量、多维度的训练样本,解决了传统算法因数据匮乏导致的模型欠拟合问题,其规模和质量直接决定模型性能上限,通过倒逼算法架构革新,推动技术代际跃迁。未来,随着边缘计算、联邦学习等技术的成熟,大数据将继续作为机器学习发展的核心驱动力,推动AI从“感知智能”向“认知智能”跨越。“大数据”在2018~2019年迅速成为研究热点本质是技术突破、产业需求、政策支持的共振结果,分布式计算释放了数据价值,深度学习放大了数据效用,而商业落地与政策导向则加速了技术扩散。这一阶段标志着机器学习从“模型驱动”向“数据驱动”范式的根本性转变。
从未来发展趋势的视角预测,“预测模型”、“预后”、“预测”、“可解释性”将成为人工智能领域机器学习算法下一阶段的重要研究热点。“预测模型”的研究将围绕精度提升、跨领域泛化能力等核心目标展开,并深度结合技术突破与伦理约束,如智慧医疗领域结合基因测序、影像数据和电子病历,构建疾病风险预测模型等。
在人工智能的辅助下,计算机不但可以实现定量化病理诊断,还可完成疾病“预后”等病理学的相关研究[16]。人工智能已用于探索基于病理图像的细胞学初筛、定量分析、组织病理诊断和“预后判断”、“预后评估”等方面[17]。人工智能帮助解决临床面临的问题,譬如开发预测预后模型评估疾病的严重程度和转归及预测疾病对某种药物的反应等,提高了预测患者预后的准确性,这有益于充分利用现有医疗资源、节省研究成本、推动医疗发展。
在诸多领域,人们借鉴不同的测量模型,探讨现象或事件发生的因果机制,在此基础上进行“预测分析”。机器学习在人力资源管理领域可以对绩效进行预测、预测工作数据、预测离职趋势等使得决策趋于智能化[18]。有监督机器学习方法如深度学习因其算法在预测上的优势,可以提高“经济预测”的精准性,已被广泛地用于解决经济预测问题[19]。人工智能已在中国金融市场上量化应用,机器学习算法可以对沪深两市股票收益率进行预测,形成的交易策略在中国市场能获得显著的超额收益[20]。
“可解释性”是人类与决策模型之间的接口,它既是决策模型的准确代理,又是人类所可以理解的。机器学习模型可解释性相关技术潜在应用非常广泛,具体包括模型验证、模型诊断、辅助分析以及知识发现等。机器学习在许多有意义的任务中胜过人类,但由于缺乏可解释性,其表现和应用也饱受质疑。“可解释性”是人工智能重点突破深度学习的“黑箱”问题,通过可视化工具和数学建模揭示模型决策逻辑。随着AI在司法、招聘等敏感领域的应用,算法偏见、数据隐私泄露等问题引发社会关注,倒逼研究者在算法设计中嵌入公平性验证和可解释性模块。“可解释性”后期研究主要在于消除解释结果与模型真实行为之间的差异以及设计更科学、更统一的可解释性评估指标。
5. 研究结论
本文以中国知网核心数据库中1992~2024年人工智能领域机器学习算法研究的相关文献作为研究对象,运用CiteSpace 6.4.R1软件对合作机构、关键词、突现词等进行可视化分析,构建知识图谱,分析得出以下结论。
(1) 人工智能领域机器学习算法研究在时间上主要经历两个阶段:处于低位略有增量–直线式快速增长。在人工智能领域机器学习算法研究的初步探索阶段,研究集中于传统机器学习理论、统计学习理论等基础研究。2016年之后研究逐渐增多,该阶段随着算法的逐步优化、深度学习革命、开源数据集推动及产业需求驱动使更多学者投入到人工智能领域机器学习算法的研究中,随后研究成果发表数量明显激增,这突显出人工智能领域机器学习算法研究的迅速发展。
(2) 从国内研究来看,不同单位或机构合作关系不太紧密,合作强度较弱,尚未形成强势合作网络结构。存在两个较大的研究合作网络,分别以中国科学院大学和清华大学为核心节点,但该领域内研究更多呈现出“小团体”的合作形式,即同一机构与其二级机构间合作较为紧密,不同机构之间合作联系相对较少。
(3) 通过关键词热点分析,人工智能、机器学习、深度学习、大数据是该领域的研究核心,算法与数据是人工智能技术发展和应用的两大基石。通过聚类分析,发现人工智能领域机器学习算法研究主要聚类于16个研究专题,涵盖基础理论研究、核心算法研究、应用领域研究三大方面。
(4) 通过共现时区图和突现词分析可见,最新的研究热点聚焦于多领域的预测模型、经济金融等应用场景的预测分析、医疗领域预后以及深度学习的可解性研究。大模型、预后预测、数字技术、可解释性、数据共享等成为核心方向,学者开始关注该领域的隐私保护与伦理问题。在应用场景上,算法行政、智慧医疗、自动驾驶、智能决策、AI赋能等方面成为研究热点。研究重点转向技术优化、应用落地及合理使用,进入人工智能领域机器学习算法研究新时代。
根据上述研究结论可得,当前人工智能领域机器学习算法研究学术发文量呈现快速增长的态势,研究机构间协同合作仍需进一步强化。研究方向已逐渐显现,未来的研究热点趋向明确,深度学习和大数据将持续驱动该领域理论与应用的深入发展与创新。可以预见,随着数据–算法–算力三位一体的技术不断优化,接下来的几年里该领域的研究势必达到一个新的高峰,人工智能会以远超人类的速度和力量执行多种类型的体力和智力任务,大大提升运输、制造、医学等各个方面的生产力[21]。