1. 引言
孤独症谱系障碍(Autism Spectrum Disorder, ASD)简称孤独症,是一种脑发育异常综合症,其核心症状表现为社交能力的缺失、语言及非语言交流的不足、刻板或机械的行为及感观上的异常[1] [2]。近年来,ASD发病率呈快速增长的趋势,目前发病率已达2% [3],ASD患者给家庭和社会带来了巨大的挑战,受到多方关注。
已有研究表明,ASD发病受基因和环境因素影响,但具体发病机制至今尚未完全清楚。目前临床对ASD诊断主要基于观察,如依据孤独症诊断观察量表(ADOS)等[4],筛查及诊断易受主观影响,依赖于医生的专业经验,筛查过程耗时长[5]。由于ASD临床表现多种多样,个体间异质性较大,单一的指标往往很难去描述ASD的功能状态,因此需要结合多种数据指标综合分析进行分类诊断。
机器学习(Machine Learning, ML)是利用算法从大量的数据中发现规律,进行特征提取并建立预测模型,继而对未知样本进行预测。机器学习技术具备卓越的数据挖掘、模式识别以及预测分析能力,能够对行为、遗传和生理等多个维度的海量异构数据进行深度剖析。通过复杂的算法和模型,从这些看似繁杂无序的数据中挖掘出具有潜在价值的信息,可以为ASD的早期诊断和精准筛查开辟创新性的技术路径[6]。例如,借助机器学习对孤独症患者的行为数据进行分析,能够构建出更为精准、可靠的早期筛查模型;而对脑影像数据进行特征提取,则有助于深入探究孤独症的神经病理机制,为精确诊断及制定个性化的干预方案提供科学依据[7]。
为了更好地将机器学习的相关研究运用于孤独症的筛查与干预,全面且系统地把握研究现状至关重要。因此,本研究采用CiteSpace对文献数据进行系统的计量分析,以可视化的方式呈现机器学习在ASD领域运用的研究现状,为后续的研究工作提供明确、科学的方向指引。旨在全面、深入地分析国内外在“机器学习–孤独症”领域的研究热点以及未来的发展趋势,为推动国内该领域的学术研究进程和临床实践应用提供合理化的依据。
2. 方法
2.1. 数据来源与纳入标准
2.1.1. 数据来源
本研究选用中国学术网络出版总库(CNKI)期刊全文数据库作为数据来源。
采用高级检索,选择主题检索,以“(孤独症谱系障碍 + 孤独症 + 自闭症) AND (机器学习 + 人工智能)”为检索式,勾选“同义词扩展”,时间范围选择2015-01-01至2025-02-05,来源类别选择“全部期刊”。时间范围设置为2015年至2025年,采集时间为2025年2月。共检索出120篇期刊论文。剔除会议、报刊广告等非研究类文献。为确保数据精确有效,对检索结果进行人工筛选,剔除重复、无关文献后,共获得93篇论文纳入本研究分析。
2.1.2. 纳入标准和排除标准
纳入标准:① 研究内容为机器学习或人工智能技术应用于孤独症谱系障碍领域相关研究;② 文献类型为技术研究、应用研究、临床试验、系统评价、Meta分析和综述。
排除标准:① 文章内容与研究主题相关性差;② 文章类型为会议、图书、报纸、年鉴、专利等。
2.2. 数据提取与分析方法
2位研究人员独立提取数据,初步根据文章标题和摘要进行筛选,二次筛选以纳入、排除标准为依据,如有争议与第3位研究人员讨论决定。提取纳入研究文献的标题、作者、摘要、年份、机构及关键词等信息。
将中国知网检索并筛选后的数据以Refworks格式导出后将文档命名为“download_1.txt”放入中文文献的input文件夹中。
研究工具及参数设置
本研究采用CiteSpace软件进行知识图谱分析。该软件由陈超美博士研发,被广泛应用于分析和探索特定领域研究成果的热点和前沿。通过分析作者、研究机构、关键词等可呈现特定领域的发展现状及发展脉络[8]。
CiteSpace是一款基于Java开发的文献计量与科学知识图谱可视化分析工具,由美国德雷塞尔大学陈超美教授团队开发。通过分析学术文献中的引文网络、关键词共现、作者合作等数据,以动态网络图谱形式揭示学科领域的研究热点、知识结构演化路径及前沿趋势[9]。CiteSpace构建的是时序共现网络,Time Slicing (时间切片)是基础单位,切片越细则趋势变化越清晰,切片太粗则会隐藏突变、演化信息;g-index是基于每个节点(作者、文献、关键词)的“被引数量排序”动态确定的,参数k则是一个线性放大因子,控制每个切片最终保留多少个节点用于建图;Pruning (剪枝策略)中的Pathfinder pruning是一种信息骨架提取算法,去除冗余边,提高可读性与结构清晰度。此研究基于CiteSpace开发者陈超美教授在原始论文中的描述和经验以及纳入的文献量选择相应参数[10]。
CiteSpace参数设置:此研究利用CiteSpace 6.4.R1对纳入文献去重、格式转化并进行年发文量(将CiteSpace自动统计得到的发文量数据复制到Microsoft Excel中绘制折线图)、国家、机构、作者以及关键词共现、聚类、突现、时间线分析,绘制共现图谱以及导出中介中心性、频次、发文量等数据。参数设置:时间起于2015年1月止于2025年12月,时间切片为1,节点类型选择“合作作者”“机构”“国家”“关键词”,g-index参数k = 15,剪枝策略选择pathfinder,其他选项默认。
3. 研究结果分析
3.1. 机器学习在ASD相关研究中年发文数量
本文统计了2015年以来我国机器学习与ASD相关研究的发文数量,如图1所示。从趋势来看,发文数量整体呈现稳定上升的态势,从2015年的2篇增长到2024年的18篇。其中,在2019年和2022年,均呈现爆发式增长。由发文量可知,研究者对人工智能技术赋能ASD的关注程度持续上升,经历了两个激增时期,第一次关注热潮出现在2019年,自教育部2018年4月发布《教育信息化2.0行动计划》后,特殊教育领域也开始关注人工智能时代的特殊教育,如“国际人工智能与教育大会”“特殊儿童教育康复高峰论坛”等会议,专门设置了利用AI为ASD儿童提供个性化与自适应学习干预方案的报告。随后,人工智能技术赋能自闭症儿童领域持续发展,相关的政策支持与学术交流都比较活跃。总体而言,国内虽然起步稍晚,但近年来发文数量增长迅速,且研究质量不断提升,为全球ASD诊断和干预提供不同的视角。
Figure 1. Line chart of the number of posts
图1. 发文数量折线图
3.2. 研究机构合作网络图谱分析
Figure 2. Co-occurrence of institutions in CNKI
图2. 知网中机构共现图谱
科研机构的共现分析可以直观表现出研究机构的合作情况。以机构为节点类型,得到机构共现图谱(见图2)。每个节点代表一个机构,节点的大小与机构发文量成正比,节点间的连线代表机构间的合作关系,连线的粗细代表机构间合作的密度,连线越粗,表示机构间合作越密切。年轮代表机构发表论文的历史,年轮的颜色代表相应的发文时间[11]。分析发现(如表1)国内机构年发文量由多至少依次为深圳大学、北京师范大学、华中师范大学等,表明国内在“机器学习与孤独症”领域研究日益受到重视,但总体而言,机构彼此间缺乏跨群体合作。
Table 1. Distribution of the Top 10 institutions in machine learning and ASD
表1. 机器学习与ASD领域排名前10机构分布
序号 |
国内机构 |
频率 |
中介中心性 |
1 |
深圳大学 |
5 |
0.00 |
2 |
北京师范大学认知神经科学与学习国家重点实验室 |
3 |
0.00 |
3 |
华中师范大学教育学院 |
3 |
0.00 |
4 |
北京邮电大学 |
2 |
0.00 |
5 |
华东师范大学言语听觉科学教育部重点实验室 |
2 |
0.00 |
6 |
重庆医科大学 |
2 |
0.00 |
7 |
中国科学院大学心理系 |
2 |
0.00 |
8 |
河北大学 |
2 |
0.00 |
9 |
华东师范大学 |
2 |
0.00 |
10 |
燕山大学 |
2 |
0.00 |
3.3. 论文作者合作网络图谱分析
作者合作网络图谱可以直观展现作者合作发文的状况。图3作者共现的可视化图谱中共有73个节点,连线有54条;由此可知,国内作者合作程度较低,如表2,其中发文频次最高的作者是李睿强,主要通过机器人参与的教学情境教学,探讨了人形机器人对孤独症儿童社会交往能力、专注力以及行为能力的改善情况[12];同时,基于研究结果,研究者开发了基于人形机器人技术,针对孤独症儿童社会交往障碍的结构化康复课程[13]。
Table 2. Top 10 authors in the field of machine learning and ASD research in China
表2. 国内机器学习与ASD研究领域排名前10作者
排序 |
年份 |
频率 |
中心性 |
Year |
Authors |
1 |
2017 |
3 |
0 |
2016 |
李睿强 |
2 |
2019 |
2 |
0 |
2016 |
陈东帆 |
3 |
2020 |
2 |
0 |
2023 |
黄敏 |
4 |
2021 |
2 |
0 |
2023 |
周刚 |
5 |
2021 |
2 |
0 |
2021 |
靳亚娟 |
6 |
2021 |
2 |
0 |
2020 |
韩晓雅 |
7 |
2015 |
2 |
0 |
2021 |
周琪 |
8 |
2021 |
2 |
0 |
2016 |
于新宇 |
9 |
2021 |
2 |
0 |
2021 |
万灵燕 |
10 |
2015 |
2 |
0 |
2020 |
康健楠 |
Figure 3. Co-occurrence map of domestic authors
图3. 国内作者共现图谱
3.4. 研究热点分析
3.4.1. 关键词共现图谱分析
关键词是对文献主题的高度概括,高频关键词可以反映出特定领域研究者们的研究热点。本研究以关键词为节点类型,得到关键词共线图谱(见图4) [14]。中文文献中频次排到前十的关键词有(如表3):“机器人”“深度学习”“眼动追踪”“人机交互”“儿童”“诊断”。进一步分析文献可知,国内运用机器学习对ASD的研究主要集中于筛查与诊断,例如运用行为、基因、脑电、眼动和核磁共振成像等多模态数据融合,进行ASD的诊断。也有研究者借助人工智能技术,研发了一套基于卡通游戏的ASD儿童干预系统[15]。还有研究者采用小程序,根据自闭症教师、助教、家长三种身份进行需求分析,实现了针对自闭症个训课堂的辅助教学[16]。
3.4.2. 关键词聚类分析
在关键词共现分析的基础上进一步进行聚类分析(见图5)。结果为Q值等于0.65,S值为0.84,聚类数量为6。Q值为聚类模块值,0.3以上表明聚类得到的结构显著;S值为聚类平均轮廓值,S值在0.7以上表明聚类令人信服。本研究中得到的Q值和S值均超过阈值,说明生成的聚类图谱符合要求。分析得出6个聚类分别为“深度学习”“人工智能”“机器人”“自闭症”“儿童”“分类”“人机交互”。结合表4,可以发现,大部分热点关键词和聚类名称一致。
Figure 4. Co-occurrence of keywords in domestic research hotspots
图4. 国内研究热点关键词共现图谱
Table 3. Ranking of high-frequency, high-centrality keywords (Top 20)
表3. 高频次、高中心性关键词排序(前二十位)
序号 |
国内关键词 |
频率 |
起始年份 |
中介中心性 |
1 |
机器学习 |
29 |
2017 |
0.35 |
2 |
人工智能 |
19 |
2013 |
0.42 |
3 |
孤独症 |
16 |
2013 |
0.58 |
4 |
机器人 |
15 |
2015 |
0.40 |
5 |
自闭症 |
13 |
2015 |
0.40 |
6 |
深度学习 |
7 |
2022 |
0.04 |
7 |
眼动追踪 |
7 |
2022 |
0.18 |
8 |
人机交互 |
5 |
2019 |
0.17 |
9 |
儿童 |
5 |
2021 |
0.19 |
10 |
诊断 |
4 |
2022 |
0.05 |
Figure 5. Keyword clustering of domestic research
图5. 国内研究关键词聚类
Table 4. Key keywords in each cluster of Chinese literature
表4. 中文文献各聚类中的主要关键词列表
序号 |
聚类名称 |
Size |
S值 |
主要关键词 |
0 |
深度学习 |
15 |
0.745 |
机器学习、深度学习、自闭症谱系障碍、人工智能、功能磁共振成像|孤独症谱系障碍 |
1 |
人工智能 |
14 |
0.865 |
人工智能、孤独症谱系障碍、育人策略、可视化分析、设计需求|特殊教育 |
2 |
机器人 |
14 |
0.776 |
图形化编程、执行功能、brief2量表、课程模式、孤独症患儿|课程模式 |
3 |
自闭症 |
14 |
0.847 |
人工智能、社交能力、社交机器人、综述文献、自闭症谱系障碍|专家系统 |
4 |
儿童 |
12 |
0.987 |
机器学习、孤独症谱系障碍、眼动追踪、正常儿童、纵向随访|精神卫生 |
5 |
分类 |
11 |
0.806 |
机器学习、头部运动、社交互动、刻板重复、面孔加工|功能磁共振成像 |
6 |
人机交互 |
8 |
0.854 |
人机交互、认知训练、孤独症康复、情感计算、教育评估|诊断评估 |
进一步分析文献,聚类“#0深度学习”中,主要关键词包含“自闭症谱系障碍”“人工智能”“功能磁共振成像|孤独症谱系障碍”等,研究者们较为集中地开展了机器学习在ASD领域的相关研究,如通过静息态功能磁共振成像量化评估ASD患者异常脑皮质功能的改变[17],以及通过建立ASD儿童情绪训练数据集,构建优化模型,并在不同模型间进行情绪智能感知的对比实验[18]等等。聚类“#1人工智能”中,研究主要关注育人策略、可视化分析、设计需求、特殊教育[19] [20]的研究。聚类“#2机器人”反映了研究者们将ASD研究与机器人技术相结合,如探究社交机器人对孤独症儿童社会性发展干预的有效性及其影响因素,将社交机器人运用于ASD儿童社交互动中,例如化身辅助干预(avatar-assisted intervention, AAI),采用了机器人、沉浸式环境创设等信息和通信技术对社交过程中的语言和非语言活动进行模拟,针对ASD开展干预[21]-[26]。但总体而言,国内研究多运用机器学习技术对ASD患者进行筛查、识别和分类[27],对孤独症障碍干预的研究较少。
4. 结论
研究表明,国内人工智能赋能ASD诊疗上有一定的研究成果,但仍有很大的发展空间。目前,基于机器学习的ASD儿童诊断技术已成为当前研究热点,后续研究可进一步采用深度学习等技术,融合多模态特征推动ASD的识别与筛查,另外,可进一步结合人工智能技术开发适用于ASD儿童训练的干预方案或产品,实现ASD的早发现、早干预,为临床实践提供更具普适性的解决方案。
5. 研究不足
本研究基于CiteSpace对CNKI数据库中2015~2025年间机器学习应用于孤独症谱系障碍(ASD)研究的相关文献进行了系统分析,揭示了该领域的研究热点、发展趋势与合作网络。然而,本研究也存在一定的局限性,主要体现在数据来源的单一性与样本量的有限性,可能对研究结果的代表性与普适性造成一定影响。
首先,本研究的数据来源仅限定于中国知网(CNKI)数据库,未纳入Web of Science、PubMed、IEEE Xplore等其他国际主流数据库中的相关文献。由于不同数据库在文献收录范围、语种偏好、学科覆盖等方面存在差异,仅依赖单一数据库可能导致文献样本的代表性不足,尤其可能遗漏国际上关于ASD与机器学习的跨文化研究、多中心临床试验等重要成果。因此,本文所呈现的研究热点与趋势,更多反映的是国内研究现状,其结论在全球范围内的适用性仍需进一步验证。
其次,本研究最终纳入分析的文献样本量为93篇,虽然符合文献计量学的基本要求,但在数量上仍属于小样本范畴。样本量较小可能导致关键词共现、作者合作网络等分析结果的稳定性不足,部分研究热点或新兴方向可能未被充分识别。此外,样本量有限也可能影响聚类分析的信度,如Q值与S值虽符合阈值要求,但聚类结构的解释力仍需谨慎对待。
未来的研究可进一步拓展数据来源,整合多语种、多数据库资源,并扩大样本规模,以提高研究的全面性与代表性。同时,结合质性分析方法,深入探讨机器学习在ASD诊疗中的实际应用效果与临床转化路径,将有助于更系统地把握该领域的发展脉络与研究前沿。
基金项目
项目支持:湖北省教育厅科学研究计划指导性项目·基于深度学习的ASD儿童亚型分类及其情绪面孔加工的机制研究(项目编号:B2023257)。
NOTES
*通讯作者。