科技文献智能分析:AI助力的科研新范式
Intelligent Analysis of Scientific Literature: A Novel AI Driven Research Framework
摘要: 本文提出了一种新的科研新范式,科技文献智能分析。通过对比传统文献分析方法,强调了科技文献智能分析在提升研究效率和深度方面的显著优势。文章详细阐述了科技文献智能分析的概念及其在科研方面的巨大作用,并展望了自然语言处理、机器学习等技术在实现科技文献智能分析方面的理论依据,设计了概念验证系统,并对部分核心功能,利用一些随机论文数据进行了测试与分析。科技文献智能分析有望成为科研人员们不可或缺的研究工具,推动科学研究迈向新的高度。
Abstract: This paper introduces a novel research framework, “Intelligent Analysis of Scientific Literature”, for bibliometric analysis. By comparing it with traditional bibliometric analysis methods, the paper highlights the significant advantages of Intelligent Analysis of Scientific Literature in improving research efficiency and depth. The concept of Intelligent Analysis of Scientific Literature and its profound impact on scientific research are elaborated. The theoretical foundation, including natural language processing and machine learning, for realizing Intelligent Analysis of Scientific Literature is outlined. A proof-of-concept system is designed, and some core functions are tested with some random journal paper data, with results demonstrated and analyzed. “Intelligent Analysis of Scientific Literature” is expected to become an indispensable research tool for researchers, propelling scientific research to new heights.
文章引用:黄晓晔, 吴琰. 科技文献智能分析:AI助力的科研新范式[J]. 计算机科学与应用, 2024, 14(12): 222-235. https://doi.org/10.12677/csa.2024.1412257

1. 引言

科技文献分析,作为一种从海量文献中提取有价值信息、透视与洞察研究趋势、辅助科研决策的重要手段,其发展与信息技术的发展息息相关。传统时期,主要依靠人工阅读、手工整理和简单的统计分析。其效率低下,且易受主观因素影响。进入计算机辅助阶段,随着计算机的普及,出现了各种文献管理工具,如EndNote、Zotero等[1],辅助研究者进行文献的收集、整理和标注。之后进入数据挖掘时期,数据挖掘技术的引入,使得对文献进行更深入的挖掘成为可能。研究者开始利用聚类、分类、关联规则等技术开发出了CiteSpace,VOSviewer,Bibliometrix和SciMAT等工具[2],从文献中提取隐含的知识。随着人工智能的兴起,我们逐渐进入了人工智能时代,尤其是在大数据和自然语言处理领域的进步,科技文献分析进入了新的阶段。机器学习、深度学习等技术被广泛应用于文献摘要、情绪分析、主题建模等任务,会极大地提高分析的效率和准确性。有基于此,本文提出一种全新的用于科技文献分析的科技文献智能分析(Intelligent Insights),并设计了相应的概念验证(Proof of Concept)系统。

2. 科技文献计量分析软件的特点与不足

2.1. 科技文献计量分析软件功能及特点

现有的文献计量分析工具[2] CiteSpace,VOSviewer,Bibliometrix和SciMAT,旨在帮助研究人员深入挖掘庞大的科学文献数据库,揭示其中的复杂关系。其核心功能是可视化共被引网络,通过这种直观的方式,研究人员可以清晰地观察到不同研究领域之间的关联、知识的演化路径,以及关键作者、论文和主题的分布。通过生成的共引网络,不仅呈现了静态的知识图谱,更提供了部分交互式的功能。研究人员可以深入研究感兴趣的共引论文,了解不同领域里的研究前沿发展状况。这种功能对于进行全面的文献综述、识别领域内的关键主题和影响力作品具有一定价值。通过对特定研究主题的引文活动进行分析,可以识别出新兴的研究趋势,帮助研究人员提前洞察未来的研究方向。这些计量软件还可以通过分析引文时间发展,追踪文献的变化和发展趋势,从而更深入地理解某个研究领域的知识演化过程。另外,软件还可以检测并可视化作者之间的合作关系,从而了解不同研究团队之间的协作模式,以及合作对研究产出和创新产生的影响。此外,软件可以追踪关键词的突现,对文献中的主题进行深入分析,通过追踪关键词的频率和变化,识别出新兴的研究领域。

这些分析软件能够帮助研究人员及时把握最新的研究动态,为研究人员提供了一个多元的工具箱,帮助他们更好地理解科学知识的产生、传播和演化过程。通过可视化、互动式和预测性的分析功能,研究人员可以在当前的学术环境中定位自己的研究。

2.2. 现有科技文献计量分析软件的不足

在当今的人工智能迅速发展并广泛应用的时代背景下,现有科学文献分析软件在以下方面凸显了一些功能上的缺失。具体表现如下,如缺乏实时数据集成,现有软件通常要求用户手动导入规定格式的论文数据,无法导入全文文件,无法实现与文献数据库的实时连接,这大大降低了效率;无机器学习能力,现有软件的分析结果往往是静态的,不能随着新文献的不断涌现而自动更新;缺乏上下文分析,现有软件对文献的分析大多停留在关键词和摘要层面,无法深入理解文献之间的关系和引用语境;自然语言处理功能薄弱,分析软件过分依赖文章摘要及引用文献,无法从海量文本中提取出更有价值的信息。另外,因为缺乏自然语言处理功能,分析软件无法对文献中的主观情感进行分析,无法理解作者对研究成果的态度和观点。面对当今的信息爆炸,科技文献呈现出指数级的增长。世界范围内科研成果生成的海量数据要求我们不能再停留在现有软件的可视化功能上,而是要深入理解文献的数据及内容。显然,传统的检索,导出方式,以及计量分析软件已不足以满足科研人员的需求。

2.3. 什么是“科技文献智能分析”

传统意义上讲,研究人员往往通过文献梳理,包括手动收集梳理,或利用文献计量分析工具对收集到的一定格式的数据进行处理,完成此类工作。我们提出的科技文献智能分析是指利用人工智能技术,对海量的非结构化的科技文献数据进行深度挖掘、分析和理解,从而快速、准确地获取关键信息,发现潜在的知识关联,从而帮助研究人员、工程师等快速获取所需信息,推动科研创新。科技文献正文中蕴含着丰富的隐含知识和潜在价值,科技文献的科技文献智能分析也代表了一种研究范式的转变。从手工处理,在计量分析软件中导入数据产生可视化,转向从复杂数据集(无结构化数据)中提取更深层次的可利用的知识信息。这样的系统,融合了人工智能,自然语言处理,机器学习(Machine Learning),数据分析,可视化和认知推理技术。可以解锁文献中更深层次的信息,预测未来科研发展趋势,从而推动科研的迅速发展。科技文献智能分析系统还科研利用机器学习功能,对本地数据模型进行训练并自动更新迭代,从而为研究人员决策提供前瞻性的指导。该系统也有望更好地实现跨学科,跨专业的协作与互补,并提高科研预测能力。

3. 科技文献智能分析系统及其实现

3.1. 科技文献智能分析系统概述

Figure 1. The collection of functions of intelligent insights proof-of-concept system

1. 科技文献智能分析的概念验证系统功能集合

基于前述思路,我们设计了一个科技文献智能分析的概念验证(Proof of Concept)系统,该系统的功能集如图1所示。

首先,支持非结构化数据的实时收集与输入,是科技文献智能分析系统区别于传统的文献定量分析工具的一个显着差别。传统软件往往依赖于预先定义好的结构化数据,要求输入数据具有明确的格式和标签。然而,现实世界中存在大量非结构化的文本数据,如学术论文往往是各种格式的文件数据,如Word,PDF,或者是HTML文档。科技文献智能分析系统可以支持这些文档,而无需用户的转换或导出。

如前所述,传统的定量分析软件通常只能提供文献的引用频次、发表年份等客观信息,无法对文本内容进行深入的语义分析。因此,它无法准确地判断作者对研究成果的态度。传统的文献分析软件由于缺乏语义理解,对文本的理解能力有限,无法准确识别文本中的关键信息,也无法为用户提供关键文章的概况。同时也无法提供完全灵活的定制可视化展示。

图1可见,科技文献智能分析系统通过概念提取和命名体识别,自动发现文献中的隐含主题,并对文献进行分类。通过分析不同时期的主题分布,可以了解研究领域的热点变化和发展趋势。完全用户定制的可视化功能可以灵活地运用最新Python调用函数库生成用词云、主题地图等可视化,直观展示主题分布和演化过程。基于系统的意见挖掘(也称为情感分析)的功能,系统可以分析文献中的观点,判断作者对研究成果的态度是支持、反对还是中立。可以对观点进行情感极性分析,判断观点是积极、消极还是中性。从而可以为用户推荐相关的优质文献,推荐最新的研究成果。也可以根据文献的内容相似性,推荐与目标文献相似的文献。借助于概况提取功能,系统可以根据用户需求,提取出原文中相关精彩段落,节省用户阅读原文的时间,同时也获得远远高于摘要数量和质量的有价值段落。基于生成式AI的智能问答,用户通过提问的方式,从训练过的大数据模型中获取特定领域的知识,例如“谁是该领域的权威学者?”、“哪些机构在该领域的研究最为活跃?”、“该文章的主要贡献在何处?”等等。

与上述科技文献智能分析的功能集相比,现有软件在功能上的缺失就显而易见了,表1对两者的功能集进行了对比。

Table 1. Comparison of features between traditional tools and intelligent Insights system

1. 传统文献定量分析工具与科技文献智能分析技术的功能对比

功能分类

传统文献计量分析工具

科技文献智能分析系统

主题网络生成

支持

支持

作者网络生成

支持

支持

共引文献网络生成

支持

支持

演变时间线生成

支持

支持

突现检测

支持

支持

非结构化数据

不支持

支持

基于全文的命名体识别

不支持

支持

基于全文的概念提取

不支持

支持

基于全文的文本分类

不支持

支持

基于全文的意见挖掘

不支持

支持

基于全文的文本概况

不支持

支持

智能问答

不支持

支持

可视化的客户化定制

部分支持

支持

3.2. 科技文献智能分析的实现方法概述

应用于科技文献的科技文献智能分析系统是一个包括数据采集、自然语言处理NLP (Natural Language Processing)、图表报告生成和可视化展现为一体的综合智能系统。通过将文本数据从各种来源收集而来,经过一系列的处理和分析,最终生成可读性强、信息丰富的报告。图2中,我们展示了这一面向未来的科技文献智能分析系统概念验证结构框图。

Figure 2. Architecture diagram of the intelligent insights proof-of-concept system

2. 科技文献智能分析概念验证系统结构框图

用户输入,数据采集与预处理模块是系统的基础,也是输入模块。这一模块负责从多种渠道(如用户上载文献,网络、文献库实时下载等)中导入非结构化的文本数据如pdf,word,txt,html等文件,并进行数据的清洗、去噪、分词等预处理,为后续的分析提供高质量的数据。

系统的大语言模型接口,LLM API (Large Language Model API),为用户提供了快速接入最先进大语言模型[3] (如GPT-4、Google Bard、Meta LLaMA等)的手段,以便实现人机对话。LLM应用接口具有高度的灵活性,可以根据不同应用场景,定制模型的输出风格、内容范围以及交互方式,开发出定制化的智能问答。

NLP模块处于科技文献智能分析系统的中心,包括数据挖掘引擎(Text Mining Engine),机器学习与模型训练,和内部模型子模块。NLP模块在预处理的基础上,从文本中提取出有价值的特征,如关键词、词频、情感倾向等,这些特征将作为机器学习与模型训练的输入,以构建和训练内部模型。这个内部模型不同于来源于外部的LLM,它是整个科技文献智能分析系统的基础,利用提取出的特征,构建并训练基于深度学习的内部模型,如分类模型、聚类模型、生成模型等。在不断迭代训练的内部模型基础上,用户可以提取命名实体,概念,进行分类,并可以对长文本进行压缩,生成精炼的核心信息概况。关于这些科技文献智能分析系统的核心功能,我们在下一章节中进行详细讨论。

系统的报告生成和可视化模块,将分析结果以简洁可视化的方式呈现给用户,比如以图、表格、文本概况等形式展现出来,生成结构清晰、内容丰富的报告。

总体来说,科技文献智能分析系统是一个高度集成化的系统,各个模块之间相互依赖、相互促进。从数据采集到报告生成,整个过程是一个连续的知识处理智能加工的流程。通过这样的系统,我们可以更深入地挖掘文献内部蕴含的价值,为科研决策提供支持。

4. 科技文献智能分析的关键功能及其实现

实现科技文献智能分析系统,必须集成多个交叉学科领域的研究成果,包括计算机科学、人工智能、自然语言处理、数据挖掘等。其理论基础主要来源于以下几个学科方面:知识图谱,数据挖掘,自然语言处理,和机器学习。其中的知识图谱,和基于统计结果的数据挖掘,已经在现有的方法中得到了广泛的应用,这里不再赘述。而表1中关于现有软件工具在功能上的缺失,如何在技术上去解决?从理论上讲,这些问题都是可以从自然语言处理NLP技术中找到答案[4]。我们在下面的章节中进行讨论,并利用我们的概念验证系统,给出实际应用与演示结果。

4.1. 科技文献智能分析的命名实体识别

4.1.1. 命名实体识别理论基础

科技文献智能分析中的命名实体识别[5] (Named Entity Recognition, NER)是NLP中的子任务,其目标是识别文本中具有特定意义的实体,并将其归类到预定义的类别中,如人名、地名、组织机构名等。在科技文献智能分析的应用中,NER起着至关重要的作用,它为后续的文本分析、信息抽取、知识图谱构建等任务提供了基础。NER的理论基础主要来源于以下几个方面统计学与概率模型,其NER本质上是通过计算一个词属于某个命名实体的概率来进行分类。常用的概率模型包括隐马尔可夫模型(HMM)、条件随机场(CRF)等。将文本特征转化为模型可处理的数值特征,如词性、词频、上下文等。NER通常采用监督学习的方式,即通过标注好的训练数据来训练模型。而一些分类算法,如支持向量机(SVM)、决策树、随机森林等传统机器学习算法在NER任务中得到了广泛应用。

4.1.2. 命名体识别功能实验与结果

我们在概念验证系统中,输入了一篇Journal of Intelligent Learning Systems and Applications新近发表的文章[6]进行命名体识别的照片,上载了该文章的PDF格式文件“jilsa2024164_59601667.pdf”,系统提取了表1所示的命名实体。这些信息不是像创痛软件那样,从用户导入的固定格式文件中获得,而是从类似于pdf文件这种非结构化文本中得到的。表2中包括了地理位置,人名,和组织机构的名称等。该论文中共检测出了组织机构名称13个,人名28,地理位置5个。因篇幅关系,不能罗列所有的信息,表3中给出了地理位置,而在图3中给出了检测到的组织机构的分布柱状图。

Table2. Named entity recognition result

2. 命名体识别结果

命名体

数量

组织名称

13

人名

28

地理位置

5

Table 3. Named entity recognition for geographical locations

3. 命名体地理位置检测结果

信心值

相关性

Madina

56.87%

48.15%

Saudi Arabia

92.56%

48.10%

Los Angeles, California

51.03%

19.04%

New Orleans, Louisiana

88.38%

17.44%

Asia

62.17%

16.66%

Figure 3. Named entity recognition demonstration and experimental results

3. 命名实体识别组织机构演示与实验结果

由上可见,此概念验证系统可以提取随机下载的文本中的相关实名体。而无传统软件必须要按照一定格式来导入相关数据(如摘要和引用文献),从而提取出相关信息如研究主题等。

4.2. 科技文献智能分析中的概念提取

4.2.1. 概念提取的理论基础

概念提取[7],是NLP中的一个重要分支,这不同于命名实体识别,旨在从文本中自动识别和提取出具有明确含义的概念。这些概念可以是人、物、组织,事件,和属性,或者更抽象的概念。概念提取为信息抽取、知识图谱构建、文本分类等众多NLP任务提供了基础。其应用的理论基础为语言学理论,统计学,和机器学习。概念提取根植于语言学理论,特别是语义学。通过分析词语的语义角色、语义关系以及上下文信息,可以识别出文本中的概念。统计学方法也为概念提取提供了强大的工具。例如,通过词频统计、共现分析等方法可以发现潜在的概念。机器学习算法,尤其是深度学习模型,在概念提取中发挥着越来越重要的作用。通过训练大量的标注数据,模型能够自动学习到复杂的特征表示,从而准确地识别概念。

4.2.2. 概念提取的功能实验与结果

我们随机选用开放获取文献中的期刊“Open Journal of Social Sciences”一篇文章,“Investigating the Impact of Conflict Management Approaches on Organizational Productivity in Healthcare Settings: A Qualitative Exploration”[8]作为实例,采用我们的科技文献智能分析系统提取概念,输入下载文件jss20241211_231769282.pdf。测试结果如图4所示。值得注意的是,文章中间提取的概念,已不仅仅局限于文章的摘要,标题,或关键词内的信息,而是对论文中全文的内容,进行了分析和处理。系统测试结果给出了分别排名前十位的复杂概念和简单概念,输出了如图4所示的词云图。系统中可以根据选择不同的语言和字体,和不同的Mask图像,而生成不同式样的词云图。该图选用了球形的Mask作为掩图,以及ERNHC.TTF字体,生成了较好的视觉效果。系统也可以输出详细的概念提取结果,采用柱状热度图的形式,展示在图5中。

Figure 4. Concept extraction word cloud graph

4. 概念提取测试词云图

Figure 5. Concept extraction word frequency graph

5. 概念提取测试词频图

4.3. 科技文献智能分析中的文本分类

4.3.1. 文本分类的理论基础

科技文献智能分析中的文本分类,可以根据文献内容,将其划分为不同的类别,如根据研究方向、主题等来进行划分。如前所述,通过NLP技术,我们可以对任何形式的文本进行分析和分类,而不再局限于结构化数据。经过文本预处理,特征提取,也就是通过词袋模型、TF-IDF、Word Embedding [9]等技术,将文本转化为数值特征向量,以便机器学习模型进行处理。之后利用分类模型采用机器学习算法,如朴素贝叶斯、支持向量机、深度学习模型(如RNN、CNN)等,对文本进行分类。NLP文本分类的优势在于,大大提高了分类效率,减少了人工干预。而通过训练大量的标注数据,或现有数据模型,可以达到很高的分类准确率。它可以对各种类型的文本进行分类,适应性强。而且随着模型的不断训练迭代,分类效果可以不断提升。

4.3.2. 文本分类的实验及结果

一般而言,科技文献智能分析系统中的专用本地模型,能够对非结构化数据进行精确分类。但是,这样的专用模型需要进行大量的机器训练,从而提高分类的精确度。因时间和篇幅原因,我们采用了快捷模式的简化机器训练过程。在测试中,我们选取了Hans (汉斯)出版社“材料科学”,“社会学前沿”,“统计学与应用”,以及“计算机科学与应用”四种期刊里的随机下载文章进行了测试,测试语料库中详细的文件分布如表4所示。

Table 4. Training corpus documents distribution

4. 训练语料库文本主题及分布

期刊名称

论文数量

文本大小

材料科学

17

38,119,464

社会科学前沿

19

11,375,037

统计学与应用

29

74,913,303

计算机科学与应用

29

88,378,902

在对系统机器学习后,我们又选用了另外的部分文件进行了基准校对,文件列表如表5所示。

Table 5. Journal paper file list for benchmarking

5. 用于基准校对的文件列表

文件名

所属杂志

文件大小

ms20241000000_85110778.pdf

材料科学

745,644

ms20241410_101281771.pdf

材料科学

3,801,839

ms20241410_111281763.pdf

材料科学

2,963,651

sa2024135_192581414.pdf

统计学与应用

2,365,446

sa2024135_202581421.pdf

统计学与应用

3,978,672

sa2024135_212581436.pdf

统计学与应用

438,700

ass20241311_392397511.pdf

社会科学前沿

448,676

ass20241311_402397901.pdf

社会科学前沿

533,220

ass20241311_412397940.pdf

社会科学前沿

461,201

ms20240200000_45453600.pdf

计算机科学与应用

5,023,856

ms20240200000_49175675.pdf

计算机科学与应用

998,072

ms20240200000_71545278.pdf

计算机科学与应用

7,702,578

本地模型的基准校对的结果由如下指标来衡量,精确率(Precision)衡量模型对正类预测的准确性、召回率(Recall)衡量模型识别所有相关实例的能力,而F Score (F1分数)是精确率和召回率的调和平均数。词静音(Silence)是指模型在做基准校验时,无法对一个文本进行归类Silence = 1 − Precision。词噪(Noise)指模型在处理文本时遇到的干扰信息,而导致文本被错误的归类,Noise = 1 − Recall。测试的结果如图6所示。可以看见科技文献智能分析概念验证系统在性能上,即使是基于一个小型的语料集,也可以达到一定的精度(~90%)。实际操作过程中,如果要想达到更高的精度和召回率。必须扩展语料库,迭代进行机器学习。

Figure 6. Text classification benchmarking result

6. 文本分类模型校验测试结果

4.4. 科技文献智能分析中的意见挖掘

4.4.1. 意见挖掘的理论基础

意见挖掘,也称为情绪分析(Sentiment Analysis) [10],旨在分析文本中所表达的情感、观点、态度等主观信息。对于学术文献来说,情绪分析可以帮助我们了解作者对于研究成果的评价,是积极的肯定,还是消极的批判,从而更深入地理解其学术观点。情绪分析技术通过对文本进行深入的语义理解,可以弥补传统方法的不足。它可以:比如,可以识别情感极性:判断文本表达的是积极情感、消极情感还是中性情感,定位情感词可以找出表达情感的关键词,如“好”、“坏”、“优秀”、“糟糕”等。分析情感强度能够评估情感的强度,例如“非常满意”、“一般”、“很不满意”。理解情感原因:分析文本中表达情感的原因,从而更深入地了解作者的观点。情绪分析的理论基础来源于统计学,通过计算文本属于不同情感类别的概率来进行分类。常用的统计模型包括朴素贝叶斯、支持向量机判别模型等。机器学习提供了大量的算法和模型,用于从数据中学习规律,并应用于新的数据。例如,可以训练一个分类器,将文本特征映射到情感标签。深度学习,尤其是基于神经网络的模型,在情绪分析任务中取得了显着的成果。循环神经网络(RNN)、卷积神经网络(CNN)、Transformer等模型能够自动从文本中提取高层次的特征,从而提高情感分类的准确性。

4.4.2. 意见挖掘的实验及结果

关于意见挖掘的测试我们可以在科技文献智能分析系统中输入两段文字:

1. [约翰·麦克]对[1991]进行了透彻而深刻的分析,满意地概括了现有问题,给出了合理的建议……

2. [Victor King]对[2]的评价过于笼统,缺乏对研究细节的深入分析……

在传统文献计量软件中,只要两篇文献都在参考文献内,它们都会被纳入到共引文献的计算中,占据同样的权重。但是实际情况并非如此。不是所有的引用的文章都对作者的研究起到积极作用。某些时候,部分作者试图通过引用一些非前沿的文献,从而显现自己研究的独特性和创新性,通过科技文献智能分析,我们可以予以甄别。此例中第二种情况,其实属于偏负面的评价,对作者和论文读者的意义都很一般。通过科技文献智能分析系统,我们可以对话里行间的语调进行分析,对负面评论,予以标记。测试结果如表6所示。此例中第一个文献被判定为正面评价,而第二个文献则被列为负面评价。有这样的自动标记,科研工作者可以很好的选择文献去进一步阅读。

Table 6. Sentimental analysis test demonstration

6. 文本情绪分析测试

Sentence

Positive Score

Negative Score

Overall Tone

John Mike对[1]的研究进行了深入细致的分析,清晰地梳理了该研究在该领域的贡献与不足。作者尤其强调了[1]的创新性,并将其与[相关研究]进行了对比,凸显了其独到之处。此外,作者还对[1]未来可能的发展方向提出了建设性的意见,为后续研究提供了有益的启示。

58.34

7.34%

Positive

Victor对[2]的评价过于笼统,缺乏对研究细节的深入分析。虽然作者提到了[2]的一些可取之处,但并未对其局限性进行充分讨论。此外,作者在比较[2]与其他相关研究时,所选取的对比点不够明确,使得评价的客观性受到一定影响。

16.34%

53.8%

Negative

4.5. 科技文献智能分析中的文本概况

4.5.1. 文本概况的理论基础

Figure 7. Text summarization generation demonstration in intelligent insights

7. 科技文献智能分析中的文本概括生成演示

科技文献智能分析中的文本概况(Text Summarization),不同于科技文献的摘要(Abstract),摘要是作者针对一整篇文章或文档,提取其核心观点、主要论点和结论,生成一段简短、连贯的文本。基于NLP的文本概况[11]则更关注于从文本中提取关键信息,生成一个比原始文本更短的版本,同时保留原有文章的核心意思。它可以是整篇文章的缩略版,也可以是特定段落的概况。与摘要相比,文本概况更注重信息的压缩和保留,确保生成的文本能够准确反映原文的主要观点和意思;可以根据不同的需求,生成不同长度、不同风格的概况内容。文本概况可以通过下面一些方法来实现,将文本转化为计算机可处理的表示形式,如词向量、句子向量等;对文本中的句子或词语进行重要性排序,以便提取关键信息;使用各种压缩算法,将文本压缩成更短的版本;将压缩后的信息转化为自然语言文本。文本概况的常用方法有基于统计的方法如,以高频词为中心的算法;TF-IDF方法来衡量词在文档中的重要性,并考虑词的普遍性;还有基于图的方法,将文本表示为图,节点表示词,边表示词之间的关系,通过图算法提取关键信息。另外基于机器学习的方法,使用标注好的数据训练分类器,判断句子是否重要。通过奖励机制,训练模型生成高质量的概况。基于深度学习的方法则利用例如Seq2Seq模型:将文本编码为向量,再解码生成概况。

4.5.2. 文本概况的实验及结果

我们利用本文作者的一篇文章(“移动互联网时代商业交易中的信任建构——基于对J社区微信团购群的考察”) [12]作为样本,生成了该篇文章的概况,如图7所示。测试中我们选择生成全文的8%作为比例参数。实际应用中,该百分比参数为用户可控,可以根据实际需求生成合适的概况内容。结果表明,论文中的重要观点都得到很好的提取,远远超出论文摘要所提供的信息量。和原文上万字的阅读量相比,阅读文本缩略的概括确实能帮科研人员节省大量时间和精力,而专注于创新和实践。

4.6. 科技文献智能分析中的智能问答

4.6.1. 智能问答的理论基础

Figure 8. Intelligent question-answering demonstration

8. 智能问答功能演示

智能问答是系统中的一项重要功能,它通过利用大语言模型LLM,让用户向系统提问,并获得准确、相关的答案[13]。用户无需逐篇阅读文献,只需提出问题,即可快速获取所需信息。系统通过对文本的深度理解,能够回答用户提出的各种问题,包括事实性问题、概念性问题、比较性问题等。个性化服务:系统可以根据用户的提问历史和兴趣偏好,提供个性化的问答服务。智能问答的技术实现得益于自然语言理解(NLU),并利用知识图谱,从大量文献中抽取实体和关系,构建知识图谱。将用户的问题转化为知识图谱上的查询语句,并从知识图谱中获取答案。智能问答背后的机器学习,利用大量的问答对话训练机器学习模型,提高模型的准确性。将用户的问题输入模型,得到模型的预测结果。目前广为人知的ChatGPT,是OpenAI开发的对话式大型语言模型,擅长生成人类水平的文本。它可以被用于构建更自然、更流畅的对话系统,提高用户体验。

4.6.2. 智能问答的实验与结果

科技文献智能分析系统中的一个重要的模块LLM模型的应用接口模块,以便调用LLM中的API。最新推出的Google Gemini是Google开发的大型语言模型应用,具备强大的文本生成、翻译、代码编写和信息检索能力。在智能问答系统中,Gemini可以用于更准确地理解用户的问题,生成更全面、更有逻辑性的答案。图8中国我们展示了与Gemini对话的演示,我们以[14]作为主题(技术逻辑指引下的国外互联网信任研究发展态势——基于CiteSpace的识别和可视化分析)让Gemini提供相关信息。测试结果表明,得到的回答到了具有相当的准确度。回答质量也很高,涵盖了论文的高亮部分,给出了论文思路,研究方法,研究特点,并提炼出了论文中概况的研究发展趋势,大模型的优势得以比较好的体现。

5. 总结与展望

通过对传统文献分析工具的回顾,本文提出了科技文献智能分析,详细探讨了这一人工智能助力的新兴研究范式。揭示了科技文献智能分析在提升研究效率和深度方面的巨大潜力。科技文献智能分析的提出,为量化文献之间关联性提供了一种新的视角,为研究者提供了更精准的导向。

从技术实现层面,利用自然语言处理及机器学习等技术为科技文献智能分析提供了有利支撑,我们设计了一款概念验证系统,对一些核心的功能进行了深入探讨,并给出了测试和演示效果。未来,随着技术的不断进步,科技文献智能分析有望实现更复杂、更精细化的文献分析,为科研工作带来革命性的变革。我们需要不断完善相关技术,加强人机协同,并积极应对可能发生的挑战。我们认为科技文献智能分析是科学研究范式的一次重大变革。通过不断探索和创新,我们有理由相信,科技文献智能分析将成为科研人员们不可或缺的研究工具,推动科学研究迈向新的高度。

参考文献

[1] Kratochvíl, J. (2017) Comparison of the Accuracy of Bibliographical References Generated for Medical Citation Styles by Endnote, Mendeley, Refworks and Zotero. The Journal of Academic Librarianship, 43, 57-66.
https://doi.org/10.1016/j.acalib.2016.09.001
[2] Moral-Muñoz, J.A., Herrera-Viedma, E., Santisteban-Espejo, A. and Cobo, M.J. (2020) Software Tools for Conducting Bibliometric Analysis in Science: An Up-to-Date Review. El Profesional de la Información, 29, e290103.
https://doi.org/10.3145/epi.2020.ene.03
[3] Yao, Y., Duan, J., Xu, K., Cai, Y., Sun, Z. and Zhang, Y. (2024) A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly. High-Confidence Computing, 4, Article 100211.
https://doi.org/10.1016/j.hcc.2024.100211
[4] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., et al. (2017) Attention Is All You Need. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 6000-6010.
[5] Collins, M. and Singer, Y. (1999) Unsupervised Models for Named Entity Classification. Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, College Park, 21-22 June 1999, 100-110.
[6] Binjumah, W.M. (2024) The Role of Machine Learning and Deep Learning Approaches to Improve Optical Communication Systems. Journal of Intelligent Learning Systems and Applications, 16, 418-429.
https://doi.org/10.4236/jilsa.2024.164021
[7] Pantel, P. and Lin, D. (2002) Discovering Word Senses from Text. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Edmonton, 23-26 July 2002, 613-619.
https://doi.org/10.1145/775047.775138
[8] Abunemeh, S. (2024) Investigating the Impact of Conflict Management Approaches on Organizational Productivity in Healthcare Settings: A Qualitative Exploration. Open Journal of Social Sciences, 12, 322-335.
https://doi.org/10.4236/jss.2024.1211023
[9] Brown, P.F., de Souza, P.V., Mercer, R.L., Della Pietra, V.J. and Lai, J.C. (1992) Class-Based n-Gram Models of Natural Language. Computational Linguistics, 18, 467-479.
[10] Keith, B., Fuentes, E. and Meneses, C. (2017) A Hybrid Approach for Sentiment Analysis Applied to Paper. Proceedings of ACM SIGKDD Conference, Halifax, 13-17 August 2017, 1-10.
[11] Knight, K. and Marcu, D. (2002) Summarization Beyond Sentence Extraction: A Probabilistic Approach to Sentence Compression. Artificial Intelligence, 139, 91-107.
https://doi.org/10.1016/s0004-3702(02)00222-9
[12] 黄晓晔. 移动互联网时代商业交易中的信任建构——基于对J社区微信团购群的考察[J]. 中国矿业大学学报(社会科学版), 2023, 25(3): 91-104.
[13] Rajpurkar, P., Zhang, J., Lopyrev, K. and Liang, P. (2016) SQuAD: 100,000+ Questions for Machine Comprehension of Text. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, 1-5 November 2016, 2383-2392.
[14] 黄晓晔. 技术逻辑指引下的国外互联网信任研究发展态势——基于CiteSpace的识别和可视化分析[J]. 江南大学学报(人文社会科学版), 2023, 22(2): 52-65.