1. 引言
知识是人类对物质和精神世界探索的结果总和。知识扩散是将知识通过不同渠道进行时空传播的过程,也是知识在更大时空范围的推广应用。引文分析法主要是将数学、统计学、逻辑学等方法,对发表的期刊、论文、作者等信息的引用和被引用关系进行分析,从数量特征总结其内在规律。引文分析法在信息计量学、科学计量学、文献计量学、图书馆情报研究等学科领域比较常见。
二十大报告中提出数字经济发展对实体经济至关重要,扎实推进数字经济与实体经济深度融合。传统引文分析限于数据获取和数据分析的技术限制,对引文中细分结构未作差异化分析。21世纪海量可获数据及文献计量软件兴起之后,对数字经济领域知识进行知识扩散研究,进一步分析其知识扩散情况,对于厘清数字经济研究的发展演变及知识扩散规律有积极作用。
2. 相关研究
2.1. 国内外数字经济相关研究
在数字经济相关研究方面,我国数字经济研究最早可追溯至1998年 [1] ,在2016年至2022年开始快速增长。数字经济研究主题集中在数字化转型、经济高质量发展、数字贸易、制造业、工业互联网、区块链、数字中国等。从学科视角看,超过37%的国内研究属于信息经济与邮政经济学科内容,其次10%的研究属于经济体制改革,5%占比的研究包括贸易经济、企业经济和工业经济等学科。研究层次集中在开发研究、政策研究、应用研究。从研究方法看,实证研究(如采用微观数据库中国家庭追踪调查CFPS数据分析数字经济、创业活跃度与高质量发展的关系 [2] )、“宽带中国”准自然实验 [2] 、比较研究法(如国内外数字经济规模测算比较 [3] )、归纳演绎、类比推理等思维研究法(如从宏观、微观探讨数字经济对经济高质量发展内在机理的研究 [4] )。
国际上数字经济概念最早由Don Tapscott于1995年提出,由美国商务部发布《新兴数字经济》报告后广泛应用。相关研究方向主要集中在计算机科学、企业经济、社会研究、情报学与图书馆学等类别。大数据对文化、社会、生活带来的影响 [5] ,智慧城市建设研究 [6] ,评估自然资源数字化时代的可持续利用方案 [7] 。Gontar考虑了数字经济的定义问题,并提出了国际网络安全的法律获取的新主题 [8] 。Somina等人揭示了数字经济确定的资源导向型、再生性、社会经济、认识论和转型方法的内容。对于运输和物流服务市场的主体而言,从模拟经济转向数字经济时,应提出调整商业模式的建议 [9] 。在数字经济的测度研究中, [10] 探索PMM模型和实践应如何更新,以适应数字经济的进步。 [11] 开发了一种使用代表性度量方法来量化数字经济的方法,并将其用于分析美国、德国、韩国和瑞典。
2.2. 国内外知识扩散相关研究
在知识扩散相关研究方面,知识扩散是将知识的复制、传播、创新达到知识演化的过程。国内知识扩散从2005年起开始有较大幅度增加,2013年达到峰值(年发文量606篇)。研究主题层面,知识扩散相关研究主题包括产业集群、知识管理、知识创新、知识转移、隐形知识、社会网络、技术创新、小世界网络、知识共享及社会网络分析等。其中,将知识扩散与知识创新结合的研究最多,国内相关文献数量达到117,833篇。学科层面,对知识扩散的研究集中在计算机科学与技术、理论经济学、应用经济学、科学技术史、图书情报与档案管理、教育学等学科。已有研究成果讨论了显性知识、隐性知识扩散与传播 [12] 。常用的描述知识扩散指标包括知识扩散广度、知识扩散强度与知识扩散速度 [13] 。知识扩散分析单元主要包括作者、期刊、专利、学科分布等 [14] 。将社会学网络分析引入知识扩散研究 [15] ,知识势差的区别会影响知识扩散效果 [16] 。
国外相关研究包括: [17] 揭示了社交媒体如何成为一种工作工具,通过制定社交行为实践服务于职业形象的策划和社会关系的管理,这是围绕着声誉作为价值的共享概念而存在的。《数字革命是如何革命性的》 [18] 为分析国际数字时代构建了一个框架,评估了企业利用数字技术重组工作的代价,对数字时代市场演变的政治经济学提供了深刻见解,以及信息技术对从隐私到知识产权等关键社会辩论的政治影响。研究了关于政府和其他利益攸关方如何影响信通技术的应用,以增加获得安全、有效和负担得起的常见病治疗的机会 [19] 。
在数字经济知识扩散相关研究方面,已有研究将知识图谱与数字经济国内外研究对比分析 [20] 。动态一般均衡模型的应用解释跨国公司对东道国的知识扩散行为 [21] 。总体来看,对数字经济研究领域的知识扩散研究较少。
3. 研究设计
3.1. 分析思路
本研究主要包括5个步骤,分别是基础数据获取、度量知识扩散程度、分析知识扩散类型、知识扩散文本挖掘及知识扩散网络构建等。采用的研究方法包括统计分析法、引文分析法、文本挖掘法和网络分析法。采用的分析软件工具包括Excel、R4.2.1及Wordstat9等。图1是本文研究路线图。
3.2. 数据选择
本文以Web of Science (WOS)的核心数据库作为数据源,检索主题为数字经济(digital economy)检索得到的全记录与引用的参考文献作为研究对象。检索获得3732篇文献,时间跨度为2007年至2022年,施引文献共40,605篇,去除自引文献共39,014篇,被引频次合计55,399次,去除自引的被引频次共50,831次。篇均被引频14.84次,h-index指数为94。从图2可见,以数字经济为主题的研究从2015年起,研究成果数量快速增加。
Figure 2. Trend of annual citation data change
图2. 年度引文数据变化趋势
4. 知识扩散度量
4.1. 知识扩散强度
知识扩散强度(Knowledge Diffusion Intensity, KDI)是本学科知识对其他学科的影响程度,具体计算公式为,其中N表示A学科类别被B学科类别引用的数量。本文知识扩散强度数据采用WOS学科类别来表示本学科类别对其他学科类别的影响程度 [22] 。从表1可见,数字经济相关研究知识扩散强度最大的学科类别是商科/BUSINESS,其次是传媒/COMMUNICATION,再次是绿色可持续科技/ GREEN & SUSTAINABLE SCIENCE & TECHNOLOGY。
Table 1. Distribution of knowledge diffusion intensity by discipline category from 2007 to 2022
表1. 2007~2022年知识扩散强度学科类别分布
4.2. 知识扩散广度
知识扩散广度(Knowledge Diffusion Breadth, KDB),公式为
[22] ,
是总引用总频数,
是统计起点到统计终点总年数。本文数据时间跨度为2007年至2022年,但由于2022年数据不全,不便进行年度对比,故将2007年
设为15,2021年
设为1。
将KDB值及对应的时间序列数据建模,对其进行ADF检验,得到原始数据是平稳时间序列(原始时间序列t值为−2.907,P值为0.044**)。基于变量KDB,基于AIC信息准则自动寻找最优参数,模型结果为ARIMA模型(1,2,0)检验表且基于0差分数据,预测模型为:y(t) = 221.314 + 0.431*y(t − 1),模型的拟合优度R2为0.968,模型表现优秀。未来7期预测结果分别为9377、12,783、16,487、20,444、24,637、29,058、33,702。知识扩散广度计算结果见表2。将知识广度测算结果进行时间序列模型分析,分析结果见表3。
Table 2. Calculation results of knowledge diffusion breadth from 2007 to 2021
表2. 2007~2021年知识扩散广度计算结果
注:由于2022年数据截止到2022年10月20日,故未与其他年份比较。
Table 3. Test results of ARIMA model (1,2,0)
表3. ARIMA模型(1,2,0)检验表
注:***、**、*分别代表1%、5%、10%的显著性水平。
4.3. 知识扩散速度
知识扩散速度的计算通过WOS发表不同类别进行对比分析,共9个类别,分别是ARTICLE;ARTICLE BOOK CHAPTER;ARTICLE PROCEEDINGS PAPER;BOOK REVIEW;CORRECTION EDITORIAL MATERIAL;MEETING ABSTRACT;REVIEW;REVIEW;BOOK CHAPTER。在数据透视图(图3)中可见,ARTICLE发文的扩散速度最快,其次是REVIEW类型的文章。
5. 知识扩散类型分析
5.1. 施引文献类别分析
对施引文献的分析能够反映一定学科前沿的发展,本文3732篇文献的施引文献中排除自引,并在WOS核心合集中的文献共22,314篇,其WOS类别分布如表4:
Figure 3. Speed of knowledge diffusion in different types of publications from 2007 to 2022
图3. 2007~2022年不同类型发文知识扩散速度
Table 4. Distribution of cited literature categories
表4. 施引文献类别分布
将表4施引文献类别与表1知识扩散类别进行对比可知,MANAGEMENT原文献仅有151篇,施引文献数量达到3685篇;Business原文献有510篇,施引文献达到3496篇;ENVIRONMENTAL STUDIES原文有91篇,施引文献达到3056篇;ENVIRONMENTAL SCIENCES原文有66篇,施引文献达到2771篇。上述数据反映出数字经济研究的最新进展及前沿研究的学科类别。
5.2. 国家层面知识扩散分析
通过表5可见,通讯作者主要来源于美国、中国和英国。表6显示,高被引文献作者所属国家主要包括美国、英国和中国。
Table 5. Country of corresponding author
表5. 通讯作者所属国家
Table 6. The country of the author of the highly cited literature
表6. 高被引文献作者所属国家
5.3. 机构、期刊、学者知识扩散分析
研究机构、期刊及学者的知识扩散分析是从微观视角分析数字经济研究的主体来源。排名前10的数字经济研究机构见表7,期刊扩散情况见表8,学者知识扩散情况见表9。
Table 7. Mechanism diffusion analysis
表7. 机构扩散分析
Table 9. Scholars’ knowledge diffusion results
表9. 学者知识扩散表
6. 文本挖掘结果分析
6.1. 主题萃取结果
主题萃取是将文献中标题、摘要和关键词信息整合后,进行主题、短语与命名实体信息萃取分析。将3732篇引文数据的主题词(标题、摘要、关键词)进行文本挖掘分析,得到主题萃取结果见表10。
Table 10. Table of subject extraction results (part)
表10. 主题萃取结果表(部分)
注:限于篇幅,展示频数前三主题。主题萃取结果的Coherence R = 0.115,Q = 0.607,NPMI = 0.244,Seed = 1,634,537,577。
6.2. 短语萃取结果
将短语萃取结果的2个至5个单词短语按照出现频数进行排序,每个类型排前10的结果整理见表11~14。
Table 11. Top 10 most frequent 2-word phrases
表11. 频数排名前10的2个单词短语
Table 12. Top 10 most frequent 3-word phrases
表12. 频数排名前10的3个单词短语
Table 13. Top 10 most frequent 4-word phrases
表13. 频数排名前10的4个单词短语
Table 14. Top 7 most frequent 5-word phrases
表14. 频数排名前7的5个单词短语
注:因5个单词短语较少,短语萃取结果仅展示7组短语,同时最后2组短语单复数有别,故归为6组短语。
6.3. 命名实体萃取结果
命名实体萃取主要是地名、机构名、以及其他名称标识的实体。数字经济研究中常见的命名实体包括COVID、CHINA和DATA。命名实体萃取结果见表15。
7. 知识扩散网络构建
7.1. 国家间合作网络
构建数字经济的相关研究作者所属国家合作网络图,网络参数最小边值为2。导出的合作网络图见图4。
Figure 4. Network of cooperation between countries
图4. 国家间合作网络
7.2. 主题共现网络
构建主题词的共现网络,具体参数设定:网络布局选择自动布局,聚类算法选随机游走算法(Walktrap),节点数选择50个,其他参数设定为默认选项。图5主题共现结果的Cophenetic = 0.761。图6的Cophenetice = 0.968。显示出图6的聚类评估效果优于图5。
Figure 5. Subject words Co-occurrence network
图5. 主题词共现网
Figure 6. Co-occurrence relationship of Subject words (part)
图6. 主题词共现关系(部分)
7.3. 作者合作网络
作者合作网络以文献作者及其合作关系为研究对象。作者合作网络的参数设置为聚类算法是随机游走算法(Walktrap),作者分析网络还可以通过导出Pajek格式进一步计算网络特征,结果见表16。Cluster代表不同的聚类,Betweenness代表中介中心性值,Closeness代表接近中心性值,PageRank值代表基于PageRank算法得到的节点贡献度。
8. 结语
为深入挖掘引文文献中的知识扩散情况,本文从引文分析方法视角,对数字经济相关研究的知识扩散情况进行量化分析。对知识扩散强度、广度和速度进行计算。结果表明,数字经济研究的知识扩散范围不断扩大,施引文献类别在被引文献基础上进行扩展。国家间知识扩散较大的有美国、中国和英国。本文构建的知识扩散分析框架可以有效揭示知识单元在不同层面的演进扩散过程。研究的局限是仅分析了学术文献,未能将非结构化研究的数据进行深入研究,是下一步研究中应进行改进的方向。
基金项目
内蒙古经济数据分析与挖掘重点实验室研究项目(SYSKT22007);内蒙古自治区高等学校创新团队发展计划支持项目(NMGIRT2201)。