1. 背景介绍
作者耦合关系是引文分析理论中的一个重要概念,它是利用第三方文献建立的一种隐藏学术关系。目前,一些学者的研究已经表明两位(或多位)作者共同引用的文献频次和数量越多,说明他们的研究方向更加接近,也就是他们之间的耦合强度越大。因此,正确有效地挖掘作者之间的耦合关系可以较好地发现某学科领域的知识结构,进而为学科的发展奠定良好的学术研究基础。
作者耦合是基于文献耦合[1]提出的,但其又不同于文献耦合。作者耦合相比文献耦合的静态结构是动态结构,并且作者之间的耦合强度是随时间而变化的。2008年,Zhao和Strotmann [2]首次针对作者耦合进行了实证研究,并发现作者耦合的实证结论对作者同被引的研究进行了必要的完善。自此众多学者对作者耦合理论的相关研究工作进行了深入细致的研究。2010年,刘志辉和张志强[3]基于作者耦合分析方法提出了作者关键词耦合概念。2011年,国内学者陈远和王菲菲[4]首次利用作者耦合分析方法及其相关理论进行了实验应用研究。2012年,Ma [5]从多个角度研究了作者耦合分析的相关理论及其实证效用。2014年,宋艳辉和武夷山[6]利用作者耦合分析方法研究了近年来情报学的知识结构。邱均平和刘国徽[7]对国内作者耦合分析方法的研究现状进行了分析。2016年,赵文涟和张艺蔓[8]利用期刊耦合与作者耦合方法分析了学科的内部结构。Yang [9]等人利用作者关键词耦合分析方法对信息科学领域进行了可视化研究。
综上所述,由于作者耦合分析方法及其相关理论的研究起步较晚,从而相关的理论还不尽成熟,并且许多知识还处于不断探索阶段。从现有的文献分析可以看出,大多数的学者均是利用作者耦合分析方法或结合其它理论对某一领域的学科知识结构进行实证分析研究。然而,对于作者耦合分析方法自身的理论研究比较少见。因此,本文将从作者耦合分析方法的理论角度出发,对作者耦合强度的理论计算方法进行更加深入的研究。目前,作者耦合关系强度的算法主要以简单算法、最小值算法和组合算法为主[5]。这三种算法在计算单篇参考文献的耦合强度时均将参考文献的数量简单作为衡量的主要标准。然而,在实际的研究中,我们有时会遇到两位(或多位)作者引用了同一篇参考文献,但是引用了文章中两个不同的知识点,此时作者之间的耦合度就会偏低,甚至也可能作者之间并没有耦合关系。研究表明,上述的现象在目前的科学研究中多以交叉学科比较常见。
本文针对以上的问题将基于可信性理论[10]在不确定环境中分析研究作者的耦合关系。首先,在不确定环境下提出作者耦合强度的算法思想。其次,利用期望值方法计算两位(或多位)作者的耦合强度。最后,对于不确定环境下的作者耦合关系强度算法的可行性和有效性进行分析说明。
2. 预备知识
为了研究不确定环境下的作者耦合关系,下面首先回顾可信性理论的一些基本内容。
设
是给定论域
的幂集,
是定义在幂集
上的集函数。若集函数
满足:
(1)
,
。
(2) 对于幂集
上的任意子类
有
。
称
是可能性测度[11] [12],其中
是任意指标集。
基于可能性测度,Liu和Liu [9]定义了下面的自对偶集函数
。设三元组
是一个可能性空间,若定义集函数
为
则称集函数
是事件
的可信性测度,其中
是集合
的补集。
假设
是一个从
到实数空间
上的集函数,则称
是定义在可信性空间
上的模糊向量。特别地,当
时,
称为模糊变量。
假设
是一个离散型的模糊变量,且可能性分布为
不失一般性,设
,则模糊变量的期望值为
,
,
并且
,
,
,
。
关于可信性理论更多的知识及其应用可以参阅文献[13]-[15]。
3. 不确定环境下的作者耦合关系强度算法
3.1. 作者耦合关系简介
作者耦合是引文分析理论中的重要概念之一。它是基于文献耦合[1]而产生的一个分析作者之间动态结构的重要工具。利用作者耦合关系分析和探求学科的知识结构主要通过作者耦合关系的强度来衡量作者之间的学术联系强度。目前,关于作者耦合关系强度的算法主要有简单算法、最小值算法和组合算法三种方法[5]。
为了研究的方便,下面通过一个例子来说明原有作者耦合关系强度的算法原理。另外,在示例中本文只研究第一作者的参考文献,不考虑其他的作者。
Table 1. Examples of author coupling relationships
表1. 作者耦合关系示例
学者A |
学者B |
参考文献1 (引用1次) |
参考文献1 (引用1次) |
参考文献2 (引用1次) |
参考文献2 (引用1次) |
参考文献3 (引用1次) |
参考文献3 (引用1次) |
参考文献4 (引用2次) |
参考文献4 (引用2次) |
参考文献5 (引用2次) |
参考文献5 (引用4次) |
参考文献6 (引用5次) |
参考文献6 (引用3次) |
参考文献7 (引用4次) |
参考文献7 (引用4次) |
参考文献8 (引用3次) |
参考文献8 (引用6次) |
参考文献9 |
参考文献10 |
参考文献11 |
* |
参考文献12 |
* |
根据表1中给出的数据,下面分别对三种作者耦合关系强度算法的原理进行说明。
(1) 简单算法
算法原理是将两位(或多位)作者共同的不重复参考文献的数目作为作者耦合强度。表1中作者A不重复参考文献数目是11,作者B不重复参考文献数目是9,作者A和作者B共同的参考文献数目是8,那么两位作者的耦合强度就是8。
(2) 最小值算法
算法原理是将两位(或多位)作者共同的不重复引用次数为1次的参考文献数目与各重复引用参考文献重复引用次数的最小值之和作为作者耦合强度。表1中两位作者共同引用1次的参考文献数目是3,参考文献4引用次数最小值是2,参考文献5引用次数最小值是2,参考文献6引用次数最小值是3,参考文献7引用次数最小值是4,参考文献8引用次数最小值是3,那么两位作者的耦合强度就是
(3) 组合算法
算法原理是将两位(或多位)作者共同的不重复引用次数为1次的参考文献数目与各重复引用参考文献重复引用次数的乘积之和作为作者耦合强度。表1中两位作者共同引用1次的参考文献数目是3,参考文献4引用次数乘积是4,参考文献5引用次数乘积是8,参考文献6引用次数乘积是15,参考文献7引用次数乘积是16,参考文献8引用次数乘积是18,那么两位作者的耦合强度就是
3.2. 不确定环境下作者耦合关系强度的计算方法
在3.1节中提到的三种计算作者耦合强度的方法已经得到一些学者的实证研究,并且结果显示出最小值算法相比较另外两种算法的效果更好。综合现有作者耦合的相关研究成果可以看出,大部分学者均是应用作者耦合关系强度进行了实证研究,而关于理论的研究并不多见。因此,本文将主要针对作者耦合进行一些理论方面的研究,从而对原有理论进行必要的补充和完善。从3.1节中提到的三种计算作者耦合关系强度的算法原理不难发现,两位(或多位)作者共同引用的参考文献数量越多,作者之间的耦合强度越大,并且对于共同引用的重复参考文献重复次数越多,作者之间的耦合强度越大。另外,在实际的引文分析理论研究中,虽然两位(或多位)作者共同引用了相同的参考文献,但是他们引用的论文关键点可能不同,这样的情况可能导致他们的研究兴趣并不一定相同,也就是说他们之间可能并没有很强的耦合关系。同时,作者之间的耦合关系强度简单利用参考文献引用次数表示也有些不尽合理。这样利用“次数”直接表示耦合关系“强”和“弱”的程度在一定意义下会影响研究的最终效果。从现有的文献看,以上提到的这些有关作者耦合强度计算的问题并未得到有效的分析和研究。
为了处理以上关于作者耦合关系强度的计算问题,本文将利用可信性理论的相关知识研究作者耦合关系强度。一般来说,两位(或多位)作者引用同一篇参考文献的关键点具有一定的不确定性,只有正确处理这种不确定性才能有效分析作者之间的耦合关系。事实上,作者之间的引用关系或多或少带有一定的主观性,这就会使得作者的耦合关系产生一定的模糊性。因此,为了更好地探究学科知识结构,本文将利用模糊数学知识度量作者耦合关系的强度。首先,假设两位(或多位)作者的共同参考文献数量是
(
);第
位作者引用第
篇参考文献的次数为
(
)。根据以上的符号,下面给出第
篇共同参考文献的加权引用次数
的表达式为
其中,参数
是决策者事先给定的一个确定引用次数。
其次,为了建立两位(或多位)作者的模糊耦合强度
的可能性分布,我们要先对上述第
篇共同参考文献的加权引用次数
进行排序。假设排序后共同参考文献的加权引用次数是
的有
个(
),并且假设具有相同引用次数
的共同参考文献的模糊耦合强度是相同的。另外,对于大于等于
的共同参考文献的模糊耦合强度也相同。因此,假设具有相同引用次数
的共同参考文献的模糊耦合强度为
,并给出两位(或多位)作者的模糊耦合强度
的可能性分布
为
特别地,当上面可能性分布
中的
仅取
一个值时,则定义
这里规定
,且表示排序后共同参考文献的加权引用次数为0。当上面可能性分布
中的
取
和
两个值时,则定义
以上部分详细给出了两位(或多位)作者模糊耦合强度的计算方法。另一方面,在实际的研究中往往通过作者之间的耦合关系强度来探究某一领域的学科知识结构。针对这样的研究特点,要想合理地建立某一领域中任意两位(或多位)作者之间的学科兴趣关联结构就需要比较他们之间的耦合强度大小。然而,实际研究中单凭两位(或多位)作者的模糊耦合强度
的可能性分布
难以对某一领域的学科知识结构进行有效分析。因此,本文将采用两位(或多位)作者的模糊耦合强度的期望值对某一领域的学科知识结构进行迅速分析。期望值可以迅速分析出作者之间的耦合关系,并且通过耦合关系也能真正反映出多位作者在学科领域中的重要性。
设
表示两位(或多位)作者的模糊耦合强度
的期望值,且
,
,
,
并且
,
,
,
。
下面以表1中的数据为例,计算作者A和作者B之间模糊耦合强度的期望值。设共同参考文献的加权引用次数
的表达式中的参数
,则表1中8篇共同参考文献的加权引用次数分别为
(1) 因为作者A和作者B引用参考文献1-4及参考文献7的次数是相同的,所以
,
则
,
,
,
。
(2) 因为作者A引用参考文献5为2次,作者B引用参考文献5为4次;作者A引用参考文献6为5次,作者B引用参考文献6为3次,所以
,
则
,
。
(3) 因为作者A引用参考文献8为3次,作者B引用参考文献8为6次,所以
,
则
。
根据作者模糊耦合强度
的可能性分布
的定义,可以得到
再根据作者模糊耦合强度
的期望值定义,可以得到
则有
上面的部分通过表1中的数据给出了作者模糊耦合强度
的期望值。通过与以往作者耦合强度的结果比较,利用期望值的方法计算作者之间的耦合强度更能真实反映作者在学科领域中的作用。本文提出的期望值方法首先考虑了作者引用参考文献的不确定性,从一定程度上利用模糊数学的方法处理了这些不确定性因素,从而也说明了本文提出的计算作者耦合强度方法的理论可行性。其次,为了更好地反映两位(或多位)作者共同引用文献数量越多,作者之间的耦合强度越大,并且对于共同引用文献的重复次数越多,作者之间的耦合强度越大的现象,本文通过设计参考文献的加权引用次数公式和作者模糊耦合强度的可能性分布函数合理反映了上面提到的耦合强度变化现象。因此,本文提出的计算作者耦合强度方法具有一定的理论有效性。
4. 实证分析
4.1. 数据来源与研究对象
本文的数据来源于2000~2017年中国知网中收录的部分期刊数据,并对数据进行了细致的筛选。这里需要强调的是本文数据选用的时间间隔主要考虑该段时间的发文量、文献关联关系等因素。为了能很好地对本文提出的方法进行说明和验证,下面对所选作者和发文的数量进行了必要的控制。首先,利用主题词“引文耦合”和“作者耦合”在中国知网中仅筛选出10位相关领域的学者(仅限第一作者)作为本文的研究对象。其次,利用主题词“耦合”在中国知网中筛选出以下十位作者所发表的期刊论文,并且滤去所选论文中“导语”、“评论”以及“讲话”等形式的论文。本文在中国知网中所选作者和发文的数量见表2。
Table 2. Authors and publication status
表2. 作者和发文情况
作者(第一作者) |
发文数量 |
作者(第一作者) |
发文数量 |
邱均平 |
12 |
杨瑞仙 |
1 |
马瑞敏 |
2 |
李国俊 |
2 |
沈利华 |
1 |
靖培栋 |
1 |
赵文涟 |
1 |
肖 明 |
4 |
许振亮 |
2 |
王菲菲 |
2 |
通过对以上10位作者之间的引用关系分析,并且分别统计出了任意两位作者之间的参考文献引用关系。为了研究的方便,本文对以上10位作者仅仅分析了任意两位作者之间的耦合关系,不考虑两位以上作者的耦合关系。
4.2. 作者耦合关系的研究方法
首先,利用在3.2节中设计的作者耦合关系强度的计算方法分别计算出10位作者中任意两位作者的模糊耦合强度期望值。其次,建立10位作者之间的耦合关系矩阵,矩阵中的数据分别代表任意两位作者的模糊耦合强度期望值,如表3所示。矩阵很显然是一个对称矩阵,对称性代表了作者之间的耦合关系是单向的。另外,对于没有共同参考文献的两位作者之间的耦合强度以及作者本人与本人的耦合强度均定义为常数0。最后,在UCINET软件中利用画图工具绘制出10位作者之间的耦合关系图,如图1所示。
Figure 1. Network diagram of the author’s fuzzy coupling strength relationship
图1. 作者模糊耦合强度关系网络图
Figure 2. Network diagram of the author coupling strength relationship based on the minimum value algorithm
图2. 基于最小值算法的作者耦合强度关系网络图
Table 3. Author coupling strength relationship matrix
表3. 作者耦合强度关系矩阵
4.3. 结果分析
利用UCINET软件对10位作者之间的耦合关系进行了可视化,基于模糊期望值方法和最小值算法分别得到了图1和图2的结果。
首先,仅仅从10位作者在耦合强度关系网络图中的学术地位而言,从图1中可以明显分辨出学者邱均平、杨瑞仙和李国俊处于第一集团,王菲菲和马瑞敏处于第二集团,靖培栋和肖明处于第三集团,许振亮、沈利华和赵文涟处于第四集团。同时,从图2中的结果也可以得到图1中得到的结论。因此,从这一点上也就能在一定程度上说明本文提出的作者耦合强度关系的模糊期望值方法是有效和可行的。
其次,利用本文提出的作者耦合强度关系的模糊期望值方法还可以有效区分相同耦合强度情形下的作者之间的耦合强弱关系。在4.2中计算作者之间耦合强度的过程中,邱均平和肖明的共同参考文献有3篇,引用次数分别是(2次,3次),(1次,2次)和(1次,1次),并且王菲菲和马瑞敏的共同参考文献有4篇,引用次数分别是(1次,1次),(1次,1次),(1次,1次)和(1次,1次)。通过最小值算法计算可以得到邱均平和肖明以及王菲菲和马瑞敏之间的耦合强度均是4,但是通过模糊期望值方法计算可以得到他们之间的耦合强度分别是2.1和2/3。从以上的分析可以看出,虽然利用最小值方法计算部分作者之间的耦合强度得到了相同的结果,但从实际的引用效果可以明显看出邱均平和肖明之间具有更高的耦合强度。另一方面,利用模糊期望值方法有效区分了作者之间的耦合强度,从而也说明了本文的方法具有一定的实际意义。
5. 结论
本文利用可信性理论处理了作者耦合关系中的一些不确定性因素,并且通过期望值方法给出了作者耦合关系强度的一种新的计算方法。下面对本文的主要工作进行总结如下:
(1) 建立了一种新的参考文献加权引用次数公式,有效处理了两位(或多位)作者引用文献次数差别较大对作者耦合强度计算的影响。
(2) 建立了新的作者模糊耦合强度可能性分布函数,并以此合理分析了作者耦合强度中的不确定性因素。
(3) 通过期望值方法给出了作者耦合强度的计算方法。
本文给出了一种新的作者耦合关系强度的计算方法,但是在某些方面还存在一定的不合理性。其一,本文研究的前提是只考虑第一作者引用情况,因此他们的影响力只由作为第一作者的引用文献来决定,这样就会造成一定的不合理性。换句话说,本文未考虑同一篇论文不同作者的引用重要性以及共同引用文献的时效性等领域。其二,虽然本文给出了作者耦合关系强度的计算方法有效性的数据验证,但是数据的规模较小,还不足以完全验证算法的可行性,这方面还需要进一步实证研究。其三,本文采用的评价方法仅利用期望值算子,未尝试利用方差、置信区间等方法对作者耦合关系强度进行评价。
基金项目
河北省金融科技应用重点实验室项目“河北省城市商业银行潜在客户挖掘与系统开发研究”(项目编号:2024004)。