1. 引言
随着“大数据”和“云计算”时代的到来,语言学科的研究数据也在飞速增长,这为语言学科的研究提供了海量、翔实的素材,这些数据是语言学科研究的宝贵资料,包含着丰富的研究信息,然而这些信息往往不是一目了然的,蕴含在大量的数据之中,如何从这些海量的数据中萃取和提炼出可信度高的有效信息,寻找出潜在的有价值的隐含规律,实现对语言现象的量化研究,需要正确处理及分析数据,这就要求研究者了解和掌握一定的统计学知识,能够合理地使用统计方法。胡良平等学者认为一篇研究论文的质量主要取决于专业、文字和统计学3个方面,可见,统计方法使用几乎与专业知识表述同等重要,统计方法使用水平将会直接影响到论文的学术质量[1]。
《语言教学与研究》杂志由教育部主管、北京语言大学主办,是我国第一份对外汉语教学方面的专业性学术期刊,入选历次《中文核心期刊要目总览》和中文社会科学引文索引(CSSCI)来源期刊目录,是中国人文社会科学期刊AMI核心期刊,影响因子位列汉语语言学期刊的前列,引领着我国语言学科研究的整体发展。本文以该刊2014~2023年载文为对象,重点考察载文中统计方法使用情况及其效果,比较使用不同类型统计方法论文的被引频次、施引文献中博士论文和CSSCI期刊论文以及被《人大复印报刊资料》转载论文的数据差异,以期从被引和转载角度了解统计方法使用对论文质量的影响,为该刊及其作者提高统计方法使用水平和提升论文质量寻找有益途径。
2. 研究对象与方法
2.1. 研究对象
本文以《语言教学与研究》2014~2023年刊载论文为研究对象。
2.2. 研究方法
2.2.1. 文献资料法
1) 论文检索:① 在中国知网全文数据库查询、导出2014~2023年该刊论文的篇名、作者、发表时间、被引量、下载量、关键词、基金项目等基本信息数据;在中国知网引文数据库,导出同时段载文的被引用数据。② 在人大复印报刊资料(https://www.rdfybk.com/)主页面,检索2014~2023年载文被人大复印报刊资料全文转载的论文信息。③ 人工剔除专题笔谈、书评、通知、演讲录、会议综述、消息、短讯、讣告等非学术类文章后,最终获得论文630篇,检索时间为2025年6月3日。
2) 统计方法使用调查:① 首先课题组人员对每篇论文进行全面浏览,确定其是否使用统计方法。② 对于使用统计方法的论文,逐篇认真阅读,对仅有统计数、百分比、平均数和标准差等统计量的论文归为使用描述统计类,对含有参数检验、非参数检验、相关、回归、聚类分析、因子分析等方法的论文归为使用推断统计类;在同一篇论文中,若重复使用同一种统计方法,则仅记录1次,若方法不同则分别记录,将其所用的统计方法类型、不当之处以及存在的缺陷,记录在预先设计的调查表内。③ 甄别完成后,课题组其他成员按照调查表中所列项目进行复审,如有不同意见,课题组成员进行充分讨论,并向有关统计专家咨询,以取得一致意见。
2.2.2. 数理统计法
利用Microsoft Office Excel 2016对所获得的资料和数据进行了统计处理。
3. 研究结果与分析
在统计学中,常常根据分析目的和数据使用方式的不同,将统计方法分为描述统计方法和推断统计方法,前者主要包括平均数、中位数、众数、极差、方差、标准差、变异系数等统计量,后者主要包括参数检验、非参数检验、相关和回归分析、聚类分析、因子分析等方法。
3.1. 载文统计方法使用情况分析
3.1.1. 各年度发表论文数量及统计方法使用情况总体分析
《语言教学与研究》为双月刊,2014~2023年共出版10卷60期,刊载学术论文630篇,年均载文量63篇,略高于2014~2015年11种汉语语言学类CSSCI来源期刊58.81篇的年均载文量[2]。从各年度载文数量情况看,2023年比2014年减少了24篇,下降幅度为30.38%;10年间的期均载文量为10.50篇,低于2013~2015年36种教育学CSSCI期刊18.49篇的期均载文量[3],总体来说,近十年来该刊年载文量和期均载文量均呈现出了明显的逐年下降趋势,具体详见图1。
统计数据显示,该刊630篇论文有237篇论文在研究过程中使用了统计方法,占全部论文总数的37.62%,其中使用描述统计方法的论文有139篇,占全部论文总数的22.06%,使用推断统计方法的论文有98篇,占全部论文总数的15.56%。从各年度统计数据看,使用统计方法论文比例在31.15%~46.88%之间,平均值为37.62%,呈现波浪式增长的变化趋势;使用推断统计方法论文比例在8.86%~19.67%之间,平均值为15.56%,也呈现出了波浪式缓慢增长的变化趋势,推断统计方法论文平均比例略低于SSCI收录的语言类国际期刊《Language Learning》和《Studies in Second Language Acquisition》2000~2010年的19%的总体水平[4]。
3.1.2. 发表论文中推断统计方法使用情况分析
其他学者研究结果显示,描述统计方法已逐渐为语言学科研究者所熟悉,几乎所有量化研究的论文中均有出现,但推断统计方法尚未在语言学科研究界得到广泛使用。由于各年度使用推断统计论文数量较小,我们将近10年分为了2014~2018年和2019~2023年两个阶段,从表1可以看出,方差分析、t检验、相关
Figure 1. Statistical chart of annual publication volume and statistical method usage
图1. 各年度发表论文数量及使用统计方法情况统计图
和回归分析等常规推断统计方法是目前该刊作者使用的主流方法,相对而言,非参数检验、聚类分析、因子分析、主成份分析等高阶统计方法使用较少,统计方法种类相对单一、零散。经X2检验,各种推断统计方法的使用在2014~2018年和2019~2023年的两个阶段的变化并没有统计学意义上的差异(P值均大于0.05),也可以说,在推断统计方法的使用率方面,2019~2023年比2014~2018年并没有多大提高。语言学科属于人文社会学科,大多数研究者为文科背景,没有系统地学习过统计学课程,缺乏基础的统计学知识,没有接受过正规的统计学实践训练,计算机操作和编程能力也有所不足,难以驾驭复杂的统计学专业软件,同时部分论文中还不同程度存在着统计方法错用、误用的现象,高阶统计方法使用能力有所欠缺,影响了研究论文的质量,使研究结论的信度和效度受到一定质疑,因此语言研究者亟待加强统计专业知识的学习,不断完善统计学知识结构,快速提升数据处理能力和统计技术应用水平[5]。
Table 1. Distribution table of inferential statistical methods used in published papers
表1. 发表论文中推断统计方法使用情况分布表
年度 |
2014-2018 N = 341 |
2019-2023 N = 289 |
合计 |
X2 |
P |
备注 |
t检验 |
30 |
24 |
54 |
0.05 |
0.83 |
|
方差分析 |
40 |
27 |
67 |
0.94 |
0.33 |
|
卡方检验 |
3 |
6 |
9 |
0.85 |
0.36 |
校正检验 |
相关 |
13 |
12 |
25 |
0.05 |
0.83 |
|
回归 |
9 |
13 |
22 |
1.60 |
0.21 |
|
其他 |
6 |
10 |
16 |
1.83 |
0.18 |
|
3.2. 使用不同统计方法论文的质量分析
学术论文的质量评价一直是学术界、科研管理界、人事管理界和图书情报界关心和关注的热点问题,学者们也在不断地探讨科学有效的质量评价方式,长期以来,学术论文的质量评价主要有基于同行专家评议的定性评价、基于文献计量指标的定量评价以及定性和定量相结合的综合评价等三种方式,其中可操作性强和应用较为广泛的是基于文献计量指标的定量评价。有专家指出:学术论文的定量评价可分为包括基金资助项目、参考文献数量以及合作规模等内部因素评价,基于论文发表期刊影响力、被引频次等外部因素评价,以及论文获得领导批示、获奖、转载(摘)和成果转化等应用层面的评价[6]。
3.2.1. 使用不同统计方法论文的被引频次分析
被引频次是指一篇论文自发表以后到特定统计时间的被引用总次数,它是一个绝对数量指标,被看作是同行评议的投票,常常用来表征学术研究成果的质量。一般来说,某论文的被引频次在一定程度上可以反映其在该领域内的学术地位,被引频次数量越大,说明该研究成果具有前瞻性和引领性,其学术质量和影响力也就越高,属于该领域内的重要文献。
统计数据显示,截至2025年6月3日,该刊630篇论文中共有623篇论文被引用,总被引频次为16,924,期刊论文被引率为98.89%,篇均被引26.86次,与其他期刊相比,高于2004~2013年9种高等教育类CSSCI来源期刊(4.41~12.01次)、2015~2017年8种编辑出版类核心期刊2.99次和2012~2021年《北京体育大学学报》近20次的数值[7]-[9],表明该刊用稿质量较高,载文的学术参考价值较大,已经成为语言教学和对外汉语教学领域的重要科研情报来源。2024年该刊复合类影响因子达到3.991,在62种H类语言文字期刊中位列第三名,在汉语语言学类中文期刊中位列第一名,影响力指数CI值为941.128,位列汉语语言学类中文期刊第一名。
Table 2. Statistical table of cited frequency metrics using different statistical methods
表2. 使用不同统计方法论文被引频次指标统计表
统计量 |
论文数量 |
总被引频次 |
平均值 |
中位数 |
标准差 |
偏度 |
单篇最大 |
D值 |
未使用统计方法论文 |
393 |
10,985 |
27.952 |
16 |
38.419 |
4.222 |
380 |
0.231 |
使用描述统计方法论文 |
139 |
3449 |
24.813 |
15 |
31.028 |
3.736 |
228 |
0.205 |
使用推断统计方法论文 |
98 |
2490 |
25.408 |
15.5 |
28.712 |
2.999 |
199 |
0.178 |
总体情况 |
630 |
16,924 |
26.863 |
16 |
35.499 |
4.136 |
380 |
0.223 |
注:D(0.05, 393) = 0.067,D(0.05, 139) = 0.115,D(0.05, 98) = 0.137。
采用Kolmogorov-Smirnov检验(简称K-S检验)方法对该刊论文被引频次的频数分布进行检验,从得到的K-S检验D值看(见表2),无论是被引频次的整体分布,还是未使用统计方法论文、使用描述统计方法论文和使用推断统计方法的论文的被引频次分布,都不呈现正态性,不符合参数检验的使用条件,因此无法使用参数检验对它们的关系进行判别。表2数据显示,未使用统计方法论文被引频次的平均值略大于使用描述统计方法论文和使用推断统计方法的论文的被引频次的平均值,为进一步了解它们的具体关系,选择置信度为0.05,使用Kruskal-Wallis H检验对未使用统计方法论文、使用描述统计方法论文和使用推断统计方法的论文的被引频次进行非参数检验,得H未使用-使用 = 0.141,H描述-推断 = 0.150,X2(1, 0.05) = 3.84,H < X2,P > 005,结果表明它们之间不存在统计学意义上的差异,说明使用统计方法并没有提高论文的被引频次,从论文的被引频次角度讲,使用统计方法并没有在实质上提升学术论文的质量。
3.2.2. 助力高层次语言研究的学术贡献比较分析
研究人员进行科学研究,撰写学术论文,是对自己研究过程和内容的系统总结,发表学术论文的目的是介绍和推广自己的研究成果,进行学术交流。判断一篇研究论文有学术价值和贡献的重要体现是能否被他人广泛地阅读、参考和引用,特别是被优秀的同行学者所引用,为他们的研究提供思路、方法和观点上的参考与借鉴。我们在使用被引频次对论文质量进行评价时,隐含的假设是每篇施引文献(即引用该论文的论文)对同一篇被引论文的引用价值是等同的,但就某篇论文而言,施引文献的质量应与其学术水平成正比,如果施引文献为博士论文或是发表在有影响力的学术期刊上(如CSSCI期刊)的论文,说明在该论文的基础上能够产生出了优秀的学术成果,则该论文的影响力和学术贡献就不言而喻了,因此我们对该刊载文施引文献中的博士论文和CSSCI期刊论文篇数进行了统计,以通过施引文献的质量来评价论文和作者对学科的高层次学术贡献。
1) 使用不同统计方法论文施引文献中博士论文数量分析
博士生教育居于我国学历教育体系的顶端,代表着学历教育的最高层次,而博士论文作为体现其专业理论、科研能力和创新水平的重要成果,已经成为学术界非常重要的科研文献。表3数据显示,在该刊630篇载文的16,924篇施引文献中,有1040篇为博士论文,占全部施引文献的6.15%。在不同统计方法使用论文施引文献中的篇均博士论文方面,未使用统计方法论文的平均值最高,而使用推断统计方法论文的平均值最低,这可能与语言学科是人文社会学科,量化研究还没有成为该领域学者的研究主流有关,同时说明博士研究生在博士论文的撰写过程中,并未十分青睐该刊使用统计方法的论文,将它们作为博士论文的参考文献。该刊使用统计方法的论文对他们的学术贡献低于未使用统计方法的论文,可以说使用统计方法并未提高论文对语言学科研究的高层次学术贡献。
Table 3. Statistical table of doctoral dissertations in citing literature
表3. 施引文献中博士论文篇数指标统计表
统计量 |
论文篇数 |
施引文献总篇数 |
博士论文总数 |
博士论文
所占比例% |
平均值 |
标准差 |
D值 |
未使用统计方法论文 |
393 |
10,985 |
752 |
6.85 |
1.913 |
2.912 |
0.253 |
使用描述统计方法论文 |
139 |
3449 |
192 |
5.57 |
1.381 |
1.779 |
0.214 |
使用推断统计方法论文 |
98 |
2490 |
96 |
3.86 |
0.980 |
1.392 |
0.228 |
总体 |
630 |
16,924 |
1040 |
6.15 |
1.651 |
2.531 |
0.368 |
注:D(0.05, 393) = 0.067,D(0.05, 139) = 0.115,D(0.05, 98) = 0.137。
2) 使用不同统计方法论文施引文献中CSSCI期刊论文数量分析
CSSCI是中文社会科学引文索引英文全称“Chinese Social Sciences Citation Index”的缩写。CSSCI来源期刊由是南京大学中国社会科学研究评价中心根据中文社会科学引文索引指导委员会确定的选刊原则和方法,从我国中文社会科学期刊中遴选出来优秀期刊,约占我国正式刊行的社科期刊总数的8%~15%,俗称南大核心,与北京大学《中文核心期刊要目总览》入选期刊俗称北大核心相对应。CSSCI期刊代表着我国社科期刊的最高层次,学者在核心期刊发表论文能够较好地反映其科研水平和学术影响,特别是在CSSCI期刊上发表论文本身就是学术界的一种肯定,在CSSCI期刊上发表论文是许多高层次社科基金项目结题验收的必需条件,倍受广大社会科学研究者的重视。
据统计,截至2025年6月3日,该刊载文的施引文献中有2178篇为CSSCI期刊论文,占全部施引文献的12.87%,具体见表4。该刊作为我国语言文学类著名期刊和重要文献来源,其载文已经成为了语言学科文献学上的巨人肩膀,为语言学科的发展做出了较大贡献。从使用不同统计方法论文施引文献中的CSSCI期刊论文平均值来看,未使用统计方法论文的均值略大于使用描述统计方法论文和使用推断统计方法论文,但差距不大,为进一步了解它们之间的区别,我们在选择置信度为0.05的条件下,使用Kruskal-Wallis H检验方法对这三组数据进行检验,H未使用-使用 = 6.668,H描述-推断 = 0.255,X2(1, 0.05) = 3.84;说明未使用统计方法论文与使用统计方法论文存在统计学意义上的差异,而使用描述统计方法论文和使用推断统计方法论文不存在统计学意义上的差异,说明使用统计方法的论文并没有过多地被CSSCI期刊论文作者所引用,使用统计方法并没有增加施引文献中CSSCI期刊论文的篇数,对高层次语言学科研究的学术贡献也没有超过未使用统计方法的论文。
Table 4. Statistical table of CSSCI journal papers counts in citing literature
表4. 施引文献中CSSCI期刊论文篇数指标统计表
统计量 |
论文篇数 |
施引文献总数 |
CSSCI论文篇数 |
CSSCI论文比例% |
平均值 |
标准差 |
D值 |
未使用统计方法论文 |
393 |
10,985 |
1504 |
13.69 |
3.827 |
5.611 |
0.276 |
使用描述统计方法论文 |
139 |
3449 |
380 |
11.02 |
2.734 |
3.623 |
0.218 |
使用推断统计方法论文 |
98 |
2490 |
294 |
11.81 |
3.000 |
4.228 |
0.229 |
总体 |
630 |
16,924 |
2178 |
12.87 |
3.457 |
5.049 |
0.245 |
注:D(0.05, 393) = 0.067,D(0.05, 139) = 0.115,D(0.05, 98) = 0.137。
3.2.3. 不同统计方法使用论文被《人大复印报刊资料》转载情况分析
《人大复印报刊资料》连同《新华文摘》《中国社会科学文摘》及《高等学校文科学术文摘》,是中国社会科学学术界公认的四大文摘。人大复印报刊资料转载的文章具有较高的学术价值和影响力,被认为是衡量论文学术质量和学术水平的重要指标之一。
Table 5. Statistical table of reprinted papers number in “Reprinted Materials of Renmin University” of using different statistical methods
表5. 不同统计方法使用论文被《人大复印报刊资料》转载情况统计表
人大资料复印情况 |
未使用统计方法论文 |
使用描述统计方法论文 |
使用推断统计方法论文 |
总计 |
复印篇数及比例 |
42 (10.69%) |
8 (5.76%) |
4 (4.08%) |
54 (8.57%) |
未复印篇数及比例 |
351 (89.31%) |
131 (94.24) |
94 (95.92) |
576 (91.43%) |
总计 |
393 |
139 |
98 |
630 |
表5数据显示,截至2025年6月3日,该刊2014~2023年载文共有54篇被《人大复印报刊资料》全文转载,占全部发表论文的8.57%,年均转载量为5.40篇,接近中国语言文学学科各年度前30名期刊的最低转载量,但远远低于2023年版复印报刊资料重要转载来源期刊年均转载量为12.59篇的数值。
统计数据显示,未使用统计方法论文有42篇被《人大复印报刊资料》转载,占全部未使用统计方法论文的10.69%,占全部复印论文的77.78%,复印转载篇数比例大于使用描述统计和使用推断统计方法的论文,说明使用统计方法也未能提高载文被《人大复印报刊资料》转载的比例,从被《人大复印报刊资料》转载角度讲,使用统计方法并没有能够提升论文的学术质量。
3.2.4. 研究局限性
影响论文质量的因素和评价方式众多,本研究择论文的被引频次、论文施引文献中博士论文数量和CSSCI期刊论文数量以及论文被《人大复印报刊资料》转载情况等指标,仅从被引和转载的视角对统计方法使用对论文质量的影响进行探讨,论文质量评价指标不够全面,无法涵盖论文质量评价的所有因素,没有区分不同研究主题论文的质量差异,研究还存在一定的局限性,我们将在后续研究上继续加以完善,为其他学者的深入研究提供一个参考方向。
4. 结论与建议
4.1. 结论
1、该刊载文使用推断统计等高阶统计方法论文的比例偏低,且前后两个五年的方法种类变化不大,说明该刊作者的统计方法使用意识不强、能力不高,应用统计方法对语言问题进行量化研究还没有成为该刊作者的常用途径和手段。
2、该刊使用统计方法论文的被引频次数量和被《人大复印报刊资料》转载比例均没有超过未使用统计方法论文,统计方法使用在影响论文质量提升方面并未能起到应有作用;使用统计方法论文施引文献中博士论文篇数和CSSCI期刊论文篇数都低于未使用统计方法的论文,使用统计方法论文对语言学科的高层次学术贡献同样没有得到较好体现。可见,统计方法使用与多项论文质量指标之间并未呈现出显著正相关,统计方法使用未能实现促进论文质量提升的良好效应,这也说明当前该刊论文统计方法应用质量与范式契合度有待提升。
4.2. 建议
4.2.1. 科学制定论文发表的统计方法使用规范
可借鉴《北京中医药大学学报》和中华医学会杂志社的做法[10] [11],对本刊发表论文中的统计方法使用作出具体规定。一是让投稿作者有明确的统计方法表述参考标准,有利于论文统计方法内容的撰写;二是让编者和审稿专家能够更好地判断论文统计方法使用是否恰当,以便核实研究结果的合理性和准确性。
4.2.2. 加强语言学科研究人员统计学素质的职前培养和职后培训
职前培养方面,一是建议语言学科研究生培养单位在人才培养方案中增设统计学课程,让硕士、博士研究生通过统计学课程的学习,掌握统计学的基础知识和基本原理,从本质上理解各种统计方法使用的前提条件、适用范围和注意事项;二是进行统计方法使用指导,多让研究生参与导师的科研项目,接受规范的统计方法实战训练;三是加强语言学科统计学教材建设,结合语言学科研究生的实际情况,补充教材中没有出现的知识和检验方法,增加理论与实践相结合的典型案例和统计软件使用介绍,突出统计学教材的实用性和适用性[12]。职后提升方面,语言学科研究者要高度重视统计方法的使用,可通过自学或进修的方式,系统学习统计学基础知识,削除对统计学使用的畏惧心理,并将统计方法应用到自己的科研实践之中,遇到困难和问题应及时向统计专家请教,努力提高自己的统计学素养。
4.2.3. 重视编辑统计学素养的培训和提高
编辑们要重视统计学素养的学习与提高,通过多种方式自觉学习统计学专业知识,定期参加相关编辑统计业务知识培训,不断更新自己的统计学知识储备,积极向统计学专家请教或研读相关统计学书籍或研究论文来提高自身的认知水平,提高对统计方法使用错误的甄别能力,把好论文发表入口关。
4.2.4. 强化审稿的统计学核查环节
审稿专家除评议论文内容以外,还应注重统计方法的核查,可以邀请具有统计学背景的专家担任审稿人,重点关注研究设计、使用条件和方法选择等环节存在的问题,解决统计描述不规范以及存在的深层次统计错误问题,提出具体修改的建议与意见,从而保证论文的学术质量[13]。
4.2.5. 增设统计方法使用指导专栏
期刊可邀请专家开设统计学知识讲座,介绍语言研究中常用统计方法、注意事项和典型错误;加强统计方法应用探讨,刊登编者、作者和读者关于统计方法使用经验介绍,增进彼此间的沟通与交流,引导更多作者重视统计方法的使用,充分发挥统计方法对论文质量提升的促进作用,提高语言学科研究的准确性和科学性,为语言学科的高质量发展做出贡献。
基金项目
本文系莱芜职业技术学院高等职业教育研究专项基金(编号:202011)和山东省艺术科学重点课题“双高计划背景下山东省高职学校人文社会学科学术影响力评价比较研究”(编号:L2025Z05160420)研究成果之一。
NOTES
*通讯作者。