基于RWD数据库的能源学科撤稿论文特征分析及启示
Analysis of Retracted Papers in Energy Discipline Based on Retraction Watch Database
DOI: 10.12677/sa.2024.135184, PDF, HTML, XML,    科研立项经费支持
作者: 杨赛洲:中国石油大学(北京)理学院,北京;景民昌*, 王晓娜:中国石油大学(北京)图书馆,北京
关键词: 科研诚信学术不端论文撤稿RWD数据库文献计量Research Integrity Academic Misconduct Paper Retraction RWD Database Bibliometrics
摘要: 近10多年来,全球学术论文大规模撤稿现象日益突出,分析撤稿论文特征,总结撤稿现象背后的规律性问题,有助于了解、识别和防范学术不端行为。基于RWD数据库,对能源学科的撤稿论文进行文献计量学研究,分析撤稿论文的整体趋势、撤稿时滞、国家分布、主体类型、撤稿原因等多方面特征,对比中国、印度、美国在学术不端行为方面的差异,提出要正确认识撤稿现象,各种科研主体应协同防范和治理学术不端,重视和合理评价人工智能时代的AIGC论文等建议。研究结果为我国能源学科科研活动全流程监管提供预警信息,为学术不端行为的识别、防范和治理提供参考。
Abstract: In recent 10 years, the phenomenon of large-scale retractions of academic papers has become increasingly prominent worldwide. Analyzing the characteristics of retracted papers and summarizing the regularity behind the phenomenon will help to understand, identify and prevent academic misconduct. Based on RWD database, this paper conducts a bibliometric research on retracted papers in energy discipline, analyzes the overall trend, time lag, country distribution, subject types, reasons for retractions and other characteristics of retractions, compares the differences in academic misconduct in China, India and the United States, and proposes to correctly understand the retractions phenomenon. Various scientific research bodies should cooperate to prevent and control academic misconduct, attach importance to and reasonably evaluate AIGC papers and other suggestions in the era of artificial intelligence. The research results provide early warning information for the whole process supervision of energy scientific research activities in China, and provide reference for the identification, prevention and management of academic misconduct.
文章引用:杨赛洲, 景民昌, 王晓娜. 基于RWD数据库的能源学科撤稿论文特征分析及启示[J]. 统计学与应用, 2024, 13(5): 1899-1908. https://doi.org/10.12677/sa.2024.135184

1. 引言

科研诚信是科学创新的基石,是每一个科技工作者应该终身遵守的行为准则。然而,近年来随着科技论文数量的不断增加,撤稿现象也愈演愈烈。撤稿通常是由于论文存在抄袭、数据造假、重复发表等学术不端,或研究错误、学术存疑、出版问题等“诚实性错误”引起的论文从出版物或数据库被撤回的现象。虽然撤回是学术交流的一个自我修正过程,是学术界的自我净化,甚至被认为是科技创新能力发展的一种重要指标[1],但是论文撤回终究会或多或少地损害科研工作者的个人声誉,甚至对科学界的研究可信度产生长远的负面影响。

撤稿现象已经引起了科技管理部门的高度重视,也促使学界对其展开研究。国外对撤稿现象关注较早,20世纪末就有学者对生物学领域的撤稿现象进行分析[2]。近年来,国内对撤稿现象的研究也逐渐丰富起来。目前已有不少研究从国家或地区分布[3] [4]、数据库来源[5]、开放获取期刊[6] [7]、科研伦理失范[8]等视角开展研究。也有不少研究人员对不同学科或领域的撤稿特征和原因进行分析。如,鲁博等分析了农学领域的论文撤稿原因[9],田甜分析了医学领域论文撤稿情况[10],陈奕公等对国际医药领域论文造假现象进行分析,探讨对中医药研究的启示[11]

本文选择能源学科的撤稿论文作为研究对象,主要聚焦于两个问题:(1) 能源学科撤稿论文的基本特征是什么,与其他学科相比有无显著差异?(2) 能源学科存在着哪些明显的学术不端现象,我国与国外有什么不同?在回答这两个问题的基础上,总结能源学科撤稿论文所反映出的规律性问题,尝试为我国能源学科科研活动全流程监管提供预警信息,为学术不端行为的识别、防范和治理提供参考。

2. 数据与方法

2.1. 数据来源

本研究采用的撤稿数据来源于撤稿观察数据库(RWD, Retraction Watch Database),网址为http://retractiondatabase.org。该数据库创建于2010年8月,旨在帮助公众关注科学不端行为及其纠正过程,收录了1990年以来几乎所有的撤稿文献,且数据仍在不断回溯和更新中。目前RWD已有超过52,000余条撤稿信息,在同类数据库中规模最大、涵盖面最广。2023年9月,RWD宣布被Crossref收购并为公众提供免费开放服务。RWD的免费开放,对学术界来说是一个重要的进步,它有助于提高学术出版的透明度和可信度,同时也使得研究人员能够更加准确地引用和评估学术文献。

本次研究从RWD下载了全部撤稿数据,导入本地数据库后,以“Subject”字段限定为“(PHY) Energy”,“Retraction Nature”字段限定为“Retraction”进一步筛选数据并去重,共获得能源学科撤稿论文790篇。数据下载时间为2024年3月8日。

2.2. 数据处理

采用Excel保存检索结果,使用Python编程提取撤稿论文的发表时间、撤回时间、国别以及撤回原因进行统计分析。为了方便与其他学科对比,将数据分为两个样本:一个为能源学科撤稿数据(790篇),另一个为其他学科撤稿数据(47,668篇)。一篇论文可能属于多个领域,在其他学科样本数据中,仅排除了“Subject”只属于“(PHY) Energy”的论文。这部分论文有51篇,占全部样本数据的0.1%。

RWD中标注的撤稿原因高达100余种[12],且每篇论文的撤稿原因不止1种。为了更清晰地分析撤稿原因,区分学术不端行为和“诚实性错误”,本文参考前人研究成果[3] [6] [10],按三级体系对撤稿原因进行分类。首先,将撤稿原因分为学术不端、非学术不端两大类。然后,将学术不端归纳为学术造假、抄袭剽窃、违反伦理或法律、不当行为等4种类型;而非学术不端则分为学术存疑、接受调查、研究错误、出版原因、沟通不畅、其他原因等6种(表1)。

Table 1. Reasons and categories for retractions related to RWD

1. RWD撤稿原因及类别

类别

主要原因*

学术不端

学术造假

Fake Peer Review (伪造同行评议);Paper Mill (论文工厂);(Randomly Generated Content (随机生成内容);Falsification/Fabrication of Data (捏造数据); Manipulation of Images (图像造假)

抄袭剽窃

Duplication of Image (图像重复);Duplication of Article (论文重复发表); Euphemisms for Plagiarism (一般性剽窃);Plagiarism of Article (论文一般性剽窃)

违反伦理或法律

Breach of Policy by Author (作者违反政策);Ethical Violations by Author (作者违反伦理);Informed/Patient Consent - None/Withdrawn (未征得患者同意);Legal Reasons/Legal Threats (违法或违反协议);Complaints about Author (未征得作者同意)

不当行为

Misconduct by Author (作者不当行为);Rogue Editor (“流氓”编辑); Misconduct - Official Investigation/Finding (官方调查的不当行为);Misconduct by Third Party (第三方不当行为);Euphemisms for Misconduct (一般性不当行为)

非学术不端

学术存疑

Unreliable Results (结果不可信);Concerns/Issues About Data (数据存疑); Concerns/Issues about Referencing/Attributions (参考文献存疑);Concerns/Issues with Peer Review (同行评议存疑);Concerns/Issues About Results (结果存疑)

接受调查

Investigation by Journal/Publisher (出版商调查);Investigation by Third Party (第三方调查);Investigation by Company/Institution (机构调查);Investigation by ORI (ORI调查)

研究错误

Error in Data (数据错误);Error in Results and/or Conclusions (结果错误);Error in Analyses (分析错误);Error in Methods (方法错误);Error in Image (图像错误)

续表

出版原因

Upgrade/Update of Prior Notice (通知更新);Lack of IRB/IACUC Approval (缺少IRB/IACU同意);Lack of Approval from Author (缺少作者同意); Objections by Author(s) (作者反对);Retract and Replace (撤回并替换)

沟通不当

Author Unresponsive (作者未回应);Miscommunication by Author (作者沟通不当);Miscommunication by Journal/Publisher (出版商沟通不当); Miscommunication by Third Party (第三方沟通不当)

其他原因

Notice - Limited or No Information (信息不足);Date of Retraction/Other Unknown (撤回日期);Withdrawal (撤回);Notice - Lack of (缺乏通知);Notice - Unable to Access via current resources (不能访问现有资源)

*因RWD撤稿原因种类较多,本文根据统计结果,每类别仅列出数量较多的前5种原因。

3. 研究结果

3.1. 撤稿趋势

能源学科最早的撤回论文是由英国科学家本杰明·威尔逊于1753年发表于《Philosophical Transactions》的一篇题名为“Treatise upon Electricity”的论文。该论文在发表三年后被撤回,撤回时间为1756年6月24日。这也可能是目前发现的最早撤回论文。

除该论文外,能源学科直到2003年才再次有论文被撤回,且在2010/2011年、2018年、2023年形成3次较大的撤回峰值(2024年数据不全),撤稿趋势如图1所示。其中,2010/2011年、2023年和其他学科保持一致,且这两次大规模撤回涉及的期刊、会议等来源出版物也较多。而2018年大规模撤回主要是由于期刊Journal of Fundamental and Applied Sciences在该年被Web of Science取消收录。这一年该期刊一次性撤回了434篇论文,这也是全球已知的一次性撤稿数量最多的记录,其中37篇为能源学科论文。

Figure 1. The trend in the withdrawal of research papers

1. 论文撤稿趋势

撤稿时滞是论文的撤回日期和发表日期之间的时间差,是一种表征论文错误得到及时识别或纠正的指标。从撤稿时滞看,能源学科的平均撤稿时滞为1.38年,最大撤稿时滞为12.16年,远低于其他学科的平均撤稿时滞(2.28年)和最大撤稿时滞(81.16年)。能源学科87%的论文撤稿时滞在3年以内(图2),即绝大部分撤稿论文的学术不端或错误行为能够在3年内被发现或识别,但是也有少量论文的撤稿时滞长达10年以上。如,我国某学者于2009年发表在“Proceedings of the Institution of Mechanical Engineers, Part A: Journal of Power and Energy”上的一篇论文,直到2021年5月17日才因为重复发表被撤回,时滞长达12年之久。

Figure 2. Distribution of the time lag in research paper retractions

2. 论文撤稿时滞分布

3.2. 撤稿原因特征

能源学科的撤稿原因共有68种,发生总频次为2695次。由图3可见,其撤稿原因分布特征和其他学科大体一样,均以接受调查、研究存疑等非学术不端原因数量最高,其次为学术造假、抄袭剽窃等学术不端原因。

在790篇撤稿论文中,有508篇涉及学术不端而被撤回,占比64.3%,这一比例高于医学领域(53.4%) [10]。其中,学术造假、抄袭剽窃分别达到了29.0%和28.9%,略高于其他学科,而违反伦理或法律的撤稿原因则远低于其他学科。这可能是因为在其他学科中,存在着大量的医学类撤稿论文,而医学类撤稿更可能是因为违反伦理或法律[10]

在非学术不端原因的撤稿论文中,接受调查、研究存疑是能源学科的两种主要撤稿原因,其占比和其他学科大略相同;而出版原因、研究错误、沟通不畅的撤稿原因,占比则略低于其他学科。

Figure 3. Categories of reasons for retractions

3. 撤稿原因类别

3.3. 撤稿国家分布

能源学科的撤稿国别特征和其他学科完全不同。在能源学科撤稿数量最多的10个国家中,绝大多数是发展中国家,且以能源需求国或能源产出国为多,如中国、印度、俄罗斯、伊朗、土耳其等,而发达国家相对较少(图4(a))。而在其他学科中,除了中国、印度、伊朗等发展中国家外,美国、英国、德国、日本等发达国家的撤稿论文也较多(图4(b))。另外,我国在能源学科的撤稿数量有331篇(包括中国香港、澳门、台湾地区7篇),占比高达40.48%,虽略低于其他学科(50.51%),但论文撤稿的严重程度亦不能忽视。

Figure 4. Distribution of retracted papers by country

4. 撤稿论文国家分布

中国、印度是能源学科中撤稿数量最多的两个发展中国家,美国是撤稿数量最多的发达国家(图4),但三个国家的撤稿原因分布特征略有不同。由图5可见,中国、印度两国的撤稿均以接受调查、学术存疑等非学术不端原因和学术造假等学术不端原因为主,但印度的学术造假撤稿数量远高于中国,几乎是中国的两倍以上,接近60%。美国的撤稿以研究错误的原因最多,学术造假占比则和中国大略相同,但美国的抄袭剽窃撤稿远高于中国,而中国在学术伦理和法律方面重视不够,因违反伦理或法律而撤回的论文数量远高于美国和印度。

Figure 5. Comparison of retraction reasons in China, India, and the United States

5. 中、印、美撤稿原因对比

3.4. 撤稿主体类型

论文发表是一个涉及作者、作者机构、期刊/会议、编辑、审稿人、出版商以及诸多其他相关方的学术活动过程。根据RWD对撤稿原因的详细描述[12],本文从撤稿的责任方(或发起方)角度,将每一种撤稿原因归结到作者(含作者机构)、出版方(包括编辑、审稿人等)、第三方(包括管理机构、患者等样本对象)三种主体对象,即“撤稿主体”。分析撤稿主体有助于深入了解撤稿原因。

表2是对不同撤稿主体及其撤稿原因分布的统计。作者的学术不端主要表现在抄袭剽窃,占撤稿论文数量的28.86%;学术存疑是作者非学术不端撤稿中的主要原因,占比达35%。在出版方主体中,学术造假是学术不端撤稿的主要原因,而接受调查是非学术不端撤稿的主要原因;在第三方主体中,学术不端的撤稿原因极少,仅占0.1%左右,而接受调查的撤稿原因较多,接近20%。

Table 2. Distribution of entities involved in retractions and reasons for retractions

2. 撤稿主体及撤稿原因分布

稿主体

类型

分类

论文数/

占比/%

作者

学术不端

抄袭剽窃

228

28.86

学术造假

143

18.10

违反伦理或法律

62

7.85

不当行为

4

0.51

非学术不端

学术存疑

277

35.06

研究错误

49

6.20

出版原因

15

1.90

沟通不畅

15

1.90

接受调查

5

0.63

出版方

学术不端

学术造假

133

16.84

不当行为

47

5.95

非学术不端

接受调查

284

35.95

其他原因

240

30.38

学术存疑

117

14.81

出版原因

112

14.18

第三方

学术不端

违反伦理或法律

1

0.13

非学术不端

接受调查

155

19.62

出版原因

11

1.39

3.5. 学术不端行为

进一步分析4种学术不端类型(学术造假、抄袭剽窃、违反伦理或法律、不当行为)的撤稿原因。由图6可见,在能源学科中,伪造同行评议(Fake Peer Review)的学术不端行为最多,达到16.84%,其次为随机生成内容(Randomly Generated Content)和论文重复(Duplication of Article),占比分别约为15%、11%。而在其他学科中,作者违反政策(Breach of Policy by Author)和伪造同行评议的学术不端行为最多,图像重复(Duplication of Image)也较高。

值得注意的是,无论是能源学科还是其他学科,均存在着较为严重的“论文工厂”(Paper Mill)现象,因该原因撤回的论文占比均超过6%。

Figure 6. Comparison of academic misconduct

6. 学术不端行为对比

选取中、美、印三个国家撤稿数量最多的5种学术不端类型,对其撤稿原因进行对比,发现三个国家的学术不端现象表现出完全不同的特征(图7)。中国的学术不端行为以随机生成内容最多,达到了18.8%,其次为作者违反政策和“论文工厂”。印度的伪造同行评议占比高达47.6%,随机生成内容学术不端也远高于中国;而美国则以论文重复发表占比最多,其次为伪造同行评议。

Figure 7. Comparing academic misconduct in China, India, and the United States

7. 中、印、美学术不端行为对比

4. 讨论与建议

4.1. 正确认识撤稿现象

近年来,我国在科学研究领域取得了许多重要突破,为世界科学发展做出了重要贡献,在世界学术界的影响力不断提高。2022年,我国在各学科最具世界影响力期刊上发表的论文数量首次超过美国,成为世界第一论文产出国。同时,随着我国对科研诚信的不断重视,科研环境也在逐步改善。但是,伴随着论文总量的迅猛增长,我国的论文撤稿现象也日益突显,目前已成为撤稿数量最多的国家。其原因可能是多方面的,如:论文出版数量的急剧增加;对科研诚信和学术不端的治理逐渐重视;论文检测工具的研发和应用日益广泛;绩效考核压力下科研人员的失范行为显现。

虽然我国能源学科的撤稿数量占比低于其他学科,但同样也较为严重。我国正在从能源大国向能源强国转变,不可靠、不可信的学术研究会影响我国的能源转型进程,甚至会影响我国能源发展战略。因此,对于论文撤稿现象,科研人员、科研管理部门以及社会公众都应该引起足够的重视。

但是,在重视论文撤稿现象的同时,也应该正确认识撤稿论文,不应该把论文撤稿“污名化”。研究表明,撤稿不一定都是因为学术不端。如,在能源学科的撤稿论文中,最多的原因是接受调查、学术存疑等非学术不端类型,其次才是研究造假、抄袭剽窃等学术不端类型。即使是学术不端撤稿,在某种程度上也是学术界的一种自我净化措施。甚至有学者认为,撤稿行为正是学术诚信得到重视,科研环境得到改善而逐渐变好的信号,甚至是一种值得称赞的自我纠正[13]

4.2. 防范与治理学术不端需要各种科研主体的协同

科研人员不是科研环境的唯一主体,良好科研环境的塑造需要各种科研主体的协同参与,如科研人员、科研机构、期刊出版商、期刊编辑、评议专家、样本对象(如患者)、管理机构等。例如,我国发布的《学术出版规范:期刊学术不端行为界定》等规范,就对科研过程中各种主体的学术不端行为做了明确界定。

从科研主体的学术不端分布来看(表2),虽然来源主要是作者,但出版方的学术不端占比也较高,主要表现为伪造同行评议、“流氓”编辑(Rogue Editor)等。另外,第三方主体也有少量的学术不端行为。因此,学术不端的防范与治理,重点在论文作者,但也需要各种研究主体的协同参与。

4.3. 人工智能时代AIGC论文的识别和合理评价

值得关注的是,在能源学科的学术不端行为中,随机生成内容占比较高,接近15%,仅次于伪造同行评议。而我国的撤稿论文中,随机生成内容占比更高,接近20%。RWD对随机生成内容的定义是“通过Mathgen或Scigen等随机算法创建的文本或数据”[12]。但是,随着ChatGPT等生成式人工智能(AIGC)的诞生,AI生成式论文更值得关注。如何准确识别AI生成式论文并对其进行合理评价,判定其是否涉嫌学术不端,是学术界需要重新考虑的一个问题。在AI技术日益发展的今天,AI有助于学术研究效率的提高,已成为不争的事实,不应该将AI生成式论文“一棍子打死”,而应该把关注重点置于论文的创新性、科学性和客观性,而论文作者也应该本着学术诚信的宗旨,在论文中对AI生成内容进行明确声明或明显标注,以利于评审专家的合理评议。

5. 结语

本文分析了能源学科的论文撤稿现象,研究结果为能源学科的科研管理和学术诚信体系建设提供了有益的数据参考和治理抓手。研究还存在着一些不足,如:撤稿原因分类仅依据RWD的描述,未考虑我国相关的学术不端规范或文件;数据样本划分时,将能源学科以外的其他数据统归为其他学科,不利于更详细的学科特征对比。后续研究中,本文将针对这些不足,对样本数据作更细致的学科划分,优化撤稿原因分类,提高研究结论的合理性和针对性。

基金项目

本文系中国石油大学(北京)研究生教育质量与创新工程项目“碳中和情报信息服务体系建设”研究成果之一(编号:yjs2023013)。

NOTES

*通讯作者。

参考文献

[1] Chen, C.M., Hu, Z.G., Milbank, J., et al. (2013) A Visual Analytic Study of Retracted Articles in Scientific Literature. Journal of the American Society for Information Science and Technology, 64, 234-253.
https://doi.org/10.1002/asi.22755
[2] Budd, J.M., Sievert, M. and Schultz, T.R. (1998) Phenomena of Retraction: Reasons for Retraction and Citations to the Publications. JAMA, 280, 296-297.
https://doi.org/10.1001/jama.280.3.296
[3] 杨耀, 施筱勇. 基于撤稿观察数据库的论文撤稿国际比较研究[J]. 科技管理研究, 2021(10): 221-226.
[4] 廖安澜, 金子涵, 周志新. 中、日、印、韩四国被撤销论文特征比较研究[J]. 中国科技期刊研究, 2022, 33(8): 1147-1155.
[5] Grieneisen, M.L. and Zhang, M. (2012) A Comprehensive Survey of Retracted Articles from the Scholarly Literature. PLOS ONE, 7, e44118.
https://doi.org/10.1371/journal.pone.0044118
[6] 吴任力, 邓支青, 吴淑倩. 多维视域下开放获取期刊撤稿原因分析——基于Retraction Watch Database数据[J]. 科技管理研究, 2020, 31(3): 346-355.
[7] 邬亚文, 夏小东, 王彩红, 等. 植物学和农学学科开放获取和收费获取论文撤稿原因的比较分析[J]. 编辑学报, 2022, 34(1): 62-67.
[8] 陈咏梅, 丛敏, 王景周, 等. 学术论文中科研伦理失范现状、特征及治理策略思考——基于撤稿观察数据库[J]. 科技管理研究, 2022(24): 198-207.
[9] 鲁博, 武星彤, 李梅玲, 等. 农业技术类期刊作者撤稿原因分析与思考[J]. 编辑学报, 2023, 35(S): 31-34.
[10] 田甜. 医学论文撤稿情况分析与学术不端防范策略[J]. 医学与哲学, 2024, 45(7): 47-50.
[11] 陈奕公, 陈素红, 吕圭源. 国际医药论文造假现象对中医药研究的思考[J]. 中药药理与临床, 2024, 40(5): 86-92.
[12] Retraction Watch. Retraction Watch Database User Guide Appendix B: Reasons.
https://retractionwatch.com/retraction-watch-database-user-guide/retraction-watch-database-user-guide-appendix-b-reasons
[13] 袁子晗, 靳彤. 高影响力国际科技期刊撤稿论文特征分析及启示——以Cell、Nature和Science为例[J]. 中国科技期刊研究, 2024, 35(2): 216-224.