1. 引言
随着全球化的不断深入和信息技术的飞速发展,翻译技术在促进跨文化交流、加速知识传播、推动国际业务合作等方面发挥着日益重要的作用。从传统的字典、语法书籍到现代的计算机辅助翻译(CAT)软件、机器翻译(MT)以及本地化管理系统,翻译技术不仅极大地提高了翻译效率,还不断拓展了翻译服务的边界和可能性。
王华树对翻译技术作出了如下界定:“翻译技术是指翻译从业者在翻译过程中综合应用的各种信息技术,包括译前的格式转换、资源提取、字数统计、重复率分析、任务分析、术语提取、重复片段抽取技术、预翻译技术等;译中的辅助拼写、辅助输入、电子词典和平行语料库查询及验证、翻译记忆匹配、术语识别等;译后的质量检查、翻译格式转换、译后排版、翻译产品语言测试以及语言资产管理等技术。这些技术基本上涵盖了翻译从业者在翻译过程中可能用到的信息技术”[1]。在其《翻译技术研究》一书中(见表1),将翻译技术定义为人工翻译、计算机辅助翻译和机器翻译这三种类型中所使用的多种技术应用。
Table 1. Classification of translation technology
表1. 翻译技术的分类
人工翻译 |
计算机辅助翻译 |
机器翻译 |
文字处理工具 |
数据获取工具 |
机器翻译系统 |
拼写与语法检查工具 |
语料库分析工具 |
|
电子资源(如光盘) |
术语管理系统 |
|
互联网工具 |
翻译记忆工具 |
|
|
本地化与网页翻译工具 |
|
|
诊断评估工具 |
|
然而,近年来多数研究者多局限于某一研究领域,如语料库翻译学、本地化翻译服务管理或机器翻译系统研究,如王华树“信息化时代的计算机辅助翻译技术研究”一文[2];杨艳霞和王湘玲分析了中外机译应用研究的可视化(1998~2018) [3];张继东和陈文运用可视化分析国际语料库语言学[4];肖志清和金鸣研究了“国内机器翻译译后编辑研究:现状、问题与展望——基于中国知网数据库(1995~2022年)”[5]。依托大数据对翻译技术进行全面系统梳理,综合分析运用的研究成果尚不多见。本研究旨在通过收集、整理和分析近年来关于翻译技术的文献数据,运用CiteSpace 6.3.R1数据可视化软件,绘制2001~2024年中国知网(CNKI)收录的国内翻译技术研究文献的知识图谱。
2. 研究方法
2.1. 数据来源
为了获取有效样本,本研究所有的文献搜索均在同一天完成。本文数据来源于中国知网(CNKI)。在首页选择“期刊”,期刊页面设定为“高级检索”,在高级检索的“主题”一栏中分别输入“翻译技术、机器翻译、计算机辅助翻译和可视化分析”等主题词,时间跨度是2001年至2024年,根据关键词剔除不相关文献,以Refwords格式导出,最终用于分析的有效文献共计204篇。
2.2. 研究工具
本研究运用的可视化软件是基于Java平台研发的CiteSpace软件(6.3.R1版本),导入Refwords格式文献,运用软件内置的“作者、关键词以及机构”等运算分析模型,绘制知识图谱,对其研究动态、发展进程等进行可视化分析。在本次可视化计量分析过程中,将时间切片“Time Slicing”的值设置为1,Selection Criteria中K值设置为25,TOP N阈值为50,Prunning算法选择寻径网络算法,视觉可视化结果选择静态(Cluster View Static)显示最终的网络图谱效果图。
本文主要采用共现分析和聚类分析两大方法。共现分析可展现多个关键词出现的频次,以此探讨翻译技术的研究主题。聚类分析可将相近主题词聚类,再从聚类中展现高频词汇用于展示主题词的相互关系。
3. 翻译技术研究的基本特征
3.1. 发文量趋势
发文量趋势是指依托大型数据库,检索某领域或主题关键词得出某特定的时间段内的年度文献数据,绘制的发文量趋势图[6]。这种趋势图能够直观地展示该领域或主题的研究热度、发展速度以及可能的变化规律。借助CiteSpace 6.3.R1对204篇文献进行可视化分析,可以得到2001~2024年国内翻译技术研究的年度发文趋势,其具体情况如图1所示。
Figure 1. Annual number of published papers on domestic translation technology research (2001~2024)
图1. 2001~2024年国内翻译技术研究年度发文量
从图1可以看出,2001~2024年,国内翻译技术研究的发文数量整体呈动态变化。从2001至2006年,发文量较少,共计8篇。此时世界正处于巨大变革时期,中国于2001年加入WTO,对外贸易走上新的发展历程,需求的增加以及国际翻译界的双重影响下,激发了国内学者对翻译技术的初步探索。随后该领域开始了逐年稳健发展,直至2015年前后,全球化进程不断加深,信息技术飞速发展,学术界越来越多的人开始认可翻译技术这一课题的合理性,高校、研究机构以及企业也开始深度研究翻译技术。2018年人工智能元年的开启,使得语料库翻译学、计算机辅助翻译、机器翻译等新兴翻译技术快速发展,发文量持续攀升。由此可见,国内外经济形势、全球化进程、信息技术发展以及人工智能技术的兴起等宏观背景共同推动了该领域研究的不断深入。
3.2. 作者和科研单位分析
作者是文献的直接创作者和传播者。他们通过深入的科学研究,积累了丰富的数据和见解,进而将这些成果转化为文献,推动相关领域的进步。同一领域作者的研究中,高频关键词很有可能反映该学科的理论热点,甚至会出现相互协作的作者群体。因此,跟踪高产作者的科研成果有利于我们把握学科发展前沿。
通过分析2001~2024年间中国知网搜集到的文献数据,笔者统计了该领域论文发表量前十的作者,见表2。这些作者多数为高校教师或翻译学领域的专家。其中,王湘玲、王华树及周兴华为该领域高产作者,人均5篇,是该领域的领军人物。崔启亮、张政等人紧随其后。
通过该数据,借用CiteSpace 6.3.R1进行频次分析,我们绘制出作者共现图谱,见图2。笔者发现在该领域形成了几个以王华树、王湘玲、张政、王怡以及刘莉为首的作者集群,说明了这些作者在该领域的研究形成了紧密的合作网络。此外,廖剑、刘明、张政等人在近两年间研究力度较大,且成果显著。
Table 2. Statistical analysis of high-yield scholars
表2. 高发学者统计
编号 |
发文量 |
年份 |
作者名称 |
1 |
5 |
2010 |
王湘玲 |
2 |
5 |
2014 |
王华树 |
3 |
5 |
2013 |
周兴华 |
4 |
4 |
2013 |
崔启亮 |
5 |
3 |
2012 |
张政 |
6 |
3 |
2021 |
刘莉 |
7 |
3 |
2012 |
陆艳 |
8 |
3 |
2021 |
王怡 |
9 |
2 |
2021 |
杨义地 |
10 |
2 |
2019 |
邵璐 |
科研单位是研究文献的重要支持者和推动者。它们为研究人员提供必要的研究条件、经费支持和学术指导,确保研究工作的顺利进行。科研单位还通过设立科研项目、组织学术会议和出版学术期刊等方式,为研究文献的产生和传播提供平台和渠道。
选取发文量排名前十的科研单位完成表格,见表3。从科研单位来看,上海外国语大学发文7次,鲁东大学发文5次,南开大学发文4次,对外经济贸易大学发文4次,南京大学信息管理学院、浙江大学、北京师范大学、中南大学、湖南大学和广东外语外贸大学分别发文3次。
Figure 2. Co-occurrence map of high-yield scholars
图2. 高发学者共现图谱
从科研单位发文共现图谱(见图3)来看,图中的每一个节点代表一个科研单位,节点间的连线反映不同科研单位之间的合作关系,字体越大说明该单位发文量越高。图中共计191个科研单位,形成了以上海外国语大学、对外经济贸易大学以及中国翻译协会本地化服务委员会为首的群体,说明此单位对外合作发表论文次数较多。节点颜色越接近红色越说明该单位是近年来新加入该领域的研究单位,如湖南大学外国语学院、大连理工大学外国语学院等。
Table 3. Top 10 research institutions by number of published papers
表3. 发表论文排名前10的科研单位
排名 |
机构 |
发文频次 |
1 |
上海外国语大学 |
7 |
2 |
鲁东大学 |
5 |
3 |
南开大学 |
4 |
4 |
对外经济贸易大学 |
4 |
5 |
南京大学信息管理学院 |
3 |
6 |
浙江大学 |
3 |
7 |
北京师范大学 |
3 |
8 |
中南大学 |
3 |
9 |
湖南大学 |
3 |
10 |
广东外语外贸大学 |
3 |
Figure 3. Co-occurrence map of papers published by research institutions
图3. 科研单位论文发表共现图谱
3.3. 高被引文献统计
高被引论文通常指的是被引用频次相对较高的学术论文,反映了论文的质量高低和研究意义。见表4可查,崔启亮、李闻、王华树等作者是主要被引作者。在翻译技术研究的这一领域,其研究成果具有较高的引用频次,为相关领域的研究奠定了良好的基础。崔启亮主要聚焦于机器翻译的译后编辑领域,在译后编辑错误类型研究以及其发展趋势等方面进行了深入研究;李闻则关注了“文本类型 + 译后编辑”的研究领域,深入研究科技文本的翻译特点和译后编辑需求;王华树在信息化时代,紧跟时代发展前沿,研究计算机辅助翻译技术以及人工智能时代下,翻译技术的未来发展将何去何从,为翻译技术的创新和应用提供了有力的支持。
Table 4. Top 5 highly cited papers
表4. 排名前5的高被引文章
序号 |
被引
次数 |
文章名称 |
作者 |
期刊 |
发表
时间 |
1 |
788 |
论机器翻译的译后编辑 |
崔启亮 |
中国翻译 |
2014 |
2 |
476 |
译后编辑错误类型研究——基于科技文本英汉机器翻译 |
崔启亮李闻 |
中国科技翻译 |
2015 |
3 |
373 |
译后编辑研究:焦点透析与发展趋势 |
冯全功崔启亮 |
上海翻译 |
2016 |
4 |
115 |
信息化时代的计算机辅助翻译技术研究 |
王华树 |
外文研究 |
2014 |
5 |
69 |
人工智能时代翻译技术转向研究 |
王华树 |
外语教学 |
2021 |
4. 翻译技术研究热点与前沿
4.1. 关键词共现分析
在学术论文中,关键词扮演着至关重要的角色。它们不仅是论文内容的精简提炼,也是读者、研究者和学术数据库检索、分类和识别论文的重要工具。如果某一领域中反复多次出现的关键词,很有可能象征该领域的研究热点。笔者采用CiteSpace 6.3.R1软件生成国内2001~2024年翻译技术研究的关键词图谱,见图4。其中节点越大表明研究频次越高,线条颜色越接近橙色表明是近年来被广泛研究的关键词。
Figure 4. Keyword map of domestic translation technology research (2001~2024)
图4. 国内2001~2024年翻译技术研究的关键词图谱
图4中较大的节点包括:机器翻译、人工智能、翻译技术、翻译工具、译后编辑,以及众包翻译等。由此可知,对于翻译技术的研究主要集中在两大领域,一个是关于翻译技术的文献综述,一个集中在翻译技术的应用领域,如机器翻译、人工智能、译后编辑等。根据线条颜色的不同,笔者发现机器翻译和人工智能周边多为橙色线条,这说明这两大关键词是近年来的研究热点,译后编辑的周边线条由绿色变化为橙色,说明该领域逐渐吸引学术界的目光。
通过生成的关键词聚类时间线图(见图5),我们可以追踪以上提取出关键词的时间线。
Figure 5. Timeline map of keyword clusters
图5. 关键词聚类时间线图
机器翻译最早出现在2001年,持续时间一直延续到现在,说明机器翻译一直是翻译技术领域的研究热门,到2018年以后,随着人工智能时代的到来,简单的机器翻译已经不能满足翻译市场的需求,机器翻译的质量更多依赖于译者的译后编辑,翻译技术也从机器翻译逐渐过渡到人助机译阶段,学术界对机器翻译的研究也越来越频繁。人工智能首次出现的时间是2017年,这是因为2017年被称为人工智能元年,这一技术一出现立马被眼光独到的学者引入翻译领域,随后云译客、译马网以及网易见外等平台纷纷涌现,研究进入井喷模式。
翻译技术与翻译工具出现在2010年,到了2015年左右,随着翻译技术的长足发展,产生了一些译者的身份认同与伦理问题,这再次引发了学术界对这一话题的讨论。译后编辑自2010年出现以来一直是翻译技术研究领域的热点,2015年后重要地位仍在显著上升。这是由于在2010年前后,机器翻译技术取得了显著的进步,尤其是神经网络机器翻译(NMT)的初步发展,使得机器翻译的准确率有了大幅提升。一些具有影响力的翻译行业组织(如TAUS、ISO等)开始制定译后编辑的相关标准和指南[7]。这些都为译后编辑的良性发展奠定了基础。众包翻译在2012年出现,互联网出现产生了人和人之间交互的网络环境,各大翻译平台的出现为众包翻译提供了技术基础,日益增加的翻译市场为众包翻译提供了庞大的需求。综合上述分析可知,近年来翻译技术的发展逐渐转向机器 + 人工的双重操作之下,这也是为什么机器翻译、译后编辑、人工智能以及众包翻译逐年霸占研究热点的榜首。
4.2. 关键词聚类分析
在翻译领域的学术研究中,关键词聚类分析是一种重要的研究方法。通过这种方法,我们可以将众多的翻译相关关键词进行分类和归纳,形成清晰的主题或类别。
通过CiteSpace 6.3.R1的“Keyword”功能所得到的关键词共现图谱,我们可以依据出现频次提取前七大关键词聚类表,见表5。分别是机器翻译、译后编辑、人工智能、翻译技术、翻译工具、翻译以及众包翻译。除此之外,还统计了中心度( centrality)来衡量这一关键词的重要性。中心度高的节点往往在共现网络中占据重要的地位,对其他节点有着重要的影响。综合分析节点的频次和中心度有助于了解该领域的重要核心课题。据表5可知,机器翻译中心度为0.4是与本课题中心度相关性最高的关键词,因此是近年来翻译技术领域研究的热点问题。其次译后编辑与众包翻译中心度分别为0.19和0.16,这反映了随着全球化和信息技术的发展,尤其是云计算的发展,翻译已不再是一项简单的语言转换活动,而是涉及译者的意识形态和二次加工、语言技术工具开发以及多人协作等多方共同推动的复杂性活动。翻译技术的研究主题已经蔓延涉及翻译技术教学研究、机器翻译研究、译后编辑研究、计算机辅助翻译研究、本地化研究、译者信息素养研究和翻译技术伦理研究[8]。
Table 5. Top 7 keywords by occurrence frequency in papers
表5. 论文出现频次前7名的关键词
编号 |
频次 |
中心度 |
年份 |
关键词 |
1 |
36 |
0.4 |
2001 |
机器翻译 |
2 |
21 |
0.19 |
2010 |
译后编辑 |
3 |
18 |
0.07 |
2017 |
人工智能 |
4 |
18 |
0.32 |
2010 |
翻译技术 |
5 |
15 |
0.28 |
2010 |
翻译工具 |
6 |
14 |
0.39 |
2003 |
翻译 |
7 |
10 |
0.16 |
2012 |
众包翻译 |
通过关键词聚类,笔者选取了聚类中频次较高的聚类成员,见表6。综合分析,可以将目前国内翻译技术的发展归向三大方向。
第一:开发健全机器翻译审校系统。在机器翻译聚类中,涉及了机器翻译、译文质量和译后审校等关键词,这些关键词反映了在机器翻译过程中市场越来越注重质量控制,因此目前急需完善机器翻译的自我审校系统,制定翻译质量的评价体系。
人工智能与译后编辑相关聚类包含了人机关系、机器辅助、独创性等词,这些关键词展示了翻译技术的第二大方向,即人机交互式机器翻译。在人工智能的强势辅助下,更强调译者的二次创作,译文质量更依赖译者的身份认同、能力水准以及译者伦理。
最后,翻译工具聚类中则包括了英语翻译、科技翻译、文学翻译等,这些关键词反映了翻译技术应用的多样性和广泛性,需求的急剧增加催生语言服务行业的不断完善,进而产生了众包翻译这一相互协作的翻译模式。因此,翻译技术的第三大发展方向是技术落地才是发展的指南针。
通过关键词聚类分析,我们可以更加清晰地了解该领域的研究热点和趋势,帮助我们更好地把握研究方向和重点。
Table 6. Keyword clustering information of domestic translation technology research
表6. 国内翻译技术研究的关键词聚类信息
编号 |
关键词聚类 |
聚类成员 |
1 |
机器翻译 |
机器翻译、译后审校、译文质量、译者身份、评价体系 |
2 |
译后编辑 |
源语文本、语料分析、机译系统、云端、独创性 |
3 |
人工智能 |
人机关系、机器辅助、同声传译、语料库、信息管理 |
4 |
众包翻译 |
译者身份、翻译模型、译后审校、译文质量、开放协作 |
5 |
翻译技术 |
翻译资源、技术伦理、计算机辅助翻译、机器翻译、聚合 |
6 |
翻译工具 |
英语翻译、科技翻译、文学翻译、术语、评价体系 |
4.3. 关键词突现分析
要把握该领域的发展前沿、展望未来的研究方向,我们可以通过CiteSpace 6.3.R1的突现词(burst term)功能分析词频的时间分布和动态变化。在本次分析过程中,笔者仅选取排名前十的突现词(见图6)进行分析。
Figure 6. Burst detection of the top 10 high-frequency words in translation technology research
图6. 翻译技术研究中前十个高频词突现
第一,从突现时间上看,“机器翻译”和“翻译记忆”这两个关键词在2004年突现结束;“翻译教学”、“翻译工具”、“术语”和“众包翻译”在2007~2020年突现结束;“人工智能”、“译后编辑”、“翻译技术”和“人工翻译”这四个关键词在2019~2024年突现结束。
第二,从突现强度上看,排名前四的关键词分别是“机器翻译”、“翻译工具”、“翻译教学”和“译后编辑”。其中,前三者虽然突现强度大,但是其热点结束年份分别为2004年、2017年和2019年。而“译后编辑”不仅突现强度大,而且突现年份近,延续周期长。这表明在近几年,机器翻译的译后编辑在翻译技术领域掀起了轩然大波。究其原因,主要是随着人工智能在翻译领域的深度应用,为了提高机器翻译输出的质量,人机交互式翻译呼之欲出。目前,机器翻译在社会各个领域均得到了普遍认可,但谈到其翻译质量,大多仍觉得乏善可陈。因此,充分生成性人工智能能够进一步优化已有的自动质量评估工具和项目管理工具,让自动化质量监控、组织和跟踪翻译项目成为现实,提高了对项目的掌控度,能确保项目按计划实施[9]。
第三,“翻译技术”和“人工翻译”也是突现强度较大、年份较近的关键词。毕竟机器翻译虽然能够快速地提供译文,但其结果往往存在语法错误、拼写错误、语义不准确等问题。人工翻译虽然准确性更高,但翻译速度、成本和资源的限制都是实际操作中应该考虑的因素。这就导致近几年学界一直在探索如何精准把握两者之间的度与平衡。因此,人工智能时代的到来,为机器翻译的发展提供了新的发展方向,可以依靠译后编辑大大提高机器翻译的准确度和语境适应性,从而更好地发挥机器翻译的优势。
4.4. 前沿分析
深度挖掘以上数据,笔者发现在当前翻译技术的应用中,存在三类缺口,需进一步关注:其一,语种对研究失衡。本研究对204篇文献的人工编码显示,“机器翻译”相关研究中92%围绕“英汉互译”展开,涉及小语种的研究仅占3%,且未形成“小语种 + 技术适配”专项聚类——这与国际学界观察到的“低资源语种翻译技术研究滞后”现象一致,更与“一带一路”倡议下小语种翻译需求年增长37%的产业现实严重脱节。其二,文本类型覆盖不均。经文献研究对象分类统计,78%的翻译技术研究聚焦新闻、日常对话等通用文本,医疗、法律、文学等专业领域研究仅占12%,未形成“文本类型 + 技术方案”细分聚类。这与翻译产业中专业文本翻译占比超60%的实际需求形成鲜明反差,也印证了译后编辑研究“多局限于通用场景,专业领域应用不足”的现状。其三,译后编辑子方向模糊。虽“译后编辑”为高频突现词,但本研究聚类分析显示,其成员关键词仅集中于源语文本、语料分析、机译系统等基础维度,未分化出“领域专属译后编辑”、“技术辅助译后编辑”等子方向,无法满足不同场景的精细化需求——如医疗文本对术语精准度的硬性要求、文学文本对风格保留的核心诉求,这与国内译后编辑研究“同质化严重、创新不足”的瓶颈特征相符。
5. 结论与展望
本文运用CiteSpace 6.3.R1这一科学计量学软件,对中国知网收录的2001~2024年间有关翻译技术的期刊论文数据进行可视化分析,成功绘制出近20年间国内翻译技术这一研究领域的知识图谱。
5.1. 研究结论
通过深入分析,得出以下结论:1) 研究热度持续增长。尤其是在2015年全球化进程不断深化和信息技术的飞速发展之后,越来越多的学者开始关注这一领域;2) 研究主题集中。研究主题从早期“翻译记忆、术语管理”,逐步转向“机器翻译、人工智能、译后编辑”,2015年后“人机交互”成为核心逻辑,“译后编辑”成为当前最核心研究方向;3) 研究主体。追踪知名学者如王华树、王湘玲、张政以及刘世界等人的研究课题极有可能预知未来翻译技术的发展方向以及可能遇到的问题,对于未来该领域的建设具有重要意义。在科研单位方面,国内知名度较高的外语类院校仍是该领域的主力军,它们凭借丰富的学术资源和深厚的专业底蕴,为翻译技术的研究与发展提供了坚实的支撑。
5.2. 未来研究展望
根据关键词聚类、关键词时间线图谱以及关键词突现,我们可以一窥该领域的研究前沿,厘清未来翻译技术的发展方向,即人机交互式机器翻译和机器翻译下的译后编辑。结合文献计量数据中的潜在缺口与产业实际需求,未来可围绕以下三类具体可操作的问题展开研究,填补领域空白:
1) 小语种翻译技术的适配性研究。针对数据中“小语种翻译技术研究占比仅3%”的缺口,聚焦“一带一路”沿线关键语种,提出以下研究问题:① 低资源语种的平行语料构建路径——如何通过“现有语料扩充 + 生成对抗网络(GAN)合成”技术,将小语种平行语料规模提升至满足神经网络机器翻译训练的阈值?② 多语种混合文本实时翻译系统开发——在跨境电商客服场景中,如何实现“汉语 + 东南亚语种”交替文本的语种识别(准确率 ≥ 98%)与动态翻译适配?
2) 针对“专业文本翻译技术研究仅占12%”的失衡现状,结合不同文本类型的翻译需求,提出:① 医疗文本的译后编辑技术规范——如何基于“术语一致性 + 临床逻辑校验”双标准,构建医疗文本译后编辑评价指标体系(包含术语准确率、句法正确性、临床关联性等8项核心指标),并开发配套辅助工具?② 法律文本的机器翻译质量控制——针对法律条款中的“歧义表述”、“固定句式”,如何设计“法律术语知识库 + 句式模板库”,将法律文本机器翻译的错误率降低至5%以下?③ 文学文本的风格保留技术——以诗歌、散文为研究对象,如何通过算法,使文学文本机器翻译的风格保留率提升至90%以上,解决“形似神不似”问题?
3) 针对“译后编辑未分化子方向”的现状,结合技术发展趋势与实际应用场景,提出:① 大语言模型辅助的译后编辑效率提升——对GPT-4、文心一言等模型在不同文本类型(通用/专业)中的译后编辑辅助效果,如何构建“模型能力–文本类型”匹配矩阵,使译后编辑效率提升40%?② 领域专属译后编辑标准制定——以金融财报翻译为例,如何结合“会计术语规范 + 跨境披露要求”,制定金融文本译后编辑的行业标准,统一译文质量评价维度?
此外,本研究存在数据局限性,仅依托CNKI数据库,未来可扩大数据来源,开展“国内外翻译技术研究对比分析”,进一步揭示领域发展差异;同时可结合访谈、案例分析等质性方法,验证文献计量得出的研究趋势,增强结论的全面性与可靠性。