ChatGPT应用于中国网络流行语翻译的有效性研究
A Study on the Effectiveness of ChatGPT in Translating Chinese Internet Buzzwords
DOI: 10.12677/ml.2025.137777, PDF, HTML, XML,   
作者: 陈思翰:四川大学外国语学院,四川 成都
关键词: ChatGPT机器翻译网络流行语ChatGPT Machine Translation Internet Buzzwords
摘要: 文本以年度网络流行语为语料,对比ChatGPT和其他翻译软件生成的译文,旨在评估ChatGPT在网络流行语翻译中的有效性。本研究使用BLEU自动评估指标量化分析,通过质量、稳定性两个方面分析ChatGPT相对于其他机器翻译系统的优势,并分析其相对于人工翻译的不足以及原因。
Abstract: This text uses annual internet buzzwords as material to compare translations generated by ChatGPT and other translation software, aiming to evaluate the effectiveness of ChatGPT in translating internet buzzwords. The study uses the BLEU automatic evaluation metric for quantitative analysis and assesses ChatGPT’s advantages over other machine translation systems in terms of quality and stability. It also analyzes its shortcomings compared to human translation and explores the reasons behind them.
文章引用:陈思翰. ChatGPT应用于中国网络流行语翻译的有效性研究[J]. 现代语言学, 2025, 13(7): 837-842. https://doi.org/10.12677/ml.2025.137777

1. 引言

在全球化的语境下,机器翻译工具已成为语言学习、跨文化交流和信息获取的重要手段。基于大型语言模型(large language model)的ChatGPT自2022年11月推出以来深刻影响着翻译实践,为机器翻译的应用研究提供了新的方向。比起传统的机器翻译工具,ChatGPT能通过众多用户的指令(prompt)的引导,不断完善翻译的质量。在多伦斯创意思维测验(Torrance Tests of Creative Thinking)中,ChatGPT-4在原创性和流畅性方面得分处于前1% [1],这可能意味着它能提供更精准和流畅的翻译,更好地适应各种类型的翻译需求。网络流行语是网民创造、在网络中使用的语言。它来源广泛,取材于俗语、外语、方言、谐音等等。网络流行语广泛地出现在社交媒体、网络论坛等各种互联网应用场合,代表了一定的互联网文化,能体现一段时间内网民的价值判断和切身体验。因此,网络流行语的翻译不仅仅要注意词汇的转换,还要注意用已有的词汇拆分网络流行语的一些新词,这对机器翻译来说是一个巨大的挑战。鉴于此,本研究采用定量分析方法,着重考察ChatGPT在网络流行语翻译中词汇、词组翻译的质量,并与其他传统翻译工具作对比,以深入了解ChatGPT翻译网络流行语的优势和不足,以期我们能更好地运用它提升翻译质量和翻译工作的效率。

2. 文献综述

不少学者已经注意到ChatGPT提供的机器翻译服务的特点,并对其应用于翻译文本展开了研究。于蕾(2024)通过使用TAALED和Python编程工具,揭示了ChatGPT在词汇密度和内容词使用方面的优势。她的研究表明,ChatGPT在句法复杂度方面的表现可媲美人工翻译,甚至在并列短语和动词短语的复杂度上表现得更为出色,显示出其生成复杂句型的能力[2]。文旭、田亚灵(2024)以政治文本为语料,采用人工翻译、BLEU和TER两种自动评估指标量化机器翻译质量,发现ChatGPT在政治文本的翻译上相对于其他翻译工具展现出优势,但在涉及意识形态、文化负载词、转隐喻等内容以及在翻译的准确性上的局限性仍然明显[3]。储泽祥、徐梦真(2024)基于汉语复合结构的“双线索”概念化模式,关注ChatGPT对汉语缩略词的翻译[4]。杨锋昌(2023)使用ChatGPT对越南语法律文本进行翻译,通过与其他机器翻译和人工翻译结果进行对比,总结其优势与不足,在此基础上思考ChatGPT对译员的影响[5]。李长栓(2023)充分利用ChatGPT的自然语言生成和编辑功能,从轻度编辑、重度编辑、复杂编辑、翻译大意、问题解答等方面,举例说明ChatGPT的翻译、编辑和对话功能,并在最后指出了ChatGPT的局限性[6]。王子云、毛毳(2023)采用BLEU和TER两种自动评估方法对译文质量进行综合评估,发现机器提示语的改变对机器翻译质量有一定影响[7]。蔡力坚(2023)发现ChatGPT翻译时词语搭配和思路没问题,但很容易受原文结构和词语用法的影响,认为目前来说机器翻译对于职业翻译没有构成威胁[8]。刘畅(2023)总结并分析了日语教师在日语会话教学实践中学习和探讨人工智能技术知识的体会和经验。他从实用角度阐述了ChatGPT的优越特性、局限性及其产生原因[9]。耿芳和胡健(2023)指出,ChatGPT在汉译英的校对和润色上表现出色,它能够根据指示指出并纠正翻译错误,调整句法结构,增强篇章连贯性,并调整语域。然而,在处理英译汉的校对和润色等译后编辑任务时,ChatGPT的表现并不理想[10]

以上研究分析了ChatGPT对翻译领域带来的巨大影响,但是很少有研究关注其应用于网络流行语翻译的质量和稳定性表现。因此,下文将基于翻译实例文本,采用BLEU自动评估方法,对比百度翻译、DeepL翻译和谷歌翻译三个自动翻译系统,对ChatGPT在网络流行语翻译领域的质量作分析。

3. 研究设计

本研究旨在讨论以下三个问题:第一,ChatGPT作为机器翻译工具,其生成的翻译结果质量如何?第二,ChatGPT和其他翻译工具相比,优势体现在哪里?第三,在网络流行语的翻译中,ChatGPT等机器翻译工具能在多大程度上翻译出原文的含义?

3.1. 语料来源

本研究选择的文本是2012年~2023年由中国国家语言资源监测与研究中心评选的年度十大网络流行语,蕴含着丰富的时代特色。网络流行语涉及政治、经济、文化的各个方面,是网民对当下社会的切身体验。而年度十大网络流行语则是其中最贴近时代潮流、最贴近网民心声的部分。选择年度十大网络流行语作为分析对象,可以检测翻译软件对于新词汇和新句法的翻译方式,比起选择传统的文本材料更能反应翻译软件的翻译质量以及体现出翻译软件在目的语中还原原文含义的能力。通过随机数法随机选择10个网络流行语及其参考译文如表1

Table 1. Comparison of research texts and reference translations

1. 研究文本及参考译文对照表

文本编号

原文

参考译文

文本1

舌尖上的中国

la Chine au bout de la langue;

la Chine sur le bout de la langue

文本2

集美

amie;

sœur;

bestie

文本3

C位

centre;

position centrale

文本4

硬核

hardcore

文本5

杠精

ennemi;

contrariant;

hater;

文本6

高富帅

un homme grand, riche et beau

文本7

锦鲤

fétiche

porte-bonheur

mascotte

文本8

皮一下

faire une blague;

faire une plaisanterie

文本9

定个小目标

définir un petit objectif

fixer un petit objectif

文本10

高端大气上档次

haut de gamme, magnifique et élégant

3.2. 研究工具

BLEU (bilingual evaluation understudy) [11]是一种被广泛应用于机器翻译研究中的指标,用于评估机器生成的译文与参考人工译文之间的质量对比。其核心原理是通过比较机器翻译文本中的不同长度的n-gram (即由n个连续单词组成的短语片段,n取自然正整数)在参考译文中的出现频率,来衡量机器翻译与人工译文的吻合度,从而衡量机器翻译的准确性与流畅性。BLEU的得分范围在0至1之间,得分越高,表示机器翻译的文本与人工译文的相似度越高,意味着机器译文的准确性和可读性越强。BLEU打分标准检测的n-gram中的n接近1,则检测的侧重点更着重单词翻译的准确性;BLEU打分标准检测的n-gram值大于1,则更侧重句子结构和短语流畅性。网络流行语多为单词或词组,为了确保在检测原文单词与短语翻译的准确性和流畅性的同时,能够适应网络流行语的结构特征,得出更具代表性的翻译质量评估结果,本研究将n-gram的检测值设置为1和2,分别对应1-gram和2-gram,且权重比例为1:1。由于很多流行语不足三个单词或词组,因此n-gram (n > 3)的情况不适用于本研究,故舍弃。

3.3. 研究过程

首先,使用ChatGPT-4、百度翻译、谷歌翻译、DeepL翻译产生目标语文本,然后通过python程序,对比几种翻译软件的BLEU值,并设定1-gram和2-gram的权重值为1:1。对于只产出一个单词的目标文本,设定1-gram权重值为1。得出BLEU值后,首先对比ChatGPT-4与其他翻译工具的得分情况,并根据翻译得出的目标语分本分析揭示出的ChatGPT-4机器翻译的优缺点以及和参考译文的差距。

4. 研究结果与分析

本文以“请将下列语句翻译成法文”作为指令(prompt)获得ChatGPT的译文,并与其他三种翻译软件生成的译本一起经由python计算得出BLEU分数,BLEU值结果如表2所示。

Table 2. Comparison of BLEU scores for translation quality between ChatGPT and other translation software

2. ChatGPT与其他翻译软件翻译译文质量BLEU值对比表

翻译工具

Google

DeepL

Baidu

ChatGPT

文本1

0.4239

0.6901

1

1

文本2

0

0

0

0

文本3

0

0

1

1

文本4

1

1

1

1

文本5

0

0

0

1

文本6

0.6065

0.6065

0

0.2476

文本7

0

0

0

1

文本8

0

0

0

1

文本9

0.7071

0.7071

1

1

文本10

0.3162

0.3171

0.2589

0.5178

均分

0.3054

0.3321

0.4259

0.7765

方差

0.1350

0.1490

0.2503

0.1443

4.1. ChatGPT与其他翻译软件翻译质量情况

Python程序的结果显示了四个机器翻译工具的平均BLEU值差异:谷歌翻译的平均BLEU值最低,为0.3054;DeepL和百度翻译的平均BLEU值相对较高,分别为0.3321和0.4259;ChatGPT的平均BLEU值最高,达0.7765,为其余机器翻译工具BLEU值的接近两倍。这一数据表明,ChatGPT对网络流行语文本的翻译质量比其他机器翻译系统具有明显优势。然而,四个机器翻译系统与人工翻译仍存在明显差距。四个机器翻译系统都曾出现BLEU值为0的情况,这种情况意味着机器译文与参考译文完全不一致。其中,ChatGPT在所有样本中仅有1次出现BLEU值为0的情况,表现最佳;而百度翻译、谷歌翻译和DeepL翻译各自出现了5次BLEU值为0的情况,占测试文本总数的二分之一,表现较差。

此外,在翻译稳定性方面,ChatGPT的表现依然较为突出。在仅有1次BLEU值为0的条件下,其翻译结果的BLEU值方差为0.1443,仅次于谷歌翻译。谷歌翻译虽然方差更低,为0.1301,但其平均BLEU值较低,翻译质量表现不及ChatGPT。DeepL翻译的方差为0.1490,表现出较高的不稳定性。百度翻译的稳定性表现最差,其方差达到了0.2503,显著高于其他机器翻译系统。综合来看,尽管各翻译工具得出的目的语译文与参考译文仍然存在差距,但是在四个机器翻译系统内部,ChatGPT的翻译质量最好,稳定性最佳,与其他机器翻译系统相比,存在较显著的优势。

4.2. ChatGPT和其他机器翻译系统相比存在的优势

首先,根据上一小节的分析结果可知,ChatGPT翻译的质量和稳定性是四个翻译系统中最好的,与其他翻译系统相比,也存在着显著的优势。此外,不同于百度翻译、谷歌翻译和DeepL翻译的是,ChatGPT对于多义词的翻译处理得更好。在指令固定的情况下,ChatGPT不仅仅提供了最有可能的翻译结果,还提供了几种不同情况下的翻译结果,这较好地弥补了缺乏语境造成的翻译错误问题。如对“锦鲤”这一网络热词的翻译,ChatGPT给出了一般情况下的翻译,即“carpe koï”(观赏性鲤鱼)。但又跟着给出了第二种翻译情况,提出如果指的是象征好运的概念,则可翻译为“porte-bonheur”(吉祥物)。其他的机器翻译系统受制于形式的限制,无法提供基于语境的翻译。其中DeepL翻译虽然可以自主选择翻译的词,但是在使用者没有相关语言知识背景的情况下,使用者很难独立择选出最适合语境的目的语词汇、词组。

另外,ChatGPT对其他机器翻译系统的优势还在于使用者可以根据指令优化翻译的内容。通过限制翻译领域的方式可以优化翻译表达。如对“锦鲤”的翻译添加后续指令“翻译的词汇为网络用语,请修正”,可以精准地将锦鲤一词翻译为“porte-bonheur”,从而可以使没有相关语言知识的人也能正确择出合适的译文表达。

4.3. ChatGPT及其他机器翻译系统的不足

根据Python程序的分析结果,四个机器翻译系统均存在BLEU值为0的情况,也就是机器译文和参考译文完全不一致的情况。其中,对于文本2的“集美”一次的翻译,四个机器翻译系统均提供了与参考译文完全不一致的译文。究其原因,“集美”这一词汇具有多种含义,既可以指地名“厦门市集美区”,在网络用语中也可以指“姐妹”或者“闺蜜”,这种一词多义且缺乏语境和上下文的情况对机器翻译系统形成了挑战。同样的情况还出现在对“锦鲤”一词的翻译中。除ChatGPT以外的翻译软件都将该词直译为“koï”或“carpe koï”,而并未注意到“锦鲤”一词的引申意义——吉祥物。以上两个例子说明,机器翻译系统翻译有一词多义的词汇或者短语时不能完全像人工翻译一样正确根据情形选择适合的词义。另外,对于“杠精”和“皮一下”此类词汇或词组,百度翻译、DeepL翻译和谷歌翻译存在词汇划分和理解问题。三个机器翻译系统均未能正确理解“杠精”的含义。对于“皮一下”这一词组的翻译,谷歌翻译将“皮”翻译为“dépouiller”,也就是剥皮,而百度翻译则翻译为“piece”,不仅错翻为了量词,而且采用的并非法文拼写而是英文拼写。相对来说,对于这两个词的处理,ChatGPT处理得较好,给出的译文与参考译文一致。

5. 结语

对四种主要的机器翻译工具进行BLEU值评估后,本研究发现,ChatGPT在网络流行语中法文本翻译任务中表现较好,翻译质量和翻译稳定性具有一定优势。与其他机器翻译工具相比,面对一词多义、缺乏语境等复杂情况,ChatGPT仍能为使用者提供适合语境的目的语文本。但是ChatGPT和其他的机器翻译工具一致,会出现和参考译文完全不一致的情况,不能完全准确地翻译文本。在处理网络流行语翻译的时候,总的来说,ChatGPT不能替代人工翻译的作用,在理解语境、切分词组等过程中,人工翻译的作用依然不可或缺。

综上所述,当前ChatGPT为代表的基于大语言模型的新型机器翻译系统还不能实现持平人工翻译质量的网络流行语的翻译。大语言模型的进一步发展可能会为机器翻译系统译文翻译质量提高提供新的契机。因此,未来的研究可以尝试探索人工翻译与机器翻译相结合的机制,充分发挥前者对语境和文化内涵的理解能力,及后者在翻译速率方面的优势。通过构建翻译术语库、引入机器译后人工编辑机制,有望进一步提升网络流行语翻译的有效性。

参考文献

[1] Guzik, E.E., Byrge, C. and Gilde, C. (2023) The Originality of Machines: AI Takes the Torrance Test. Journal of Creativity, 33, Article ID: 100065.
https://doi.org/10.1016/j.yjoc.2023.100065
[2] 于蕾. ChatGPT翻译的词汇多样性和句法复杂度研究[J]. 外语教学与研究, 2024, 56(2): 297-307, 321.
[3] 文旭, 田亚灵. ChatGPT应用于中国特色话语翻译的有效性研究[J]. 上海翻译, 2024(2): 27-34, 94-95.
[4] 储泽祥, 徐梦真. 从汉语复合词的双线索模式看英文科技缩略词的翻译——以ChatGPT等为例[J]. 中国科技翻译, 2024, 37(1): 1-4.
[5] 杨锋昌. ChatGPT对译员的思考与启示——以越南语法律翻译为例[J]. 中国科技翻译, 2023, 36(3): 27-30, 4.
[6] 李长栓. 利用ChatGPT做好中译外[J]. 民族翻译, 2023(4): 74-85.
[7] 王子云, 毛毳. ChatGPT译文质量的评估与提升——以陶瓷类文本汉英翻译为例[J]. 山东陶瓷, 2023, 46(4): 20-27.
[8] 蔡力坚. 算法与翻译[J]. 中国翻译, 2023, 44(4): 179-187.
[9] 刘畅. 人工智能在日语会话教学中的应用探讨——以ChatGPT为例[J]. 科技视界, 2023(16): 47-52.
[10] 耿芳, 胡健. 人工智能辅助译后编辑新方向——基于ChatGPT的翻译实例研究[J]. 中国外语, 2023, 20(3): 41-47.
[11] Papineni, K., Roukos, S., Ward, T. and Zhu, W. (2002) BLEU: A Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Philadelphia, 7-12 July 2002, 311-318.
https://doi.org/10.3115/1073083.1073135