1. 引言
近年来,在人工智能技术特别是大语言模型快速发展的推动下,大语言模型翻译领域取得了显著进展。传统的基于规则或统计的翻译方法正逐渐被深度神经网络驱动的神经大语言模型翻译系统所替代。新一代大语言模型在语境理解、句法生成和多语种处理方面的表现日益成熟,为实现高效率、高质量的自动翻译提供了新的可能性。而经贸文本具有标准化程度高、指向性明确的特征,对译者在语言表达与语用适切性方面提出了较高要求。尽管当前大语言模型在语言理解和生成方面取得了较大进步,但其优势更多体现于生成表达规范、结构连贯的内容,对于复杂语用现象的识别和理解仍然面临着诸多挑战[1] [2]。在此背景下,对大语言模型在经贸文本翻译中的表现进行系统评估具有重要意义。
2024年5月,Open AI发布的ChatGPT-4o在原生多模态处理、响应速度以及语言覆盖方面均实现重大升级,这表明语言模型进入更高的发展阶段。紧随其后,中国本土大模型代表DeepSeek-R1于2025年1月推出,在长文本理解、多语种支持及成本优化方面表现突出,并在国际人工智能评测中取得优异成绩。这些技术进展显著增强了大语言模型在多语种文本生成与风格控制中的能力,尤其在经贸、法律等专业语境下的翻译应用潜力日益受到关注。
为了系统比较分析ChatGPT-4o与DeepSeek-R1两款代表性大语言模型在处理经贸类文本汉英翻译任务中的表现差异,本研究采用BLEU与TER等自动评估指标来分析译文与标准版本在词汇和结构上的差异,并结合Flesch-Kincaid Grade Level与Gunning Fog Index等可读性指标,从多个维度评估两款模型译文的准确性与可读性,同时探讨两款模型在文本处理和语言生成上的优势与不足。
2. 文献综述
2.1. 大语言模型翻译
随着大语言模型的快速发展,大语言模型翻译技术已成为翻译学界与语言服务产业的研究热点。大语言模型在人们学习、生活和工作中拥有非常广阔的前景,可以直接应用于数据驱动的翻译研究。然而,大语言模型在给翻译实践和翻译研究带来巨大历史机遇的同时,也带来重大挑战[3]。其中一个重要挑战体现在语用处理方面。虽然新一代大语言模型在语用能力上有所提升,但在处理复杂语用现象时仍显不足[4]。例如,虽然大语言模型在翻译中有一定优势,但其生成的译文在话语取向一致性的控制上存在风险,可能导致误导性信息的传播[5],面临着文化差异挑战等问题[6]。此外,自然语言极为复杂,提高自然语言处理水平,让计算机真正理解自然语言,仍是极为困难的任务[7]。尽管人工智能技术在提高翻译效率和降低成本方面具有优势,但也不可避免地存在准确性不足等局限[8]。
由于技术发展的局限性,单纯的人工智能语言服务还不能满足市场对翻译质量的要求,“人工 + AI”的混合语言服务模式成为语言服务的主要模式[9]。大语言模型翻译的高效可以运用在信息型文本或初步翻译当中,人类译员转向译后编辑加工,从而实现翻译质量的提升[10]。另外,专业术语输入、跨文化差异以及特定语境共情等问题仍然需要人类译员,特别在处理专业度高的文本时,人工翻译的角色依然关键[6]。因此,人机协作是翻译行业发展的必然趋势[11]。
2.2. 经贸类文本翻译
经贸文本的翻译研究一直是学界的重点方向,它不仅是语言转换的过程,更是跨文化交流和形象呈现的重要方式。此类文本在我国的对外传播活动中占有重要位置,是国际受众了解我国立场与实践的重要渠道。对经贸文本的翻译开展系统研究,有助于提升跨文化传播的效果,促进不同文化之间的理解与沟通[12]。这类文本不仅要求译文语言的准确性和规范性,更强调译者对语用环境与文化差异等的适切把握。
有研究主张在翻译该类文本时采用“内容异化、形式归化”的策略,以避免中式英语对目标语读者理解的障碍,提升译文的地道性与接受度[13]。也有学者进一步强调,这类文本的翻译应遵循释疑解惑、对接目标语文本修辞、彰显文化自信等原则,通过语义明晰化、增补文化背景、调整句法结构等手段,提升译文的可理解性与接受度[14]。
在大语言模型参与经贸文本翻译的背景下,有学者倡导将大语言模型作为外宣翻译的辅助手段,以缓解人力不足与时间压力[15]。但同时也应认识到其在意识形态控制与语境重构方面的局限性,因而需由人工译员进行最终把关与校准。有学者指出,该类语篇的翻译实践应注重信息的构建与议程设置,译者必须结合目标受众的文化背景和认知习惯,灵活调整翻译策略[16]。当前我国在对外传播的组织与协调方面具备一定基础,但在实践能力、传播能力等方面仍有提升空间[17]。
2.3. 翻译质量评估
翻译质量评估长期以来是翻译研究的核心议题之一。随着神经网络大语言模型翻译技术的广泛应用,客观、标准化的自动化评估方法成为研究主流。量化的译文相似度标准与高质量的人工参考译文是大语言模型翻译自动评分系统的两个基本要素[18]。
在大语言模型翻译研究中,BLEU (Bilingual Evaluation Understudy)和TER (Translation Edit Rate)是当前两个主流的自动化评估指标。BLEU通过计算机器译文与人工参考译文之间的n-gram重合率来衡量翻译准确性,具有计算简便、通用性强等特点[18]。TER是对BLEU的有效补充,衡量将大语言模型翻译结果修改为与人工参考译文完全一致所需的最少编辑操作数[19]。
此外,文本可读性指标在经贸类文本大语言模型翻译后评估中也具有重要意义。Flesch-Kincaid Grade Level和Gunning Fog Index是两种经典的英语可读性指标[20] [21]。前者根据句子长度与单词音节数来估算读者理解该文本所需的教育年级水平;后者主要从平均句长和多音节词等方面来计算文本的阅读难度,其得分反映了理解该文本所需的最低教育年级。
3. 研究方法
3.1. 研究问题
本研究旨在讨论以下三个问题:第一,ChatGPT-4o与DeepSeek-R1作为大语言模型翻译工具,在处理经贸类汉英翻译任务中,其译文质量表现如何?第二,这两款模型是否有潜力替代人工译者在经贸文本翻译中的功能?第三,在人工智能持续发展的背景下,经贸类文本翻译的未来发展趋势将如何演变?
3.2. 研究语料与对象
本文选取2025年4月公开发布的经贸类文本《关于中美经贸关系若干问题的中方立场》作为研究语料。该文本结构严谨、术语密集、语体正式,适合作为评估大语言模型翻译系统在专业经贸语篇汉英翻译中表现的研究对象。本研究所使用的ChatGPT-4o为OpenAI发布的4o模型版本,DeepSeek-R1为DeepSeek发布的R1版本。
本研究包括三类英文译文:其一为该经贸文本随附的参考译文;其二与其三分别为通过ChatGPT-4o与DeepSeek-R1在无上下文提示条件下,对中文原文逐段生成的译文,用于与参考译文进行质量差异分析。为确保数据分析的透明性与可比性,本研究对原文及三类英文译文进行了量化统计(见表1)。所有文本均与中文原文的221个段落逐一对应,保证语篇结构一致,便于后续指标计算。中文语料以汉字计数,英文语料以单词(tokens)计数。
Table 1. Overview of the research corpus
表1. 研究语料基本信息
文本类型 |
段落数 |
汉字/单词数(形符数) |
文件格式 |
中文原文 |
221 |
26,809 |
.txt |
标准英文译文 |
221 |
17,455 |
.txt |
ChatGPT-4o英译文本 |
221 |
16,445 |
.txt |
DeepSeek-R1英译文本 |
221 |
15,899 |
.txt |
3.3. 数据处理与分析
数据采集与处理依托Python 3.9环境开展,具体流程如下:
首先,将中文原文输入ChatGPT-4o与DeepSeek-R1,分别生成对应英文译文,并将所有译文整理为.txt文件,每段内容为一行,与中文原文段落严格对应。接着,采用sacrebleu模块分别计算两个模型译文的BLEU值与TER值,以评估词汇匹配程度与编辑距离,反映翻译的准确性。同时,使用matplotlib绘制箱型图,呈现模型在各项指标中的得分分布与波动情况。为进一步分析译文的语言复杂度与可读性,研究采用textstat模块,计算三类译文的Flesch-Kincaid Grade Level (FKGL)与Gunning Fog Index (GFI)得分。上述操作均通过Python脚本批量执行,实现数据的自动处理与可视化呈现。
本研究采用BLEU与TER用于衡量词汇与结构层面的译文准确性,BLEU的n-gram精度(P1-P4)与惩罚因子(Brevity Penalty)进一步辅助评估整体翻译表现;FKGL与GFI指标则从语言复杂度与可读性角度补充测评体系,形成多维交叉分析框架。
4. 实验结果与分析
4.1. BLEU值和TER值
在Python 3.9的环境中运行相关脚本可得到表2。
Table 2. BLEU&TER values of the translated texts of ChatGPT-4o and DeepSeek-R1
表2. ChatGPT-4o和DeepSeek-R1译文BLEU&TER得分
翻译工具 |
P1 |
P2 |
P3 |
P4 |
BP |
BLEU |
TER |
ChatGPT-4o |
0.62 |
0.36 |
0.23 |
0.15 |
0.995 |
0.2954 |
0.5911 |
DeepSeek-R1 |
0.68 |
0.41 |
0.27 |
0.19 |
0.950 |
0.3289 |
0.5411 |
BLEU值越高,表示译文与参考译文越接近,翻译质量越好。一个翻译工具生成译文的BLEU值达到0.314,就表明该译文质量良好,达到了大语言模型翻译的基本要求[22]。由表1可知,ChatGPT-4o的BLEU值为0.2954,略低于参考标准,这表明ChatGPT-4o在充分表达原意和语言自然流畅方面都还有很大的提升空间;而DeepSeek-R1的得分为0.3289,已达到较为理想的水平,显示其在译文准确性和语言自然度方面更为优越。进一步观察n-gram精度,DeepSeek-R1在P1至P4的匹配率上均优于ChatGPT-4o,说明其在词汇命中率及高阶短语组合方面具备更高稳定性。在BP (Brevity Penalty)方面,ChatGPT-4o的值为0.995,更接近1,说明其译文长度与参考译文更为接近,而DeepSeek-R1的BP略低,但未明显影响BLEU总得分,反映出其压缩表达策略较为合理。
在TER方面,ChatGPT-4o的得分为0.5911,高于DeepSeek-R1的0.5411。TER值越低表示译文修改成本越小,与人工参考文本更接近。因此,DeepSeek-R1在结构还原、语序控制与术语匹配方面表现更佳,整体译文质量更高。
为进一步考察两款模型在翻译稳定性与一致性方面的表现,本文基于221段译文分别计算段落级BLEU值与TER值,并绘制箱型图以呈现分布情况,如图1所示。
Figure 1. Boxplots of BLEU and TER scores
图1. BLEU与TER指标箱型图
图中显示,DeepSeek-R1在BLEU维度上得分中位数更高、分布更集中,低分波动较少,表明其译文在词汇与句法层面更贴近参考译文,整体稳定性和准确性更优。在TER维度上,DeepSeek-R1的中位数低于ChatGPT-4o,且得分更为集中,表明其译文在整体上更接近参考译文,所需后期编辑操作更少。相较之下,ChatGPT-4o在部分段落上出现较高的TER值,反映出其译文在局部结构与语义还原方面的不稳定性。
综上,DeepSeek-R1在BLEU与TER两个维度上均优于ChatGPT-4o,表现出更高的语言一致性与结构相似度,体现出其在处理经贸这类高复杂度文本时的适应性与可靠性。
4.2. Flesch-Kincaid Grade Level和Gunning Fog Index指标
Flesch-Kincaid Grade Level用于评估文本对读者的教育水平要求,得分越高,表示文本越复杂,适合受教育程度较高的读者阅读。Gunning Fog Index是衡量文本复杂度的重要指标,一篇文章的得分越低,读者就越容易读懂。标准译文、ChatGPT-4o和DeepSeek-R1译文的Flesch-Kincaid Grade、Gunning Fog Index得分如表3所示。
Table 3. Values of Flesch-Kincaid Grade Level and Gunning Fog Index
表3. Flesch-Kincaid Grade Level、Gunning Fog Index值
指标 |
标准译文 |
ChatGPT-4o译文 |
DeepSeek-R1译文 |
Flesch-Kincaid Grade Level |
15.96 |
14.10 |
15.70 |
Gunning Fog Index |
19.15 |
17.31 |
19.06 |
从整体趋势看,标准译文的FKGL (15.96)与GFI (19.15)得分最高,反映出其语句结构复杂、术语密集,符合经贸文本高严肃性、高专业度的语言特点,适合具备较高教育背景的读者。ChatGPT-4o的译文在两项指标上得分最低,其中FKGL为14.10,GFI为17.31,说明其在一定程度上对原文进行了简化,提升了文本的可读性,但也可能意味着译文在部分句法转换或逻辑承接上未能完整保留经贸文本应有的庄重与正式风格。相比之下,DeepSeek-R1在FKGL与GFI上的得分更接近标准译文,尤其GFI仅相差0.09,表明其译文在句法结构、专业词汇和语言风格上更倾向于保留经贸文本本身的专业性与正式性,更贴合人工翻译的表达习惯。
综上,两个模型在可读性上均呈现出一定程度的语言简化,但表现路径有所不同。ChatGPT-4o倾向于对原文进行通俗化处理,强调表达清晰与易读性;而DeepSeek-R1则更注重保留原文语言特征,在语言复杂度与信息密度之间取得相对平衡,更接近标准译文风格。
4.3. 典型翻译实例的质性对比分析
为进一步解释定量指标所反映的模型差异,有必要结合具体翻译现象进行说明。整体来看,在涉及政策影响或制度性后果的表述中,ChatGPT-4o更倾向于使用“impact”“cause harm”等概括性表达,弱化了原文通过程度副词与评价性动词所构建的语义张力;相比之下,DeepSeek-R1更注重保留原文的逻辑递进关系与语体正式性,使译文在信息密度与功能指向上更接近参考译文。这一差异在多个语段中反复出现,也与前文BLEU、TER及可读性指标的整体趋势相互印证。表4展示了一个典型经贸文本翻译实例的中英对照情况。
该段文本通过并列结构呈现贸易限制措施对全球经济秩序的多重负面影响。标准译文使用“severely hinders”“undermines the international economic and trade order”等表达,较好保留了原文的语义强度与经贸类文本的严谨性。相比之下,两款模型的译文虽在信息层面基本完整,但均不同程度采用较为简化和通用的措辞,如“severely undermining”“causing significant harm”,在提升可读性的同时削弱了原文的正式性与语体张力。其中,ChatGPT-4o的通俗化倾向更为明显,DeepSeek-R1虽整体更为紧凑,但在语义强度上仍略逊于标准译文。
Table 4. A comparative example of translation for an economic and trade text
表4. 典型经贸文本翻译实例对照
文本类型 |
内容 |
中文原文 |
美方实施的一系列贸易和投资限制措施不仅增加企业合规成本,严重阻碍两国正常经贸合作,还影响全球产业链和供应链的稳定,严重破坏国际经贸秩序。 |
标准译文 |
The series of trade and investment restrictions implemented by the US not only increases compliance costs for enterprises and severely hinders normal China-US economic and trade cooperation, but also affects the stability of global industrial and supply chains and seriously undermines the international economic and trade order. |
ChatGPT-4o译文 |
The series of trade and investment restrictions imposed by the U.S. side have not only increased
compliance costs for enterprises and seriously hindered normal bilateral economic and trade cooperation, but also impacted the stability of global industrial and supply chains, severely undermining the
international economic and trade order. |
DeepSeek-R1译文 |
The series of trade and investment restrictions imposed by the U.S. not only increase corporate
compliance costs and severely hinder normal bilateral economic and trade cooperation but also disrupt the stability of global industrial and supply chains, causing significant harm to the international
economic and trade order. |
从目的论(Skopos Theory)视角看,经贸类文本翻译的核心目标在于服务制度性信息传递与政策功能实现,而非单纯追求易读性。该实例表明,当前大语言模型在强调语言简洁的同时,仍需进一步协调语体强度与功能忠实之间的关系。本研究中,DeepSeek-R1的整体表现更接近标准译文,其翻译策略更符合经贸文本以“功能忠实”为导向的翻译目的。
5. 讨论
5.1. 大语言模型翻译的未来发展路径探析
总体而言,近几年ChatGPT、文心一言等生成式人工智能语言大模型,经过海量语料的预训练,具备了更强大的语义理解和语言生成能力,不断刷新人工智能在自然语言处理领域的应用边界[23]。研究结果表明,ChatGPT-4o与DeepSeek-R1在经贸文本翻译中已具备较强的语言生成能力,能够在整体结构与信息层面较好还原原文内容,但两者呈现出不同倾向:ChatGPT-4o更加注重语言的通俗性与流畅性,而DeepSeek-R1在保持原文风格、术语一致性及正式表达方面更为稳健。这种差异反映了模型训练中对于可读性与忠实性的不同权衡策略,也提示未来模型发展需进一步明确目标定位。这一发现印证了关于“大语言模型翻译在高语用场景中尚不具备独立译能”的判断[24],同时也呼应了“AI需提升文体适应性与语境理解力”的建议[11]。因此,当前阶段AI译文虽已具备参与经贸文本翻译的基础能力,但在模型调优与译文风格控制方面仍有进步空间。
在此基础上,大语言模型翻译正加速融入新闻采编、国际机构文稿处理、跨文化沟通与出版传播等多类跨语际场景[25] [26]。尽管相关技术提升了跨语言传播效率,本研究发现,即便表现较优的DeepSeek-R1,在语义复杂或语境依赖度较高的文本中,仍可能出现结构冗余与词语选择偏差,并在语用要求较高的文本中,影响理解准确性。例如,2018年谷歌翻译将西班牙短语“自由、平等”误译为“奴役”,引发讨论[27]。就目前大语言模型翻译技术的应用而言,大语言模型翻译只是突破了部分不复杂、对译文质量要求不高的场景,远未达到足以取代专业译员的翻译水平[24]。因此,在当前阶段,大语言模型尚不足以独立承担语境依赖度较高的专业翻译任务,其更适宜被定位为翻译流程中的辅助工具而非最终决策主体。
基于上述表现与风险分析,经贸文本翻译宜采用“AI初译 + 人工审校”的协作模式:大语言模型负责初步生成,译者侧重语用与立场把控;其中,专业性较强的内容应由人工重点审校。此种协作逻辑不仅回应了“实现工具–合作者–伙伴–相互依存”人机关系演进模式[28],也进一步推动人机协作模式向更深层次的自主型协作演进[11]。译员应培养人机共生意识,落实协同发展,才能充分利用智能工具提升翻译生产力[5]。此外,可通过“术语统一–结构解析–语用调控”三层机制增强AI译文的可控性,从而提升译文质量并夯实人机协作的信任基础。
综上,大语言模型在经贸文本翻译中的应用潜力已逐步显现,未来有必要通过完善人机协作机制与流程设计,推动其在专业翻译场景中的规范化应用。
5.2. 研究局限性
尽管本研究在模型对比与多指标评估方面力求保持方法一致性,但仍存在一定局限性。首先,受语料规模与文本类型限制,研究对象主要集中于单一语言方向的经贸文本翻译,这在一定程度上影响了结论向其他语域和多语言场景中的适用范围。其次,大语言模型处于快速迭代阶段,不同版本在训练规模与推理机制等方面可能存在差异,本文结果主要反映特定时间节点下模型的翻译表现。此外,受限于模型训练数据与过程的不透明性,本文无法对不同模型的训练语料构成进行实证比较,相关讨论仅基于输出特征与既有研究作出合理推测。未来研究可通过扩展语料规模、翻译方向及模型类型,对相关结论进行进一步验证。
6. 结语
本研究对比分析了ChatGPT-4o与DeepSeek-R1在经贸文本汉英翻译任务中的表现。结果表明,在BLEU与TER指标下,DeepSeek-R1在准确性与结构一致性方面优于ChatGPT-4o;在可读性层面,两款模型译文均较标准译文有所简化,其中DeepSeek-R1在风格模仿与术语保留方面更接近人工翻译。研究进一步发现,在处理经贸类文本时,尽管大语言模型在词汇与句法层面的生成能力已相对成熟,但在语篇层面的语境重构、态度调节与跨文化语用适配方面仍存在不足,短期内难以完全替代专业译者。总体而言,大语言模型更适宜作为翻译流程中的初译工具,通过“AI初译 + 人工审校”的协作机制,在提升翻译效率的同时实现质量可控,为高语境敏感的经贸文本翻译提供一种可行路径。
NOTES
*通讯作者。