1. 引言
随着近年来计算机技术和人工智能的快速发展,机器翻译技术实现了巨大飞跃,显著提高了翻译效率。然而,该技术在特定应用场景中仍需进一步研究[1],尤其是其自动评估技术。在缺乏参考译文的情况下,自动预估技术的成熟度和准确度亟需提升[2]。研究显示,尽管机器翻译在提升效率方面成效显著,但在准确传递原文意图、专业术语的精确使用以及语境的适宜表达上仍有局限,这就需要人工译后编辑的介入来提高翻译质量[3] [4]。因此,人工译后编辑对于保障翻译品质仍然至关重要。
本研究专注于分析科技文本机器翻译中的错误,并讨论了机器翻译模型在科技文本翻译上的局限及译后编辑的建议。研究结果表明,尽管机器翻译在科技论文翻译中能够完成基础的翻译工作,但在准确翻译专业术语、处理复杂句式以及维持原文的风格和语调等方面,其能力仍有所不足。
2. 机器翻译错误译文与译后人工编辑译本案例对比分析
20世纪60年代,随着中介语理论的兴起,错误分析作为一门学科逐渐形成,其主要研究对象为学习者的语言实践。该领域的研究范畴广泛,涵盖了错误类型的分类、错误现象的描述与阐释以及错误产生的动因等多个维度。在机器翻译(Machine Translation, MT)的研究领域,错误分析则特指对机器翻译输出的文本进行错误识别与归类的过程。
20世纪60年代,随着中介语理论的流行,错误分析逐渐发展成为一个独立的研究领域,主要关注学习者的语言使用情况[5]。该领域的研究内容广泛,不仅包括对错误类型的分类、错误现象的详细描述和深入解释,还探讨了错误产生的可能原因。在机器翻译领域,错误分析专门指的是对机器翻译输出文本中的错误进行识别和分类的过程。
2.1. 词汇层面
为了深入分析机器翻译在词汇层面的准确性,我们采用了一种基于词汇层面的细致对比分析方法。Vilar [6]等人在2006年首次提出并建立了人工错误分类的框架,该框架包括漏译、词序错误、用词不当以及罕见词汇使用等错误类型。基于Vilar等人的研究,本研究进行了进一步的调整和细化,将词汇错误细分为以下三个主要类别。
2.1.1. 选词用字不符合语境
在翻译过程中,选择与语境相符的词汇至关重要。以下是一些具体的例句分析,展示了机器翻译在选词用字方面的局限性。
例1:
Oxidation-reduction bonding (ORB) is a promising method to achieve Cu-Cu bonding with copper microparticles by a pressureless and low-temperature process. (引自论文Effect of Substrates on Fracture Mechanism and Process Optimization of Oxidation-Reduction Bonding with Copper Microparticles, 2019 [7])
谷歌:氧化还原键合(ORB)是一种通过无压力和低温过程实现铜微粒之间铜–铜键合的有希望的方法。
必应:氧化还原键合(ORB)是一种通过无压力和低温过程实现铜微粒Cu-Cu键合的有前途的方法。
有道:氧化还原键合(ORB)是一种极具发展前景的无压低温铜–铜键合方法。
百度:氧化还原键合(ORB)是一种很有前途的通过无压低温工艺实现Cu-Cu与铜微粒键合的方法。
DeepL:氧化还原键合(ORB)是一种通过无压低温工艺实现铜–铜微粒键合的有效方法。
最终译文:氧化还原键合(ORB)是一种通过无压低温过程实现铜微粒之间铜–铜键合的有效方法。
分析:在科技论文中,句子的翻译讲求用词严谨、准确。例如,在提到的文本中,“promising”是用来修饰“氧化还原键”的。但是,多个机器翻译软件将“promising”翻译为“有希望”“有前途”或“极具发展潜力”,这些翻译没有充分考虑上下文,因而与原文的用词搭配不符。这种情况暴露出机器翻译在理解原文语境并选择恰当词汇方面的不足。
例2:
As a carrier carrying all kinds of important information, video is also the hardest hit area of data loss and data copyright, and has always released a strong signal of desire for data security to the outside world. (引自论文Information Carriers and Identification of Information Objects: An Ontological Approach, 2012 [8])
DeepL:视频作为承载各种重要信息的载体,也是数据丢失和数据版权的重灾区,一直向外界释放着渴望数据安全的强烈信号。
有道:视频作为承载各种重要信息的载体,也是数据丢失和数据版权的重灾区,一直向外界释放着强烈的数据安全愿望信号。
百度:视频作为承载各类重要信息的载体,也是数据丢失和数据版权的重灾区,一直向外界释放着渴望数据安全的强烈信号。
最终译文:视频作为承载着各种重要信息的载体,但同时也是数据泄露的高发区,一直需求一个较为安全的保护环境。
分析:在翻译科技论文摘要时,应使译文保持客观和中立的语调。例如,如果将原文中的“desire”一词译为“渴望”或“愿望”,则可能会赋予文本不必要的情感色彩,这在学术文本中是不适宜的。为了避免这种情况,建议在翻译时将“desire”一词改为“需求”,以确保语言的严谨性和客观性。
2.1.2. 专业词汇错译
正确翻译专业词汇对于确保文章的专业性和准确性极为重要。以下分析了机器翻译在专业词汇上的翻译错误。
例3:单复数问题
原文:由于非零权向量的存在,权互补问题比互补问题复杂得多,因而目前关于权互补问题的算法并不多见。(引自论文《一类线性权互补问题的修正全牛顿步可行内点算法》,2022 [9])
有道:Because of the existence of non-zero weighted vector, the weighted complementation problem is much more complicated than the complementarity problem, so there are few algorithms about the weight complementation problem.
百度:Due to the existence of non-zero weighted vectors, weighted complementarity problems are much more complex than complementarity problems, so there are currently not many algorithms for weighted complementarity problems.
DeepL: Due to the existence of nonzero weight vectors, the weighted complementarity problem is much more complicated than the complementarity problem, and thus there are not many algorithms for the weighted complementarity problem.
最终译文:Due to the existence of nonzero weight vectors, the weighted complementarity problem is much more complicated than the complementarity problem, and thus there are not many algorithms for the weighted complementarity problem.
分析:中文的单复数并不体现在名词本身,而是体现在名词前面的量词上,如“一厘米”、“两厘米”,“厘米”这个词语并不会因为数量变化而变化,反观英文“one centimeter”“two centimeters”“centimeter”这个词语会因为数量变化而变化。单复数是机器翻译过程中相关软件需要考虑到的问题。
“权互补问题”是一个专有名词,前面没有量词,给机器翻译造成了一定的困难,机器翻译并未妥善处理相关问题,软件后面的单复数不统一。专有名词的译文有其专门的规则,通常使用单数。因此最终译文为the weighted complementarity problem。
例4:自创专业词汇
重极限(引自论文《一类线性权互补问题的修正全牛顿步可行内点算法》,2022)
有道:heavy limit
DeepL: heavy limits
最终译文:double limit
分析:在百度百科中,“重极限”被定义为多元实变函数在所有变量同时取极限时的函数值极限。在这种定义下,“重”意味着多重或多重变量的极限,而不是指重量。因此,将“重极限”翻译为“heavy limit”是不恰当的。经过查询知网相关论文,可以确定“重极限”的准确翻译是“multiple limit”或“double limit”(当涉及两个变量时)。
2.1.3. 复杂词组内部漏译与可读性较低
在处理复杂词组时,机器翻译可能会遗漏关键信息或产生可读性较低的译文。以下是一些相关的例句分析。
例5:
In this study, the influences of Cu substrates with and without Ag-plating and Au-plating on ORB were investigated. (引自论文Effect of Substrates on Fracture Mechanism and Process Optimization of Oxidation-Reduction Bonding with Copper Microparticles, 2019)
谷歌:本研究调查了铜基底经过银镀层和金镀层处理与未经处理的情况下对ORB的影响。
必应:本研究调查了Cu基底材料的Ag电镀和Au电镀对ORB的影响。
百度:在本研究中,研究了Cu衬底上有无镀银和镀金对ORB的影响。
DeepL:本研究调查了镀银和镀金以及未镀银和未镀金的铜基底对ORB的影响。
最终译文:本研究调查了铜基地上有无镀银和镀金对ORB的影响。
分析:例5中,词组翻译主要出现了两种问题:“and”的并列对象不清晰导致的误译问题和遣词造句不恰当导致的可读性低的问题。
在翻译时,必须准确把握“and”所连接的并列成分。有时,并列成分并非紧跟在“and”之后,这可能会影响读者对句子的理解。例如,短语“high temperature and power”可以有两种理解:一是将“high temperature”与“power”并列,二是将“high temperature”与“high power”并列。如果两种解释都符合常识,译者需要根据全文内容和相关领域背景来决定取舍。例如,在讨论镀金和镀银的语境中,如果上下文提到了相关表达,那么“高温高压”这种并列方式应是正确的。
在处理包含多个并列元素的句子时,机器翻译可能会因为并列成分的复杂性而选错并列对象。以“with and without Ag planting and with and without Au planting”为例,正确的并列应该是“with and without Ag planting”和“with and without Au planting”,而机器翻译可能会错误地将“with and without”与“Au planting”并列。
即使并列对象选择正确,不规范的表述也会导致翻译错误。例如,“银镀层和金镀层处理与未经处理的情况下”中的“处理”一词,并不符合专业领域的标准表述。另外,像“镀银和镀金以及未镀银和未镀金”这样的翻译,虽然意思准确,但表述冗长,缺乏论文文本应有的简洁性。而“有和没有银镀层和金镀层”这样的表述,用词也与论文的严谨性不符。
因此,翻译时不仅要注意并列结构的准确性,还要确保用词规范,以提高翻译的可读性和专业性。机器翻译在简单的and并列方面的翻译没有问题,但是一旦叠加了其他的并列词汇,就容易因为并列对象的多样化而出现对象选择错误。
通过分析其余几组对于并列对象选择正确的译文,我们可以发现,即使对比对象正确,译文也会因为不规范表述出现错误。如银镀层和金镀层处理与未经处理的情况下中的“处理”这一表述不符合该领域的标准;又比如镀银和镀金以及未镀银和未镀金这个译本对于and的省略并列情况枚举出来,意思精确,然而内容冗余,繁琐,可读性较低,不符合论文文本的简洁的特征;有和没有银镀层和金镀层这个译本中“有和没有”用词环境和论文严谨不符。
2.2. 句子层面
除了词语层面的翻译错误,机器翻译在处理句子的时候会出现更复杂的问题,比如因为无法揣摩作者意图而过分直译,从句指代不明而句意理解错误,可读性较低等问题。
2.2.1. 句法转换:主被动语态转换错误
在科技文献中,主动语态通常比被动语态更为常见,因为它能够更直接地表达作者的意图。以下是一些主被动语态转换错误的例句分析。
例6:
为提高绝缘栅门极晶体管(insulated gate bipolar transistor, IGBT)模块运行的可靠性,研究了缺陷对IG-BT模块内部寄生参数的影响,提出了一种基于频率响应的IGBT模块内部缺陷诊断方法,并对其工作原理和性能特点进行了详细分析。(引自论文《高压大容量功率半导体器件技术及其应用》,2024 [10])
有道:In order to improve the reliability of insulated gate bipolar transistor (IGBT) module operation, the effect of defects on parasitic parameters in IG-BT module was studied. An internal defect diagnosis method of IGBT module based on frequency response is proposed, and its working principle and performance characteristics are analyzed in detail.
DeepL: In order to improve the reliability of insulated gate bipolar transistor (IGBT) module operation, the effects of defects on the internal parasitic parameters of IG- BT modules are investigated, and a diagnostic method of internal defects in IGBT modules based on frequency response is proposed, and its working principle and performance characteristics are analyzed in detail.
百度:To improve the reliability of insulated gate bipolar transistor (IGBT) module operation, the influence of defects on the internal parasitic parameters of IGBT modules was studied. A frequency response based internal defect diagnosis method for IGBT modules was proposed, and its working principle and performance characteristics were analyzed in detail.
最终译本:In order to improve the reliability of insulated gate bipolar transistors(IGBTs)under operation condition,we analyzed the influence of internal defects on parasitic parameters inside the IGBT module,and thereby proposed a novel diagnostic method for defecting internal defects of IGBT with detailed analysis of its principle and characteristics.
分析:本案例源自科技论文摘要,旨在明确指出实验研究的对象。原文使用中文被动语态,但主流翻译软件在翻译时未能实现语态的转换,这暴露了机器翻译在处理语言结构方面的不足。随着学术界对科技文献语言风格的更新,主动语态因其简洁、生动和说服力而日益受到青睐。《英文写作指南》亦推荐使用主动语态,以提高科技文献的交流效率和吸引力。因此,本案例中的文本应转换为主动语态,以体现作者在实验中的主动性和控制力,从而增强论文的逻辑性、学术性和完整性。
2.2.2. 从句错译
从句的正确翻译对于理解句子的整体意义至关重要。以下是一些从句错译的例句分析。
例7:
Both Ag-plating and Au-plating substrates prevented the formation of oxide film on the substrate, which caused separation at the interface, thereby increasing the shear strength. (引自论文Effect of Substrates on Fracture Mechanism and Process Optimization of Oxidation-Reduction Bonding with Copper Microparticles, 2019)
谷歌:银镀层和金镀层基底都防止了基底上氧化膜的形成,从而防止了界面处的分离,增加了剪切强度。
必应:Ag电镀和Au电镀基底都防止了氧化膜在基底上的形成,从而导致界面分离,从而增加了剪切强度。
有道:镀银和镀金基片都阻止了基片上氧化膜的形成,使基片在界面处分离,从而提高了抗剪强度。
百度:Ag镀层和Au镀层基板都防止了在基板上形成氧化膜,从而导致界面分离,从而提高了剪切强度。
文心一言:银镀层和金镀层基体均阻止了基体上氧化膜的形成,而氧化膜会导致界面分离,从而使剪切强度提高。
最终译文:银镀层和金镀层基底都防止了基底上氧化膜的形成,从而防止了界面处的分离,这增加了剪切强度。
分析:经过处理的句子原文含有一个非限制性定语从句,其中“which”指代的是逗号前的“oxide film on the substrate”(基板上的氧化膜)。通过去除修饰词后,简化的名词为“oxide film”(氧化膜)。该从句解释了氧化膜,并指出其会导致界面分离。而该从句与句子前半部分的银镀层和金镀层之间并没有从属关系。原句的主语是“Ag-plating and Au-plating substrates”(银镀层和金镀层基板),这些基板会阻止氧化层的形成,而氧化层的形成会引起界面分离。
句子的结构为“A阻止B的出现,B的作用是C,因此D”。根据中文行文规范,从形式和内容上将英文转换为中文的意合,省略了从句和连接词,改为“A阻止B,因此防止C,D”。
此类机器翻译的错误主要在于未能识别非限制性定语从句的对应名词,将定语从句误译为原因状语,从而将描述性关系错误地转换为因果关系。
2.2.3. 句式不转换:导致可读性较差
即使句子的基本意思被翻译出来,如果句式转换不当,也会影响译文的可读性。以下是一些句式转换不当导致可读性较差的例句分析。
例8:
However, neither Au nor Ag have been reported to react with formic acid. (引自论文Effect of Substrates on Fracture Mechanism and Process Optimization of Oxidation-Reduction Bonding with Copper Microparticles, 2019)
有道:然而,金和银都没有与甲酸反应的报道
百度:然而,Au和Ag都没有与甲酸反应的报道。
谷歌:然而,据报道,金(Au)和银(Ag)均未被证实与甲酸发生反应。
文心一言:然而,据报道,无论是金还是银都不会与甲酸发生反应。
最终译文:然而,据报道,金(Au)和银(Ag)均未被证实与甲酸发生反应。
分析:从以上译文可以看出,虽然机器翻译能够大致表达原文含义,但其可读性仍然较低。有道和百度的翻译不符合中文行文习惯,读者能够理解译文,可其中的“没有xx的报道”表述可读性较差。相比之下,谷歌和文心一言的翻译更为完整。在论文文本的翻译过程中,应当体现严谨性原则,将术语原文附加在译文后面,以增加专业性。
3. 机翻译文错误成因与译后编辑策略
在科技论文翻译领域,机器翻译技术虽然能够基本传达原文的意图,但在处理复杂句式、专有名词翻译、判断译文背景等方面,仍存在以下局限性:
1) 作者情感理解的不足:机器翻译在处理科技论文时,往往难以准确捕捉作者的情感色彩和语气。科技论文通常具有客观、严谨的特点,机器翻译可能无法识别并传达这些细微差别,导致译文在用词上显得不够精准和规范。人工译者在翻译前对原文进行深入理解,可以有效地解决这一问题。
2) 分词技术的局限性:中文与英文在结构上存在显著差异,中文句子中缺乏空格,这给机器翻译的分词带来了挑战。例如,将“请在一米线外等候”错误地分词为“一”和“米线”,是机器翻译常见的错误。人工译者凭借对语言的敏感度和理解能力,可以更准确地进行分词,从而减少此类错误。
3) 专业词汇的准确度问题:科技论文中包含大量专业术语,机器翻译在处理这些词汇时可能会因为语料库的不完善而出现错译。译者在翻译过程中,应主动查询相关术语库和专业软件,以确保使用最权威和准确的词汇。
4) 译后编辑的重要性:机器翻译的输出需要经过人工译者的细致校对和调整,以确保译文的准确性、流畅性和专业性。译后编辑不仅包括对语法和词汇的校正,还包括对逻辑结构和专业术语的审查。
5) 译后编辑的学术性:译后编辑应被视为一种学术活动,要求译者具备相应的语言能力和专业知识。译者需要对机器翻译的输出进行深入分析,识别并纠正潜在的错误,同时保持原文的风格和意图。
鉴于以上问题,本研究建议译者在进行译后编辑时,应采取以下策略:
1) 作者情感理解:译者在处理科技论文的总结性句子时,不仅要关注作者对实验过程的描述,更要深入理解其背后的情感倾向和态度。这要求译者具备高度的语言敏感性,能够通过恰当的语态选择——无论是主动语态还是被动语态——来精确传达原文的情感色彩和语气。此外,译者还应考虑目标语言的表达习惯和读者的预期反应,以确保译文的情感表达与原文相匹配,同时符合目标语言的文化和语境。
2) 专有名词选择:科技论文中常包含大量的专业术语和专有名词。译者需利用权威学术资源,如学术数据库、专业词典或领域专家,进行查证,确保译文在学术界具有广泛的认可度和准确性。这一过程对于避免专业术语的误译至关重要,有助于维护论文的专业性和权威性。同时,译者应注意专有名词的一致性,确保全文中同一术语的翻译保持统一,避免混淆。
3) 逻辑连贯性的细致审查:科技论文的逻辑结构严密,译者需对全文进行细致的逻辑分析,识别并纠正可能存在的逻辑断裂或不连贯之处。这不仅涉及到句子层面的逻辑关系,也包括段落之间的逻辑流转,确保译文在逻辑上连贯、清晰。译者应关注论文的整体结构,包括引言、方法、结果和讨论等部分的逻辑衔接,以及各部分之间的逻辑过渡,确保译文的逻辑流畅性。此外,译者还应注意检查论文中的因果关系、条件关系等逻辑连接词的使用,确保这些连接词在译文中的使用恰当,有助于读者理解论文的逻辑推理过程。
4) 语言风格的统一性:科技论文通常具有特定的语言风格,包括专业术语的使用、句子结构的复杂性以及语言的正式性。译者在译后编辑过程中,应保持原文的语言风格,避免过度简化或随意改变原文的表达方式。同时,译者应注意译文的语言流畅性和可读性,确保译文既专业又易于理解。
5) 格式和引用的规范性:科技论文的格式和引用规范对于论文的专业性至关重要。译者在译后编辑过程中,应确保译文遵循目标语言的格式和引用规范,包括参考文献的排列、图表的标注以及页码的设置等。这有助于提升译文的规范性和可信度。
4. 结语
本文旨在探讨机器翻译中的常见错误类型及其成因,并指出这些错误是机器翻译领域的主要挑战。通过对比分析不同平台的机器翻译输出与人工校对结果,我们认识到,尽管现代科技迅速发展,机器翻译技术不断进步,但实现高质量的机器翻译输出仍是一项长期而艰巨的任务。机器翻译技术的持续迭代和优化,预计将为日常生活和专业工作带来更多便利。
在提升个人翻译技能的同时,译者应充分利用机器翻译的便捷性,并关注其译文中的错误特征,以实现有效的译后编辑。通过人机协作,可以高效地产出高质量的翻译成果。然而,本文并未深入探讨机器翻译系统为何未能有效规避这些错误,以及是否存在更优的方法来预防这些错误,这将是未来研究工作的重点。
简言之,本文分析了机器翻译中的常见错误及其原因,并强调了高质量机器翻译输出的实现仍面临挑战。同时,指出了译者在利用机器翻译时应采取的策略,并提出了未来研究的方向。
基金项目
广西研究生教育创新项目(JGY2023138)阶段性研究成果;
广西研究生教育创新项目桂林电子科技大学校级项目“‘文化走出去’背景下广西独弦琴文化资料整理与英译研究”(2024YCXS096)阶段性研究成果。