计算机科学论文摘要的机翻错误类型及译后编辑
Machine Translation Error Classification and Post Editing for Paper Abstracts in Computer Science
DOI: 10.12677/ml.2024.12111062, PDF, HTML, XML,   
作者: 王 宇:大连理工大学外国语学院,辽宁 大连;付茜雯:广州华商学院外国语学院,广东 广州
关键词: 机器翻译计算机科技论文摘要错误类型译后编辑策略Machine Translation Paper Abstracts in Computer Science Error Classification Post-Editing Strategies
摘要: 本研究采用定性和定量分析方法,系统归类了计算机科技文本摘要中机器翻译出现的错误,其中不符合中文表达习惯的翻译错误占比最大,其次是术语误译、误译、欠译、漏译、过译以及赘译。本研究发现,长难句、被动语态以及术语翻译是造成机器翻译错误的主要原因。针对源文本的逻辑缜密、语步序固定等特征,本研究针对性地对各类错误类型提出了相应译后编辑策略。
Abstract: By means of quantitative and qualitative research methods, this study systematically classifies the errors in MT-generated computer science abstracts. Results show that unidiomatic translation makes up a relatively significant share, followed by terminology mistranslation, mistranslation, under-translation, omission, over-translation, and addition. Due to the informative and academic text features of source texts, long and complex sentences, passive voice and term translation are the main causes of machine translation errors. In view of the logical organization and sequenced structure of source text requirement, this study puts forward well-directed corresponding post-editing strategies.
文章引用:王宇, 付茜雯. 计算机科学论文摘要的机翻错误类型及译后编辑[J]. 现代语言学, 2024, 12(11): 656-667. https://doi.org/10.12677/ml.2024.12111062

1. 引言

学术性研究论文及其摘要是世界范围内科学传播的基本工具[1]。作为研究论文不可或缺的一部分,摘要概括了论文中的所有内容,并使读者对研究内容有一个初步的了解。同时,为了学习和编写高质量的英文摘要,多数论文作者会利用机器翻译(简称MT)对翻译英文摘要进行翻译。

然而,由于学术性文本中复杂的句子结构和特定术语的快速迭代,机器翻译生成的摘要译文的质量并不尽如人意。尽管部分MT译文在逻辑和语法上是正确的,但并不符合中文的表述习惯,轻则影响读者对原文信息的接收,重则导致原文信息的错误传递以及歧义。目前的MT系统大都遭遇了“雪线”,这意味着MT系统的准确率很难突破70%的极限[2]。鉴于此,学术界开始将目光转向MT之后的过程,即译后编辑系统[3]。语言服务业也逐渐将机器翻译与译后编辑相结合的方法采纳为主要翻译方法[4]。研究表明,MT + 译后编辑的方法在翻译精度和速度方面都高于人工翻译[5]

目前,译后编辑的研究重点是错误类型和译后策略。因此,本研究运用定性和定量相结合的研究方法,总结了计算机学科论文摘要的机器翻译中的错误类型,并提出了相应的译后编辑策略。

2. 国内外研究现状

2.1. 关于译后编辑的研究现状

近年来,对译后编辑的研究主要集中在概念研究、译文质量评估和错误类型归纳等方面。在译后编辑概念研究方面,Folaron,O’Brien和Ballin等人从宏观和微观两个层面提出了译后编辑的实践案例、模式、统计和理论概念[6]。魏长宏、张春柏的研究表明译后编辑已经成为机器翻译系统不可或缺的一部分[7]

在译文质量评估方面,Koponen和Salmi设计了译后编辑实验,以验证如何提高译后编辑的质量[8]。Guerberof提出高效的在线学习框架,并建立一个基于缓存的语言模型,以提高翻译和译后编辑的质量[9]

2.2. 关于MT错误类型和译后编辑策略的研究现状

MT错误类型和后编辑策略是近20年来的研究热点。多数学者和组织一致认为,为了规范对MT质量的评估,首先需要完成的是对MT系统中的翻译错误类型进行分类。

罗季美、李梅建立了一个10万个句对的语料库,得出了词汇误译、句法误译和符号误译三类一级错误,以及十五类二级错误[10]。Costa等人扩展了之前的错误分类,以适应与Romance提出的语言特征相关的翻译错误[11]

2.3. 关于论文摘要MT错误类型的研究现状

摘要机器翻译中的错误分析方法可大致分为两类。第一类方法是通过定量分析对机器翻译中的错误进行分类和分析,例如张帆从国内20种医学期刊中选取了300多篇摘要,总结了其中的语言问题,发现错误主要存在于摘要长度、时态、语态和拼写四个方面[12]。第二类方法是将英文摘要的MT译文与译入语编辑修改后的译文进行比较,例如邓军涛,许明武根据美国教师的修改建议,归纳出50种国内EI检索期刊和中国核心科技期刊英文摘要的MT译文中的5个典型语言问题[13]

然而,基于DQF-MQM框架的MT错误分析研究却很少。鉴此,本文尝试在DQF-MQM框架的基础上对计算机科学学科论文摘要的MT译文中出现的错误进行归纳分析。

3. 研究内容

3.1. 语料来源

计算机学科文本摘要属于学术写作的一类,字数常在150~200字,通常由五个语步(研究背景、问题、存在的解决方案和局限性、建议和评价)构成,是论文目的、研究范围和结论的总结[14]。为了实现150~200字以内的五语步结构,研究人员和摘要作者经常使用长而复杂的句子来呈现最大限度的信息[15],这是导致MT输出不准确的一个因素。此外,在面临计算机学科文本摘要中十分常见的技术词汇和半技术词汇时,MT的质量仍然不高。鉴此,对MT摘要文本译后编辑的研究对于提高译文质量有较为重要的意义。

本文从2018年中国计算机联合会发布的《国际期刊和会议记录推荐名单》的A类期刊中随机摘取了300篇摘要,分别从属于软件、网络和数字媒体三个子学科,字数详细信息见表1

Table 1. Information about source text

1. 源文本信息

期刊/会议记要

摘要总篇数

句子总数

总字数

IEEE Transactions on Pattern Analysis and Machine Intelligence

IEEE Transactions on Image Processing

ACM International Conference on Multimedia

IEEE Transactions on Dependable and Secure Computing

IEEE Transactions on Information Forensics and Security

300

2403

56,318

英文

107,523

中文

3.2 理论框架

3.2.1. DQF-MQM错误分类框架

动态质量框架(Dynamic Quality Framework, DQF)是翻译自动化用户协会(Translation Automation User Society, TAUS)于2011年提出的一种新的翻译质量评估体系。多维质量度量(Multidimensional Quality Metrics, MQM)是一种错误类型度量。2015年,MQM和DQF的开发人员合作将DQF和MQM集成到一起,为翻译专业人员提供了一个标准的动态模型[16]。在DQF-MQM框架中,机器翻译中的错误分为8大类和33小类。

3.2.2. 文本类型理论

作为德国功能主义翻译理论的代表人物和德国功能主义学派的早期创始人之一,Katharine Reiss指出,在翻译之前必须确定原文的类型,并针对不同的翻译任务采取相应的翻译策略。Reiss将文本分为三种类型:信息型文本(例如报告、讲座、操作指南等),表达型文本(例如诗歌和自传等)以及操作型文本(例如广告)。

3.3. 研究方法

首先,使用Google Translate对300篇计算机学科文本摘要进行翻译,并在Reiss文本类型理论的指导下,对MT句子逐一进行译后编辑。之后邀请计算机专业人士进行半结构化访谈,确保译后编辑质量的专业性。由于句子总量巨大无法逐句进行访谈,因此仅随机抽取部分样本(100句)作为访谈语料。随后对该样本中的所有错误进行分析和总结,基于DQF-MQM框架对错误类型进行分类。随后,对计算机专家和专业翻译人员进行第二轮半结构化访谈,提出MT计算机学科文本摘要的最终错误类型,并使用最终确定的错误分类来标记其余200篇摘要中的错误,并计算出每种错误类型的频率。最后总结出计算机科学文摘翻译中最容易产生错误的三种语言案例,提出相应的译后编辑策略。

4. 研究结果分析

通过定性和定量研究分析,发现2403个句子中有2026个机器翻译句子(84.3%)存在错误。在所有的错误类型中,不合习惯用语占比较大(49.9%,1011句),其次是术语误译(19.1%,387句),误译(16.7%,338句),欠译(11.2%,227句),漏译(10.7%,217句),过译(7.5%,152句),赘译(0.6%,12句)。

经过进一步的分析总结,发现每一类错误类型都由不同的语言现象导致,如下表2所示。

Table 2. Error classification in machine translation of abstracts in computer science

2. 计算机科学论文摘要机翻错误分类

错误大类

错误小类

1) 不合习惯用语(49.9%)

非限制性定语从句

目的状语从句/结果状语从句

让步状语从句

2) 术语误译(19.1%)

缩略词

复合术语

半技术词

3) 误译(16.7%)

长句

复杂句

4) 欠译(11.2%)

被动语态

定语从句

5) 漏译(10.7%)

冠词漏译

介词/介词短语漏译

6) 过译(7.5%)

主语过译

7) 赘译(0.6%)

4.1. 不合习惯用语

根据DQF-MQM框架,“不合习惯用语”指的是语法上正确,但在习惯用法上不恰当的翻译。摘要对于科技文本的摘要来说,单一的表达方式无法有效地传递原文信息,学术交流也难以实现。因此,在对MT系统生成的译文进行译后编辑时,要使译文更自然、更有效地理解和表达信息,就必须适当地调整语序或词序。

300篇摘要中共有1011个句子含有这类翻译错误,占总数的49.9%。通过分析和访谈,我们发现导致这类错误的三种语言现象,分别是:非限制性定语从句、目的状语从句/结果状语从句和特殊表达,例如:

(1) 非限制性定语从句

ST:Moreover, the problem is exacerbated by the slow speed of architectural simulation, which is the primary means for conducting such design space studies.

MT:此外,速度较低的架构模拟,这是进行这种设计空间研究的主要手段,这加剧了这个问题。

PE:此外,低速架构模拟(对这种设计空间进行研究的一种重要手段)也加剧了这一问题的严重性。

分析:

MT系统调整源文本的语序,将非限制性定语从句的从句部分“which is the primary means for conducting such design space studies”插入在主句中,这导致目标文本的逻辑关系的不连续性,降低了可读性。

(2) 目的状语从句/结果状语从句

ST:The algorithm is also applicable to IP architectures, albeit with less flexibility.

MT:该算法也适用于IP架构,虽然灵活性较低。

PE:该算法尽管灵活性较低,还是能够应用于IP架构中。

分析:

汉语的语言习惯倾向于首先说明次要部分,如方法、理由或前提等,其次才是主要部分,如目的、结果等,而英语则相反。MT系统没有考虑到汉语习惯,而是逐字翻译源文本,导致其生成的译文没有体现出正确的让步逻辑关系,使译文的可读性较低。

4.2. 术语误译

根据DQF-MQM框架,“术语误译”的定义是专业词汇(特定于领域的词)被翻译成与该领域期望的或以其他方式指定的术语不同的术语。随着新技术的快速迭代,术语更新的速度也突飞猛进,因此术语的翻译成为一个亟待解决的问题。尤其是在计算机学科中,术语库的更新远远落后于新术语的出现。本研究发现,MT中19.2%的错误属于术语误译。示例如下:

ST:Moreover, 3 × 3 pattern choices are devoid of features such as longer stroke lengths, direction changes and intersections that are considered to be important in preventing shoulder surfing attacks.

MT:此外,3 × 3模式选择缺乏诸如较长行程长度,方向变化和交叉点等特征,这些特征被认为对防止肩部冲击具有重要作用。

PE:另外,3 × 3图案的选择缺乏诸如更长的路程长度、方向改变以及交叉点等这样的特征,而这些特征对于防止肩窥攻击很重要。

分析:

从上例中可以看出,“shoulder surfing attack”是一个复合型技术术语,由一个形容词和一个名词组成。MT系统在翻译术语时只选择了一般意义,导致原文信息传递不足。在计算机科学领域,这类术语通常由日常用词合成。因此,在译后编辑时要结合术语所处的领域来选择恰当的意义。

4.3. 误译

根据DQF-MQM框架,“误译”指目标内容不能准确表示源内容的情况。在2026个译后句子中,有338个句子存在误译错误,占总数的16.7%。最常见的误译类型是句子成分分析不当,占误译错误总数的50.8%,172句。

通过与计算机和语言学专业人士的分析和讨论,发现长而复杂的句子是导致翻译错误的典型原因。MT系统在翻译这些句子往往会出现误译,影响译文的准确性和可重用性。示例如下:

ST:However, FSDH has a closed-form solution and only requires a single rather than iterative hash code-solving step, which is highly efficient.

MT:但是,FSDH具有封闭形式的解决方案,仅需要一个高效的哈希码求解步骤,而不是迭代的步骤。

PE:然而,FSDH有一个闭形解决方案,只需要一个单一却又不迭代的散列码解决步骤,这是非常高效的

分析:

这个例子中,从句部分“which is highly efficient”是修饰的是整个主句“FSDH has a closed-form solution and only requires a single rather than iterative hash code-solving step”。然而,MT系统没有识别出从句与主句之间的逻辑关系,而是将从句部分作为短语“hash code-solving step”的定语进行翻译,传递了错误信息。

4.4. 欠译

根据DQF-MQM框架,“欠译”指目标文本不如源文本具体,目标文本的读者收到的信息少于源文本的读者接收到的信息。在翻译活动中,由于不同语言之间的不对等,欠译是不可避免的。但是,在某些情况下,欠译会影响译文的准确性,因此也需要进行译后编辑。

在2026个句子中,有227个句子存在翻译错误,占总错误句子数的11.2%。通过分析发现,长难句、被动语态句和定语从句是导致欠译的三大主要原因,例如:

ST:We prove that PµTL has a small model property and that a decision procedure using 2 player parity games can be employed for the satisfiability problem of PµTL.

MT:我们证明了PμTL具有较小的模型性质,并且使用2个玩家奇偶校验游戏的决策过程可以用于PμTL的可满足性问题。

ST:我们证明了PµTL有小型模型属性,还证明了一个采用双玩家奇偶博弈的决策程序可以用于PµTL的可满足性问题。

分析:

这个例子中,原文两个子句之间用连词“and”连接起来,并且省略了第二个子句中的主语和动词,这属于隐性衔接。然而MT系统只对原文进行字面翻译,而没有重建句子结构或将隐性衔接转化为显性衔接。因此,MT生成的翻译没有完整传递原有的逻辑关系,很容易导致歧义。

4.5. 漏译

根据DQF-MQM框架,“漏译”意味着源文本中的内容未被完全翻译。

在2026个需要进行译后编的句子中,有217个句子出现了漏译错误,占总句子数的10.7%。最常见的导致漏译的原因是漏译冠词,占36.8%,80句;漏译介词或介词短语,占19.7%,43句,例如:

ST:They can be evaluated to normal diagrams (each corresponding to a rule) and generate an associative unital non-commutative algebra of rules:the rule algebra R.

MT:可以将它们评估为正态图(每个对应于规则)并生成规则的关联单位非交换代数:规则代数R.

PE:可以将它们用来对正态图(每个图对应一个规则)进行评估,并生成规则中一个有关联有单位的非交换代数:规则代数R。

分析:

冠词在信息型文本中举足轻重。然而,在翻译含冠词的句子时,MT系统通常无法确定哪些冠词可以省略,哪些不能。冠词的漏译会导致原文逻辑不严密,甚至误导读者。这样的译文并不利于传达逻辑缜密的科学信息。

4.6. 过译

根据DQF-MQM框架,“过译”指目标文本比源文本更具体,即目标文本的读者接收到的信息比源文本的读者接收到的信息更多。

在2026个需要进行译后编的句子中,有152个句子存在过译的错误,占总句子数的7.5%。导致过译最常见的原因是过译主语,占所有包含过译错误句子的39.6%。例如:

ST:We put a preexisting definitional abstract machine for dynamic delimited continuations in defunctionalized form, and we present the consequences of this adjustment.

MT:我们将一个预先存在的定义抽象机器用于动态定界延续的defunctionalize形式,并且我们介绍了这种调整的结果。

PE:我们将一个预先存在的用于动态delimited continuations的定义性抽象机放在非功能化形式中,并给出了这种调整的结果。

分析:

MT系统生成的译文中没有语法错误,但直译了两个子句的主语,造成了译文结构的冗余。汉语中,当两个短句的主语一致时,省略第二个主语,将隐性衔接转化为显性衔接,使译文结构更加简洁。

4.7. 赘译

根据DQF-MQM框架,“赘译”是指目标文本包含源中不存在的信息。在2026个需要进行译后编的句子中,有12个句子存在赘译的错误,占总数的0.6%,例如:

ST:Overall, the performance measures of recall, precision, and c@1 was 68% (all three measures) for the baseline approach, and 71%, 78%, and 77.4%, respectively, for the RST based approach.

MT:总体而言,基线方法的召回率,精确度和c@1的性能指标分别为68% (所有三项指标),基于RST的方法分别为71%,78%和77.4%。

PE:总体而言,基线法在召回率、准确率和c@1方面的性能指标68% (3项均是),而RST方法的这三个指标则分别为71%,78%和77.4%。

分析:

在ST中只有一个“respectively”,但MT系统给出的译文中有两个“分别”。源文本中的百分数较多,还有连词“and”连接的短句,所以句子的逻辑关系较为复杂。由于对源文本的逻辑关系划分失误,造成赘译。

5. 译后编辑策略

5.1. 长难句的译后编辑

为了提高MT系统的译文输出质量,本研究针对以下4类长句和复合句提出了译后编辑策略。

5.1.1. 定语从句

对MT系统输出的定语从句进行译后编辑过程中,首先需要确定逻辑关系,其后选择将源文本中的隐性衔接转化为显性衔接,以使代词所指的成分更加清晰,避免歧义。以下面的句子为例,源文本中“where”一词在主句中同时指代“fingerprint mechanisms”、“DoS attacks”和“downgrade attacks”。也就是说,如果“where”这个词没有具体说明,读者就不知道其具体指代对象。因此,在译后编辑中,将“where”译为“这些漏洞”,使指代对象更加清晰,避免歧义,例如:

ST:Our findings include fingerprinting mechanisms, DoS attacks, and downgrade attacks where an adversary can force usage of the insecure WPA-TKIP cipher.

MT:我们的研究结果包括指纹识别机制,DoS攻击和降级攻击,其中攻击者可以强制使用不安全的WPA-TKIP密码。

PE:我们的发现包括指纹提取机制、DOS攻击以及降级攻击,任何对手都可以通过这些漏洞强制使用不安全的WPA-TKIP密码。

5.1.2. 非限制性定语从句

在译后编辑过程中,我们对非限制性定语从句的连接形式进行了重构。以下面的句子为例,“where”引导的非限制性定语从句修饰“we use an alternating directions method solving a low-rank subproblem and a sparseness subproblem alternatively”。然而,“where”一词表示的是一个“结果”,而不是一个“地方”。因此,“where”一词应该译为“从而”,以重现原文隐含的逻辑关系。

ST:To overcome the difficulty, we use an alternating directions method solving a low-rank subproblem and a sparseness subproblem alternatively, where we derive an exact solution to the low-rank subproblem, as well as an exact solution in a special case and an approximated solution generally through a surrogate of the L0-constraint and difference convex programming, for the sparse subproblem.

MT:为了克服这个困难,我们使用交替方向方法来解决一个低秩子问题和一个稀疏子问题,其中我们得到一个精确的解决方案,以及一个特殊情况下的精确解和一个近似解。通常通过L0约束和差分凸规划的替代,用于稀疏子问题。

PE:为了克服这个难题,我们使用交替方向法对低秩子问题和稀疏子问题进行交替求解,从而得到低秩子问题的一个精确解,并且主要通过L0-约束的替代条件和凸差规划,还得出稀疏子问题的一个精确解和一个近似解。

5.1.3. 让步状语从句

针对让步状语从句的译后编辑,我们选择增加连词,使译文更流畅。以下面的句子为例,英语中有“though”、“although”或“despite”时,通常会省略“but”一词,但让步关系仍然存在。但在汉语中,显性衔接更加常见,因此“虽然”和“但是”可以出现在同一个句子中。因此,在译后编辑中补全“但是”一词。

ST:Despite progress in perceptual tasks such as image classification, computers still perform poorly on cognitive tasks such as image description and question answering.

MT:尽管在诸如图像分类之类的感知任务方面取得了进步,计算机在诸如图像描述和问答的认知任务上表现不佳。

PE:尽管在图像分类这样的感知任务上取得了进展,在图像描述和问题回答等认知任务上,计算机的表现仍然不佳。

5.1.4.含有介词短语的句子

在译后编辑中,首先要确定这类语句包含的逻辑关系,必要的情况下将其转换为显性衔接,从而准确地传达原文信息。

例如,在原文出现“in”、“at”等介词短语时,需要仔细判断语义,根据语境选择正确的翻译。当有“because”、“although”、“despite”等词时,可以判断源语篇中存在隐性衔接。译后编辑时为了使译文更流畅,通常需要将其转换为显性衔接。

以下面的句子为例,通过分析可以发现介词“in”并不表示地点状语,介词短语“in high-performance and scientific computing”和主“the popularity of GPUs”有着潜在的因果关系。在译后编辑过程中,应该重现该逻辑关系,并将其转化为显性衔接。介词“in”应译为“因其”,以便准确地传达原文信息。

ST:Despite the popularity of GPUs in high-performance and scientific computing, and despite increasingly general-purpose hardware capabilities, the use of GPUs in network servers or distributed systems poses significant challenges.

MT:尽管GPU在高性能和科学计算中很受欢迎,并且尽管具有越来越多的通用硬件功能,但在网络服务器或分布式系统中使用GPU会带来重大挑战。

PE:尽管GPU其性能好、科学的计算而备受欢迎,也尽管它的硬件功能越来越通用,但如果在网络服务器或分布式系统中使用GPU,还是会出现很多重大挑战。

5.2. 被动语态的译后编辑

英语中的被动语态因其客观性和简洁性常被用于信息型文本中。然而,汉语往往惯于强调主语,所以很少使用被动语态。通常情况下用无主语句或能表达被动语态的短语来代替被动语态被,如“为…所”。此外,汉语的被动语态往往带有强烈的消极的感情色彩,与信息型文本的客观性背道而驰。因此,在翻译英语中的被动语态时,通常需要将其转换为主动语态,必要时增加主语,使句子结构完整。在翻译英文中的被动语态时,MT系统易出现两大错误。

1) 由于没有考虑英汉语言差异,没有将主动语态转换成被动语态,而是将其翻译成汉语中的“被”字句。然而,因其主观色彩较强,“被”字句在学术文本中并不常见。因此,除一些特殊情况外,英文中的被动语态不适合翻译成汉语中的“被”字句。例如下面这句话:

ST:Coping with network failures has been recognized as an issue of major importance in terms of social security, stability, and prosperity.

MT:应对网络故障已被公认为在社会保障,稳定和繁荣方面具有重要意义的问题。

PE:积极处理网络故障已经成为事关社会安全、社会稳定和社会繁荣的重大问题。

2) MT系统能够识别出被动语态并成功地将其转换为主动语态,但没有为主动语态的句子添加主语,从而产生歧义、不合习惯用语等新的错误,违背了信息型文本的翻译原则,即准确性。因此,在译后编辑过程中,应根据语境增加“我们”或“这篇文章”等主语,以明确施动者,准确传达原文信息。例如下面这句话:

ST:Additionally, an efficient inference algorithm that uses Interacting Markov Chain Monte Carlo (IMCMC) approach is presented to find the best state that maximizes the average of the lower and upper bounds of likelihood while minimizing the gap between the two bounds.

MT:此外,提出了一种使用交互马尔可夫链蒙特卡罗(IMCMC)方法的有效推理算法,以找到最大化可能性下限和上限平均值的最佳状态,同时最小化两个边界之间的差距。

PE:另外,本文还提出一种采用了交互式马尔科夫链蒙特卡洛(IMCMC)方法的高效推理算法,以找到一种最佳状态能在最小化两边界之间的距离同时,最大化似然上下边界的平均值。

5.3. 术语的译后编辑

在300篇计算机学科文本摘要的MT系统生成的译文中,多达19.1%的错误(387句)是由术语误译引起的。一旦将术语翻译错误,原文信息就无法准确传递,甚至会误导读者。在术语翻译方面,MT系统主要面临两类难点:缩略语的翻译和半专业术语的翻译。

5.3.1. 缩略词

缩略语在科学文献和学术文献中很常见。为了帮助读者理解,当缩略语第一次出现在原文中时,需要进行完整的翻译,之后再出现时,才可以沿用其英文缩写且不用进行翻译。例如,缩写“ALU”有相应的中文翻译,因此需要在其第一次出现在某文本中时将其翻译成中文,而不是直接使用英文缩写。

ST:Fortunately, VP also implies that many single-cycle ALU instructions have their operands predicted in the front-end and can be executed in-place, in-order.

MT:幸运的是,VP还意味着许多单周期ALU指令在前端预测了它们的操作数,并且可以按顺序就地执行。

PE:幸运的是,VP也表明众多单周期算术逻辑单元(ALU)指令都会在前端对其运算数进行预测,而且这些指令都可以被就地有序执行。

5.3.2. 半技术词汇

半技术词通常使用生活中的常见的普通词汇来表示专业领域的特殊术语。这些术语虽然来自普通词汇,但它们在科技文本中的含义与其本身的普通含义大有不同。因此不仅要选择这类词汇的常用词意,还要结合文本类型和主题领域选择合适的含义,以提高译文的可读性,准确地传达原文信息。

ST:Our formulation combines listener-based backward ray tracing with sound source clustering and hybrid audio rendering to handle complex scenes.

MT:我们的配方将基于听者的后向光线跟踪与声源聚类和混合音频渲染相结合,以处理复杂的场景。

PE:我们的这个构想将搭载声源聚类的基于侦听器的后向射线追踪和混合音频渲染结合起来,对复杂场景进行处理。

6. 结论

通过定性和定量研究分析,发现2403个句子中有2026个机器翻译句子(84.3%)存在错误。在所有的错误类型中,不合习惯用语占比较大,其次是术语误译、误译、欠译、漏译、过译、赘译。针对以上七类错误,本文提出了相应的译后编辑策略,以期提高MT系统生成译文的质量。

  • 识别隐性衔接

1) 针对限制性和非限制性定语从句,首先将英语中的隐性衔接转化为显性衔接,使代词所指的对象更加清晰,避免歧义;2) 针对“although”、“despite”或“but”等词为首的状语从句,译后编辑时应添加“但是”等词语,将隐性衔接转化为显性衔接;3) 针对介词或介词短语,首先要识别出源语篇中隐藏的逻辑关系,然后为介词或介词短语选取恰当翻译。当含有“in”,“at”等介词的介词短语出现在原文中时,需要根据语境仔细选择正确的词意。

  • 转换被动语态

本文针对两种情况提出了英文被动语态翻译的译后编辑策略:1) 如果被动语态没有正确地转换为主动语态,则将句子转换为主动语态,并替换MT系统译文中的“被”,以符合学术文本的客观感情色彩;2) 增加泛指主语“我们”、“本研究”、“人们”等。否则,译文就会缺少主语,语义成分不完整,甚至造成逻辑关系上的歧义。

  • 恰当选择术语词意

在译后编辑过程中,译者应查阅相关词典,以找到准确的翻译。然而,由于术语的快速迭代,当遇到未收录在术语库或词典中的术语时,MT系统的译文可能出现语义混乱的情况。因此在译后编辑中需要格外注意此类情况,有必要结合语境和该领域的学科特点,仔细斟酌,为术语选择正确的词意,或改变词性,以提高翻译质量。特别是在翻译由普通词派生的术语时需要格外谨慎。

参考文献

[1] Ufnalska, S. (2007) Abstracts of Research Articles: Problems of Translation. European Science Editing, 33, 101-104.
[2] 张克亮. 面向机器翻译的汉英句类及句式格式转换[M]. 郑州: 河南大学出版社, 2007.
[3] 李梅, 朱锡明. 译后编辑自动化的英汉机器翻译新探索[J]. 中国翻译, 2013, 34(4): 83-87.
[4] Groves, M. and Mundt, K. (2015) Friend or Foe? Google Translate in Language for Academic Purposes. English for Specific Purposes, 37, 112-121.
https://doi.org/10.1016/j.esp.2014.09.001
[5] 冯志伟. 机器翻译与人工智能的平行发展[J]. 外国语(上海外国语大学学报), 2018, 41(6): 35-48.
[6] Jia, Y., Carl, M. and Wang, X. (2019) Post-Editing Neural Machine Translation versus Phrase-Based Machine Translation for English-Chinese. Machine Translation, 33, 9-29.
https://doi.org/10.1007/s10590-019-09229-6
[7] Folaron, D. (2014) Sharon O’brien, Laura Winther Balling, Michael Carl, Michel Simard and Lucia Specia: Post-Editing of Machine Translation: Processes and Applications. Machine Translation, 29, 69-76.
https://doi.org/10.1007/s10590-014-9158-8
[8] Guerberof Arenas, A. (2014) Correlations between Productivity and Quality When Post-Editing in a Professional Context. Machine Translation, 28, 165-186.
https://doi.org/10.1007/s10590-014-9155-y
[9] Koponen, M. and Salmi, L. (2018) Post-Editing Quality: Analysing the Correctness and Necessity of Post-Editor Corrections. Linguistica Antverpiensia, New SeriesThemes in Translation Studies, 16, 137-148.
https://doi.org/10.52034/lanstts.v16i0.439
[10] Guerberof, A. (2008) Productivity and Quality in the Post-Editing of Outputs from Translation Memories and Machine Translation. Localization Focus, 7, 11-21.
[11] 崔启亮, 李闻. 译后编辑错误类型研究——基于科技文本英汉机器翻译[J]. 中国科技翻译, 2015, 28(4): 19-22.
[12] DQF-MQM Error Categories.
https://www.taus.net/data-solutions/dqf-mqm-error-annotation
[13] 范华泉, 冷怀明, 郭建秀. 我国医学期刊论文英文摘要典型错误分析[J]. 中国科技期刊研究, 2004, 15(1): 104-106.
[14] 马雪骢. 简论信息型文本翻译的功能实现[J]. 济南职业学院学报, 2008(4): 52-53, 30.
[15] Zobel, J. (2014) Writing for Computer Science. Springer.
https://doi.org/10.1007/978-1-4471-6639-9
[16] Lommel, A. (2018) Metrics for Translation Quality Assessment: A Case for Standardising Error Typologies. In: Moorkens, J., Castilho, S., Gaspari, F. and Doherty, S., Eds., Translation Quality Assessment, Springer International Publishing, 109-127.
https://doi.org/10.1007/978-3-319-91241-7_6