基于照应衔接的机器翻译译后编辑策略研究
A Study on Post-Editing Strategies for Machine Translation Based on Reference Cohesion
DOI: 10.12677/ml.2024.1210960, PDF, HTML, XML,   
作者: 张娇娇, 由志慎:大连理工大学外国语学院,辽宁 大连
关键词: 照应衔接机器翻译译后编辑策略Reference Cohesion Machine Translation Post-Editing Strategies
摘要: 本文基于语篇衔接理论,通过构建平行语料库,对人民网日文版“中国語教室”板块中的新闻文本进行量化统计和质性分析,比较机器译文与人工译文在照应衔接手段上的异同,并提出相应的译后编辑策略。研究发现机器译文在人称照应上存在冗余现象,指示照应上不同翻译系统展现出个性化特征,而在比较照应上两者差异不大。基于此,本文建议译者在译后编辑时,应针对不同翻译系统的常见问题,采用多样化的衔接手段,提升译文的衔接性和连贯性,以提高机器译文质量。
Abstract: This paper, based on discourse cohesion theory, constructs a parallel corpus to conduct both quantitative statistics and qualitative analysis on news texts from the “中国語教室” section of the Japanese version of People’s Daily Online. It compares the similarities and differences between machine translations and human translations in terms of referential cohesion strategies and proposes corresponding post-editing strategies. The findings indicate that machine translations tend to exhibit redundancy in personal reference, while different translation systems display distinct patterns in demonstrative reference. However, the two types of translations show minimal differences in comparative reference. Accordingly, this paper recommends that translators adopt diverse cohesion strategies during post-editing, tailored to the specific issues associated with each translation system, to enhance the overall cohesion and coherence of the translated texts.
文章引用:张娇娇, 由志慎. 基于照应衔接的机器翻译译后编辑策略研究[J]. 现代语言学, 2024, 12(10): 819-826. https://doi.org/10.12677/ml.2024.1210960

1. 引言

近年来,随着人工智能和大数据技术的快速发展,机器翻译技术不断取得重大突破,大大提高了机器翻译文本的忠实度和准确性。尽管如此,当前的机器翻译系统仍存在许多问题,无法满足人们的翻译需求(邓涵铖、熊德意,2022) [1]。为了提高翻译效率,译者开始选择“机器翻译 + 译后编辑”(Machine Translation + Post Edit, MTPE)的翻译方式。然而,国内关于机器翻译系统中MTPE的研究主要集中在词汇和语法分析层面,范武邱、王昱(2022) [2]指出机器翻译在单词或句子的处理上基本没有错误,但在各成分之间缺乏呼应,整篇文章的结构松散,无法表现出整体的美感。即使进行MTPE,译文在文本层面的衔接性问题上仍存在许多问题(崔启亮、李闻,2015) [3]。衔接手段是生成语篇的重要条件之一,衔接性是语篇分析方法用于翻译的最重要手段(Newmark P, 1982) [4]。语篇的翻译过程也可以说是识别和重构语篇中的衔接性和连贯性的过程(王东风,1998) [5]。因此,从语篇的衔接与连贯视角出发,对机器译文提出相应的译后编辑策略是亟待研究的问题。

本研究将基于衔接理论中照应的相关理论框架为基础,对比分析机器译文和人工译文中出现的照应衔接手段,提出相应的译后编辑策略,以期提高机器译文质量。

2. 文献综述

语篇衔接理论的研究始于20世纪60年代。Halliday和Hasan (以下简称为H&H)在《Cohesion in English》(1976) [6]中指出语篇并非是单纯的句子堆积,而是词语、短语和句子按照一定的逻辑语义关系有序排列与组合。正是这种组合与排列的基本法则构成了衔接理论的核心。H&H将衔接理论分为词汇衔接手段(lexical cohesion)和语法衔接手段(grammatical cohesion)。词汇衔接手段包括重复(reiteration)和搭配(collocation)。语法衔接手段包括照应(reference)、替代(substitution)、省略(ellipsis)和连接(conjunction)。

其中,照应是所有衔接关系中最显著的手段之一。根据照应词的指示对象是否存在于语篇的上下文内,分为“外指(exophora)”和“内指(endophora)”。“内指”根据照应词和指示对象在语篇中的位置关系,又分为两种。指示对象先于照应词出现的情况称为“回指”,照应词先于指示对象出现的情况称为“下指”。照应通过在文本中使用人称照应(personal reference)、指示照应(demonstrative reference)和比较照应(comparative reference)指示前文已经提及的或后文将要提及的内容,从而建立文本中各部分的联系,保持文本的衔接性和连贯性。照应的使用有助于避免重复,有利于读者和听众理解信息的关联性。

语篇衔接理论自诞生以来一直饱受众多学者的重视,以此理论为基础进行的各种研究屡见不鲜。从计算语言的角度来看,篇章的衔接性仅仅是指句子和句子等两项关系之间是否连接,而两项以怎样的关系结合并不在考虑范围之内(工藤育男,1990) [7]。郭怡(2023) [8]对比分析了张培基散文的英译版及其机器译文,指出机器译文中照应的衔接手段使用不足,代用和省略的使用均未出现,衔接手段形式单一等问题。对于机器翻译系统来说,只有准确翻译出原文中衔接性这一有形网络,才能实现译文语篇的连贯性(刘海涛,1992) [9]。而机器翻译系统主要以词和句子为基本翻译单位,以大规模语料库为背景的翻译仅仅考虑了词句之间的简单连接,无法顾及篇章中的深层语义,由此生成的译文往往无法传递原文中的连贯性和连贯性手段,生成高质量的译文。因此,当现今机器翻译系统无法解决篇章层面的翻译问题时,译者应选择相应的译后编辑策略,以构建译文的衔接性,从而实现篇章的连贯。

本研究依据语篇衔接理论为基础,以人民网日文版“中国語教室”板块刊登的新闻为研究对象,对比分析机器译文和人工译文出现的照应衔接手段的异同,探讨机器译文的后编辑策略。

3. 研究对象以及研究方法

本研究选取人民网日文版“中国語教室”板块于2021年7月1日至2023年6月30日期间发布的296条新闻为研究对象。将新闻的中文版作为原文(以下简称ST),将其对译的日语新闻作为参考译文(以下简称TT),并使用百度翻译和谷歌翻译生成百度机器译文(以下简称BT)和谷歌机器译文(以下简称GT)。

本文将基于已确立的研究对象构建平行语料库,并使用AntConc4.2.4对TT、BT和GT中的照应衔接手段进行统计分析。其次为确保分析结果的科学性与可靠性,本文将对统计数据进行卡方检验,以比较各数据间的显著差异及各文本中照应衔接手段的使用情况。最后,基于检验结果总结机器译文和人工译文的差异,提出译后编辑策略。

4. 结果与分析

本研究中机器译文和人工译文中出现的照应衔接手段的量化统计结果如下表1所示。

Table 1. Frequency statistics and chi-square test results of reference cohesive devices in each translation

1. 各译文中照应衔接手段出现的频数统计和卡方检验结果

人称照应

指示照应

比较照应

总计

TT

40

365

422

827

BT

166

286

403

855

GT

155

360

430

945

TT-BT

χ2

88.7145

3.9751

0.3475

6.1673

P值

0.000***

0.046*

0.556

0.013*

LL值

+

TT-GT

χ²

70.8960

0.025

0.4204

11.301

P值

0.000***

0.874

0.517

0.001***

LL值

BT-GT

χ2

1.3609

4.5645

0.0024

0.6777

P值

0.243

0.033*

0.961

0.410

LL值

+

注:*:P < 0.05;**:P < 0.01;***:P < 0.001,df = 1。

表1的卡方检验结果显示,TT、BT和GT的照应使用频率分别为827次、855次和945次。显著性差异检验结果显示,TT与BT之间存在显著差异(χ2 = 6.1673, P < 0.05),TT与GT之间亦存在显著差异(χ2 = 11.301, P < 0.001),而BT与GT之间无统计上的显著差异(χ2 = 0.6777, P > 0.05)。从使用频率来看,GT中的照应使用频率最高,其次是BT,TT最少。以下将从人称照应、指示照应和比较照应三个类别进行逐一分析,并举例说明。

4.1. 人称照应

人称照应指使用人称代词与语篇上下文中的名词之间建立语义联系,从而构建语篇的衔接性。日语中的人称代词包括“私、僕、俺”等第一人称、“あなた、君、お前”等第二人称和“彼女、彼”等第三人称以及它们的复数形式。本研究中,各译文中所见人称照应的使用情况及卡方检验结果见下表2

Table 2. Frequency statistics and chi-square test results of personal reference in each translation

2. 各译文中人称照应出现的频数统计和卡方检验结果

第一人称

第二人称

第三人称

合计

TT

26

6

8

40

BT

114

15

37

166

GT

103

10

42

155

TT-BT

χ2

63.4152

4.6889

18.6954

88.7145

P值

0.000***

0.030*

0.000***

0.000***

LL值

TT-GT

χ2

47.9983

1.1049

21.1050

70.8960

P值

0.000***

0.293

0.000***

0.000***

LL值

BT-GT

χ2

1.4425

1.3325

0.0839

1.3609

P值

0.230

0.248

0.772

0.243

LL值

+

+

+

注:*:P < 0.05;**:P < 0.01;***:P < 0.001,df = 1。

表2所示,人称照应在TT、BT、GT中的出现次数分别为40次、166次和155次。卡方检验结果表明,TT与BT、GT之间在使用人称词上存在显著差异(χ2 = 88.7145, P < 0.001; χ2 = 70.8960, P < 0.001),TT中的使用频率显著低于BT和GT,而BT与GT之间无显著差异,但GT的使用频率略高于BT。

具体来看,第一人称代词的使用频率在TT、BT、GT中分别为26次、114次和103次;第二人称代词的使用频率分别为6次、15次和10次;第三人称代词的使用频率分别为8次、37次和42次。卡方检验结果表明,TT与BT在第一和第三人称代词的使用上存在非常显著的差异(χ2 = 63.4152, P < 0.001; χ2 = 18.6954, P < 0.001),在第二人称代词的使用上也有明显差异(χ2 = 18.6954, P < 0.001; χ2 = 21.1050, P < 0.001),TT在各人称代词的使用频率上均低于BT。

其次,TT与GT在第一和第三人称代词的使用上存在显著差异(χ2 = 47.9983, P < 0.001; χ2 = 21.1050, P < 0.001),但在第二人称代词的使用上无显著差异,TT的使用频率低于GT。此外,BT与GT之间在使用人称词上无显著差异(χ2 = 1.4425, P > 0.05; χ2 = 1.3325, P > 0.05; χ2 = 0.0839, P > 0.05),BT在第一和第二人称代词的使用频率上略高于GT,但在第三人称代词的使用上略低于GT。以上结果可以表明,机器译文在第一和第三人称代词的使用上,存在明显的冗余现象。

(1) ST:中共中央、国务院8月8日向第32届奥运会中国体育代表团致贺电。贺电内容如下:……你们克服……圆满完成参赛任务。……,祖国和人民热切关注着你们在赛场上的良好表现……。你们牢记党和人民嘱托,……。你们的出色表现……。祖国和人民期待着你们平安顺利归来!

TT:中国共産党中央委員会(中共中央)と国務院は8日、第32回オリンピック競技大会中国選手団に祝電を送った。内容は以下の通り。……皆さんは、……厳しい試練を克服し、……、競技出場という任務を見事に果たした。……、祖国と国民は皆さんの競技場での優れたパフォーマンスを熱心に注視し、……。皆さんは党と国民から託されたものを胸に刻み、……。皆さんの見事なパフォーマンスは、……。祖国と国民は皆さんが無事に、順調に帰ってくるのを心待ちにしている。

BT:中国共産党中央、国務院は8月8日、第32回オリンピック中国体育代表団に祝電を送った。祝電の内容は以下の通りである:……あなたたちは……厳しい挑戦を克服して、……円満に試合に参加する任務を完成します。……、祖国と人民はあなたたちの競技場での良好な演技に熱い関心を持って、……。あなたたちは党と人民の呼びかけをしっかりと覚えて、……。あなたたちの優れた表現は……。祖国と人民はあなたたちが無事に帰ってくることを期待しています!

GT:中国共産党中央委員会と国務院は8月8日、第32回オリンピック競技大会の中国スポーツ代表団に祝賀メッセージを送った。祝辞の内容は、……皆さんは、……克服し、……、大会の課題を無事に完了しました。……、祖国と国民は皆さんのフィールドでの素晴らしいパフォーマンスに注目しており、……。党と人民の委託を念頭に置き、……。あなたの傑出した業績は、……。祖国と国民はあなたの安全かつスムーズな帰還を楽しみにしています!

例(1)是中共中央国务院向参加奥运会的中国代表团发出的贺电,新闻的主体部分即是贺电的内容。贺电全文多次出现“你们”,指示中国代表团全体人员,属于第二人称复数形式。BT把“你们”全数翻译成“あなたたち”,GT主要翻译成“皆さん”和“あなた”。首先,代表团的全体人员是复数,GT中的第二人称单数“你”是属于误译现象。其次,日语中指示多个个体时,使用“人称 + たち”虽然也能表示复数情况,但是从一开始就直接使用表示群体的名词则显得更为自然(田窪行則,1997) [10]。因此,TT从一开始就用“大家”来表示选手团,更符合日语的使用习惯。

4.2. 指示照应

指示照应是指以“コソアド”开头的一系列指示词,包括指示事物的“これ、それ、それ、どれ”、指示场所的“ここ、そこ、そこ、どこ”、指示方位的“ここ、そこ、そち、どちら”等。新闻中的“ア系統”和“ド系統”经常用于人物的思考、独白、疑问,出现文内照应的情况较少(单艾婷,2017) [11],所以排除在本文的统计与分析对象之外。本研究各个译文中出现的指示照应使用频数与卡方检验结果如下表3所示。

Table 3. Frequency statistics and chi-square test results of demonstrative reference in each translation

3. 各译文中指示照应出现的频数统计和卡方检验结果

コ系統

ソ系統

合计

TT

236

129

365

BT

201

85

286

GT

261

99

360

TT-BT

χ2

0.5890

5.6452

3.9751

P值

0.443

0.018*

0.046*

LL值

+

+

+

TT-GT

χ2

1.9834

3.2251

0.025

P值

0.159

0.073

0.874

LL值

+

BT-GT

χ2

4.5604

0.3793

4.5645

P值

0.033*

0.538

0.033*

LL值

注:*:P < 0.05;**:P < 0.01;***:P < 0.001,df = 1。

表3所示,TT、BT、GT分别使用了365次、286次和360次指示词。总体来看,TT与BT之间以及BT与GT之间存在显著性差异(χ2 = 3.9751, P < 0.05; χ2 = 4.5645, P < 0.05),而TT与GT之间则无显著性差异(χ2 = 0.025, P > 0.05)。三者中,指示词在GT中使用频率最高,在BT中使用频率最低。

具体而言,在“コ系統”指示词的使用上,TT与BT、TT与GT之间无显著差异(χ2 = 0.5890, P > 0.05; χ2 = 1.9834, P > 0.05),但BT与GT之间存在显著差异(χ2 = 4.5604, P < 0.05),其中GT的使用频率最高,其次为TT和BT。另一方面,在“ソ系統”指示词的使用上,TT与BT之间存在微小差异(χ2 = 5.6452, P < 0.05),而TT与GT、BT与GT之间则无显著差异。TT的使用频率最高,其次为GT和BT。

(2) ST:“这桌‘满汉全席’一共有108道‘菜’,……”7月6日,家住四川省绵阳江油市的奇石爱好者刘晓东说。刘晓东介绍,……。

TT:四川省綿陽市管轄下の江油市在住の珍しい石のコレクターである劉暁東さんは6日「この満漢全席の料理は全部で108種類。……」と語った。劉さんは……という。

BT:「このテーブルの『満漢全席』には全部で108種類の『料理』があり、……」7月6日、四川省綿陽江油市に住む奇石愛好家の劉暁東さんは言った。劉暁東氏によると、……。

GT:「この『満漢漢宴』には合計108品の『料理』が含まれています。……」四川省綿陽市江油市在住の石材愛好家の劉暁東さんは6日、こう語った。劉暁東さんは、……と語った。

例(2)为刘晓东话语的直接引用和间接引用,ST中“刘晓东说”的内容在前文,“刘晓东介绍”的内容在后文。TT和BT使用“語る”“……は……という”“言う”“……によると”等不同表现,明确区分了前句和后句的内容。但是,GT在翻译第一个小句时增加了指示词“こう”。在表发言、思考的句子中,同一主体进行下一次连续行动的情况下,应使用“ソ系統”,“コ系統”不常用于同一主体的连续行动(张子如,2014) [12]。由于ST两个句子属于刘晓东的继起动作,因此GT中“こう語った”的翻译不恰当。

4.3. 比较照应

比较词的照应可分为一般比较和特定比较。一般比较是指通过“同じ”“同等”“同様”等形容词、形容动词或副词表现两个对象的相似性或差异性。特定比较则是对对象数量或质量的比较,英语中通常通过形容词和副词的比较级来表达这一关系。然而,由于汉语和日语中缺乏比较级,汉语和日语往往通过使用“より”“もっと”“さらに”等附加语,或“~と比べ”“~ほうが”“~と比較する”等语法结构进行照应。

如上表1所示,在比较照应的使用上,TT与BT、TT与GT、BT与GT之间均无显著性差异(χ2 = 0.3475, P > 0.05; χ2 = 0.4204, P > 0.05; χ2 = 0.0024, P > 0.05)。其中,GT的使用频率最高,其次是BT和TT。

(3) ST:研究小组在陶罐中发现了微生物(淀粉颗粒和植物岩)以及霉菌和酵母的残留物,这些残留物与啤酒发酵的残留物一致,除非含有酒精,否则不会在土壤或其他手工制品中自然发现。

TT:研究チームは、陶製の壺の中から、微生物(でんぷん粒子と植物岩)およびカビ・酵母の残留物を発見した。これらの残留物は、ビールが発酵する際に出る残留物と一致しており、アルコール分が含まれていない限り、土壌やその他手作りによる容器などにおいては自然に発見されることはないという。

BT:研究チームは土瓶の中で微生物(デンプン粒子と植物岩)とカビと酵母の残留物を発見した。これらの残留物はビール発酵の残留物と一致しており、アルコールを含まない限り、土壌や他の手作り品では自然に発見されない。

GT:研究チームは土鍋から微生物の残骸(でんぷん粒や植物の石)、カビや酵母を発見したが、これはアルコールが存在しない限り土壌やその他の人工物では自然には発生しないビール発酵の痕跡である残留物であることを発見した。

在例(3)中的比较词“一致”是指陶罐中的微生物和啤酒发酵后的残留物相同。TT和BT翻译为“と一致しており”,准确表达出了二者残留物之间的相似性关系,不属于对陶罐微生物的属性断定。但是,GT使用了“である”的断定表达,错误地传达原文中“一致”所表达的相似性关系,易使读者误以为陶罐中的微生物就是啤酒发酵后的微生物。由此,GT对原文比较照应“一致”的翻译方式欠妥当。

5. 译后编辑策略的启示

本项研究以新闻类语篇类型为基础,采用衔接理论着重研究了人工译文和不同的机器译文在照应衔接手段的使用区别。从以上结果和分析中可以得出以下几点启示:

1) 机器译文在处理人称照应时,较之人工译文存在明显的人称词使用冗余现象。由于日语的语言特点是不常使用人称词,过度使用会导致译文的自然性和流畅性受到影响。因此,在译后编辑过程中,应采取多样化的衔接手段,如同词重复、替代、省略等,以减少不必要的人称词使用,提升译文的流畅性。此外,机器译文中常见的人称单复数翻译错误也需特别关注,译者应根据源文本的语境与含义对这些错误进行修正,确保译文准确传达原文信息。

2) 指示照应方面,机器译文和人工译文的使用频率上差异不大。然而,机器翻译系统在处理原文的指示词时,往往无法根据上下文准确识别指示内容。通常,机器翻译系统将中文中的“这”直接翻译为“コ系統”指示词,将“那”直接翻译为“ソ系統”指示词,从而导致BT和GT中“コ系”和“ソ系”指示词混用的现象较为普遍。由于指示照应在语义理解中占据重要地位,而机器翻译在此方面仍存在较大的准确性问题,因此译者在译后编辑时,应根据上下文语义,对漏译的指示内容进行增译,明确模糊指示关系,并修正错误的指示词,使译文更加连贯和精准。

3) 比较照应上,新闻类语篇中的比较词通常以直接且明确的形式出现,对于机器翻译而言,这类词汇的翻译较为简单,错误率相对较低。然而,当比较的双方涉及长定语修饰时,机器译文中常出现误译比较关系或混淆比较对象的情况。为提升译文的准确性,译者在译后编辑时可采取调整原文语序,将长句拆分为多个短句的措施,从而确保比较照应的准确传达。

4) 不同的机器翻译系统在处理语篇衔接手段时,表现出各自的特性和不足本研究中,谷歌和百度翻译系统在整体衔接手段使用上较为一致,但在指示照应的使用频率上存在显著差异。谷歌翻译系统倾向于频繁使用指示照应,而百度翻译系统则较少使用指示照应。因此,译后编辑时需要了解所用机器翻译系统在语篇衔接方面的基本特征和常见错误类型,并结合具体文本特点,有针对性地采取译后编辑策略。

6. 结语

本研究基于语篇衔接理论,对人民网日文版“中国語教室”板块中的新闻文本进行分析,重点对比了机器译文与人工译文在照应衔接手段上的异同,并提出了相应的译后编辑策略。研究发现,机器译文在处理人称照应时,尤其是第一人称和第三人称的使用频率远高于人工译文,表现出明显的冗余现象。在指示照应方面,不同的机器翻译系统展现了各自的个性化特征。在比较照应上,机器译文与人工译文的使用倾向无显著差异。基于此,译者在译后编辑过程中,应充分了解所用机器翻译系统的常见错误类型和特征,通过采用多样化的衔接手段,以及适当的增译、减译、拆译等措施,提升机器译文的连贯性和准确性,从而提高译文质量。

参考文献

[1] 邓涵铖, 熊德意. 机器翻译译文质量估计综述[J]. 中文信息学报, 2022, 36(11): 20-37.
[2] 范武邱, 王昱. 译者与文本的灵性互动——机器翻译尚待突破的瓶颈[J]. 外语教学理论与实践, 2022(3): 128-137.
[3] 崔启亮, 李闻. 译后编辑错误类型研究——基于科技文本英汉机器翻译[J]. 中国科技翻译, 2015, 28(4): 19-22.
[4] Newmark, P. (1982) Approaches to Translation. Pergamon Press Ltd., 69.
[5] 王东风. 语篇连贯与翻译初探[J]. 外语与外语教学, 1998(6): 38-41.
[6] Halliday, M.A.K. and Hasan, R. (1976) Cohesion in English. Longman.
[7] 工藤育男. 文と文の結束性を捕らえるための知識, TR-I-0134 [R]. 自動翻訳電話研究所: 情報処理学会自然言語研究会資科, 1990.
[8] 郭怡. 机器散文英译的语篇衔接[J]. 海外英语, 2023(12): 70-72.
[9] 刘海涛. 机器翻译中的语篇连贯问题[J]. 情报科学, 1992(3): 28-34.
[10] 田窪行則. 日本語の人称表現[M]. 東京: くろしお出版, 1997: 12-44.
[11] 艾婷. 新聞社説における結束性の日中対照研究―指示語を中心に―[J]. 東アジア日本語·日本文化研究, 2017(22): 23-42.
[12] 張子如. 小説における指示副詞「コウ」「ソウ」の後続表現: 発話動詞·思考動詞に係る場合[J]. 表現研究/表現学会編, 2014(100): 70-79.