机器翻译字幕质量评估研究——以“ArcTime”字幕汉译为例

doi:10.12677/AIRR.2021.102020

期刊菜单

机器翻译字幕质量评估研究——以“ArcTime”字幕汉译为例
Assessing Machine Translation Quality in Interlingual Subtitling—A Case Study of ArcTime

DOI: 10.12677/AIRR.2021.102020, PDF, HTML, XML, 科研立项经费支持
作者: 吴双姣：浙江越秀外国语学院，浙江绍兴
关键词: 机器翻译；字幕翻译；FAR模型；质量评估；Machine Translation (MT)； Subtitling； The FAR Model； Quality Assessment

摘要: AI时代迅猛发展的翻译技术对文本内容的翻译产生了重大影响。然而作为翻译技术中最新的发展之一，机器翻译技术(MT)更常应用于文本翻译之中，而在视听翻译中的应用仍处于初期。本文选取电影《疯狂动物城》机器翻译英译中字幕文本为研究文本，结合彼得森提出的FAR模型采用量化统计与质性分析相结合的方法，评估了ArcTime自动生成的英译中字幕文本。以探索机器翻译字幕质量评估以及制约机器翻译质量的影响因素，总结机器翻译质量以及未来机器翻译发展侧重点。本次机器翻译字幕质量评估研究表明，机器翻译(MT)在功能对等(functional equivalence)方面，尤其是语义选择与字幕切分等方面错误较多，从而导致机器翻译整体上质量偏低。此外，扣分仅次于语义错误的是接受程度(acceptability)方面，相对而言，机器翻译字幕在阅读体验(readability)方面整体上出现的错误相对较少。机器翻译字幕整体质量偏低的原因在于，一方面在于机器翻译无法获取源语言所处的视觉语境，另一方面是影视作品语言整体上口语体居多，而机器翻译其训练语料主要源于书面语，因此以上因素很大程度上制约了机器翻译字幕的质量。

Abstract: Since AI enabled translation technology provides basic and overall support for subtitle translation, it’s crucial to enhance subtitle translation technology research. However, machine translation (MT), as one of the most innovative technologies to be deployed in the field of translation, is currently more often used in (non-AV) text translation than in Audiovisual Translation (AVT), where its ap-plication is rare. In this article, the author intends to assess the machine translation quality pro-duced by ArcTime in translating the American movie entitled Zootopia, and the problems that would have an impact on the quality of the machine translation. For this purpose, the data was col-lected from the movie and qualitatively analyzed using Pedersen’s (2017) FAR model, which is a quality assessment model. The results of the study showed that most subtitles are of a relatively good quality in terms of readability, and the less errors or problems were found in terms of accept-ability. However, most of the errors are found in terms of functional equivalence, particularly in terms of semantic errors. In addition, the major problems that impact the machine translation of subtitles are lack of visual context, in which the source text is embedded and to which the MT has no access, and the generally informal language used in the audiovisual works.

文章引用：吴双姣. 机器翻译字幕质量评估研究——以“ArcTime”字幕汉译为例[J]. 人工智能与机器人研究, 2021, 10(2): 206-213. https://doi.org/10.12677/AIRR.2021.102020

1. 引言

新时代，中国以更加开放的姿态融入全球化进程，在《关于加快发展对外文化贸易的意见》等一系列国家政策的推动下，影视作品作为中国文化的载体，“走出去”的步伐显著加快。字幕翻译成为对世界“讲好中国故事”和让世界“听清中国声音”的重要途径。随着影视文化传播国际化进程的加速，影视翻译成为新兴的高附加值领域 [1]。

《2018年中国语言服务行业发展报告》指出在2016年语言服务类型中字幕和配音业务占比仅为5.9%，在2018年增至29%。然而，有限的译者产能无法满足海量的影视翻译的需求 [1]。

AI时代迅猛发展的翻译技术对文本内容的翻译产生了重大影响。翻译技术从计算机辅助翻译(computer-aided translation, CAT)到机器翻译(machine translation, MT)在一定程度上提高了译者翻译的效率 [2]。在技术翻译中，翻译记忆系统(TMs)和综合术语支持在保证语言一致性和简化翻译过程方面已经不可或缺。然而机器翻译技术(MT)作为翻译技术中最新的发展之一，更常应用于文本翻译之中，而在视听翻译中的应用仍处于初期 [3]。

本文聚焦机器翻译英译汉电影字幕文本，结合彼得森提出的FAR模型采用量化统计与质性分析相结合的方法，探索机器翻译质量评估以及制约机器翻译质量的影响因素，总结机器翻译质量以及未来机器翻译发展侧重点，并提出针对性的建议。

2. 机器翻译字幕在国外的发展现状

20世纪90年代，随着互联网与电脑日益普及，计算机辅助翻译(CAT)工具便应运而生，而CAT工具的发明正是翻译行业中迎来的首次重大技术变革。翻译记忆库(translation memory, TM)是CAT工具的核心，翻译记忆库存储翻译人员的翻译文本与原始文本，以供再次出现类似的表达时进行重新编排使用，极大提高了翻译效率 [2]。

机器翻译是第二次技术变革，在非限定领域机器翻译中，效果最佳的方式为统计机器翻译(statistical machine translation, SMT)。其通过分析大量的平行语料，构建统计翻译模型，进而使用此模型进行翻译。而谷歌翻译与微软必应翻译是其中发展较为完备的两个平台 [2]。

在数据驱动的统计机器翻译占主流的时代，较多学者探讨机器翻译在字幕翻译中的应用，如 [3] [4] [5] [6] [7] [8]，其中SUMAT (subtitling for Machine Translation)项目 [6] 为了探索MT在字幕中的运用，九个公司与机构合作开展了一项名为“Subtitling for Machine Translation (SUMAT)”的项目。该为期三年的项目由欧盟资助，由四家字幕公司和五家技术共同合作完成，旨在为九种语言的字幕机器翻译(基于七个双向语言对)构建基于云的服务，随后研究人员通过一年的时间来评估此类MT的产出。经过字幕人员的评估，56.79%的字幕质量等级为5与6，说明它们基本达到可以使用的程度，仅需后续少量的编辑工作。同时借助MT，字幕员的平均效率也提高了39.90%。实验还发现在处理语法不规范的字幕时，机器翻译的效果不佳。通过不同语种的对比分析，研究发现机器翻译的质量与语言种类也有一定的相关性 [2]。

2019年胡克等人同样以慕课为素材，对MT字幕进行了受众接受调查，发现相比原版MT字幕，编辑后的MT字幕受众接受度更高。同时人工翻译字幕的优势不明显，甚至有些评分不及MT字幕 [8]。由此看来，机器翻译在字幕领域的应用研究在国外得以较为充分的讨论。

3. 机器翻译字幕在国内的现状

相比国外，中国机器字幕翻译的学术研究却有所不足。截止2021年4月，以“机器翻译”与“字幕”为主题词进行检索，知网返回文献数量为25篇(如图1所示)。其中王华树和李莹 [1] 对字幕翻译技术的研究现状进行了梳理，分析其存在的主要问题，提出未来的发展趋势，从而促进接国家文化传播。余邡棋 [9] 通过选取博芬在线视频翻译与配音平台和网易见外作为实验平台，通过对比人工字幕文本与平台机器翻译输出，对机器翻译字幕进行了定性与定量分析，总结出机器翻译字幕处理和质检时，需要注意“屏幕符号信息”和“实词语义”两个方面的问题。

Figure 1. Search results from CNKI

图1. 知网检索结果

因此本研究聚焦机器翻译英译汉电影字幕文本，结合彼得森提出的FAR模型采用量化统计与质性分析相结合的方法，探索评估机器翻译质量，并寻找制约机器翻译质量的影响因素，进而总结未来机器翻译发展侧重点，并提出针对性的建议，以期为视频翻译平台的发展提供一定的参考。

4. 研究方法

本研究选取电影《疯狂动物城》的字幕为研究文本，该电影于2016年上映，豆瓣评分9.2分。电影讲述在这个全由动物构成的大都会里，一位兔子警官朱迪需要和一只叫尼克的狐狸通力合作，揭开颠覆动物世界的巨大危机。选取该电影的原因在于该影片所面向儿童与成年人的动画片，因此该影片语言难度适中，不会对机器翻译造成额外的负担。本研究结合彼德森 [10] 提出的FAR质量评估模型，对《疯狂动物城》英文字幕汉译文本进行质量评估分析。

(一) FAR模型

彼得森 [10] 提出了评估语际字幕质量的模型——“FAR模型”(“The FAR Model”)。该模型一共评估三个维度的得分：其一是功能对等(functional equivalence)，即源语信息或意义在译文字幕中的呈现程度；其二是接受程度(acceptability)，即字幕对目的语语言规范的遵守程度；其三是阅读体验(readability)，即观众对字幕的理解费力程度。

彼得森提出的“FAR模型”与“NER模型”有一定的相似之处，后者由西班牙学者罗梅罗–弗雷斯科(Pablo Romero-Fresco)等人提出用于评估语内实时字幕。两者均以错误分析为基础，即研究人员统计分析字幕中出现的错误，扣除相应的分数，从而计算字幕的最终得分 [2]。

该模型的功能对等具体划分为两种错误类型：语义错误(semantic error)与语境错误(stylistic error)；接受程度包括语法错误(grammar error)、拼写错误(spelling error)、惯用语错误(idiomaticity error)；阅读体验细分为三个标准：切分与同步(segmentation and spotting)、标点与字体(punctuation and graphics)、阅读速度与字幕字数(reading speed and line length) (Pederson, “The FAR Model”) [2]。该模型评价维度的分类尽可能确保评价的客观性，且尽量使其不受评价人员对机器翻译字幕的主观偏见，同时在一定程度上真实地反应机器翻译字幕与人工参考字幕的质量。

由于“FAR模型”中的重要评判标准是观众在观看视频中产生的“字幕假象”(contract of illusion)，即把字幕当作是视频中真实发生的对话，因此语义错误对于字幕质量的影响最大，相应扣分最多，分为2分、1分、0.5分三个等级。其他类型的错误根据严重程度分为1分、0.5分、0.25分，与“NER模型”相同。由于画面与阅读速度的限制，字幕通常会出现语义的浓缩，因此在“FAR模型”中基本单位为一条字幕 [2]。

彼德森为验证其提出的质量评价模型，选取了10部英文电影的16个版本的瑞典字幕进行分析，并对以上版本的字幕与官方字幕组字幕进行对比。彼得森的研究结果表明该模版可以根据不同语言地区的字幕标准进行相应的调整，且该模型的扣分制使其评价尽可能确保客观性。但是由于该系统是扣分制，因此也导致该模型无法筛选出质量优异的译文。

(二) 机器翻译字幕错误分析

1、功能对等

FAR模型中的语义错误评分标准根据错误程度，从轻微错误、中等错误以及严重错误分别扣除0.5分、1分以及2分，因为语际字幕翻译中语义错误影响观众对字幕内容的理解，甚至造成观众对内容的误解。根据本研究所选取电影的字幕进行分析，出现115处语义错误，扣分总计110.5分。其中严重的语义错误出现20处(如表1所示)，例如“But over time, we evolved, and moved beyond or primitive savage ways.”，电影台词的意思是“将这原始野蛮的生活方式抛在身后，现在食肉和食草动物和谐共处。”但是机器翻译将其翻译为“……并原始野蛮的方式前进。”该机器翻译译文则并未将原文意义传递，影响观众对情节的理解。再如“Cause I'm a fox, and like you said in your dumb little stage play, us predators used to eat prey.”机器翻译将“us predators”翻译为“美国的食肉动物”，而电影情节所表达的内容为“……以前食肉动物吃食草动物”。

Table 1. Serious semantic errors in MT

表1. 机器字幕翻译严重语义错误

中等的语义错误并不严重影响观众对字幕的理解，但是中等语义错误存在对重要信息的缺失。本研究所选取的影片机器翻译字幕中共出现中等语义错误41处(如表2所示)。例如：“And predators had an uncontrollable...biological urge to maim, and maul, and...”影片情节所表达的意思为“而食肉动物无法遏制的本能让他们捕猎、残杀，还有流血……”，而机器翻译处理缺失部分信息“无法遏制的本能”，但是整体而言不影响观众对影片情节的理解。

Table 2. Standard semantic errors in MT

表2. 机器字幕翻译中等语义错误

轻微的语义错误主要体现在用词不当，但不影响观众对影片情节的理解。本文所选取的影片中，出现轻微语义错误53处(如表3所示)。例如“…Where our ancestors first joined together in peace.”，此处，机器翻译将其处理为“……那是我们祖先第一次和平结合的地方。”虽然此处“和平结合”表述不当，但是不影响观众对此处字幕的理解。

Table 3. Minor semantic errors in MT

表3. 机器字幕翻译轻微语义错误

此外，在机器翻译过程中，并未出现语境错误之处。其原因可能在于本研究所选取的研究素材电影，因此其台词对白特点为生活化且贴近日常用语，因此在英译汉机器翻译处理过程中，不存在如其他外语易出现的错误。

2、接受程度

机器翻译产出的译文在接受程度方面效果较好，其中由于汉语本身属于块状的语言，且汉语形式松散，因此机器翻译译文中并未发现语法错误与拼写错误。但是出现了多处惯用语错误，其中严重错误2处(如表4所示)，中等错误28处(如表5所示)，轻微错误5处(如表6所示)。例如，“…he cheats like there's no tomorrow.”机器翻译处理为“……他作弊就像没有明天一样”，该译文表述不自然，而应该表述为“他那作弊真是没底线”。另外，如“Anyone can be anything.”该台词机器翻译的译文为“任何人都可以成为任何事。”，虽然该表述整体上并不影响观众对语境意义的理解，但是该表述不符合汉语表达习惯，且翻译腔较为明显。因此，该译文应当调整为“谁都能成就无限可能”。再如“maybe...Maybe some of the evidence survived.”机器翻译将“survive”处理为“……也许有些证据还活着”，而该译文与前文中“证据”的搭配违背中文的惯用表达，因而此处该词的翻译应当处理为“……也许还有证据留下来”。

Table 4. Serious idiomaticity errors in MT

表4. 机器字幕翻译惯用语严重错误

Table 5. Standard idiomaticity errors in MT

表5. 机器字幕翻译惯用语中等错误

Table 6. Minor idiomaticity errors in MT

表6. 机器字幕翻译惯用语轻微错误

3、阅读体验

本研究机器翻译译文在字幕切分出现多处错误，从而影响字幕在语义与句法方面的正确性，以及造成部分字幕字数超出相应最大字幕字数规定，同时对观众的阅读速度产生障碍。例如“…proud day for as long as I don't want to make room while you're OK.”该字幕切分不合理，句子主语成分与该字幕分割，会造成语义理解障碍。另外，机器翻译听译过程也出现了句子过长现象，例如“but watch out because I'm a fox and like you said in your dumb little stage play as predators used to eat prey and that killer instinct's.”以及“I want you to remember this moment the next time you think you will ever be anything more than just a stupid carrot.”以上两条字幕在字数方面已经超过英文字幕每行字数最多39个字符的规定，因此应当对该字幕进行切分。

结合“FAR”模型进行以上错误分析之后，可以看出扣分占比最大的是语义错误，其原因在于一方面英语中存在一词多义的现象，另一方面，由于机器翻译语音识别与语义切分出现偏差，从而导致机器翻译在语义方面选词不当，进而出现上述语义错误。其中，扣分占比仅次于语义错误的是接受程度方面，除了该部分出现的惯用语错误，该部分机器翻译字幕整体上语言自然流畅。与此同时，机器翻译技术在阅读体验方面的字幕切分以及字幕字数方面出现较多错误，其原因在于英语中出现连读、弱读、口音、同音词等现象会对机器翻译技术造成识别偏差，从而导致相应的错误。

5. 机器翻译字幕质量影响因素

视听翻译为机器翻译提出诸多挑战，由于机器翻译系统大部分基于大量书面文本，此类文本语法正确、标点符号使用正确且大小写书写正确。此外，机器翻译最常应用于技术类文本的翻译，因为此类文本词汇与句子结构具备高度可预测性。

相反，字幕翻译其本质是口语对话以文本的形式呈现，因此这对于机器翻译而言存在难度。因为如果机器翻译系统基于大量的书面文本，那么口语文本的特点并未在其机器翻译训练语料中得以充分体现，因而系统中并不存在与之相对应的准确翻译的相关例子。因此，机器翻译在字幕翻译过程中，容易出现上述错误。其主要影响因素表现在以下几方面：

(一) 缺少视觉语境

优秀的字幕翻译译者需要充分了解源语文本所处的视觉语境，而机器翻译无法获取其具体的视觉语境。例如在本研究字幕文本中“Run, run.”的处理上，机器翻译将其译为“运行，运行。”上述例子中，上一句台词可以为其语境提供线索，从语境中可以理解此处“run”的意思是“快跑”，但是机器翻译技术在翻译过程中结合句子之间的语境方面仍在起步阶段。

(二) 口语体

众所周知 [11] 口语对话与书面文本存在差异。例如，口语对话中更容易出现语法并不完整的表述，因其更多依赖具体的语境。例如，机器方面将本影片字幕“And two?”翻译成“和两个吗？”。因为该台词出现的语境为“兔子警察当时学到的两件事情，在其介绍完其中一件之后。对方询问第二件事情是什么”由于日常对话中，经常出现语法不完整的表达，但是机器翻译系统暂时还未全面地基于口语文本语料进行训练，因此其翻译译文出现错误。

6. 结语

本次机器翻译字幕质量评估研究表明，机器翻译(MT)在语义选择、字幕切分等方面错误较多，从而导致机器翻译整体上质量偏低。该结论与肖维青 [3] 以及余邡棋 [9] 的实验结果所呈现的机器翻译质量评估结果相似，因此机器翻译质量相比人工翻译质量仍有较大差距，从而机器翻译在进行人工译后编辑之前不能够直接进入市场。但是不可否认，机器翻译字幕在语法以及信息完整度方面表现较为严谨，此外，机器翻译自动形成的时间轴准确度较高，因此可以在一定程度上提高人工翻译的效率。

究其原因，机器翻译在语义选择与字幕切分等方面之所以出现错误，一方面在于机器翻译无法获取源语言所处的视觉语境，另一方面是影视作品语言整体上口语体居多，而机器翻译其训练语料主要源于书面语，因此以上因素很大程度上制约了机器翻译字幕的质量。

因此在未来机器字幕翻译技术的发展上，研究人员要特别侧重改善翻译与语义切分的技术，从而提高机器翻译选词的准确度，与机器翻译语义切分的准确度，进而有针对性地提高机器翻译字幕质量；此外，研究人员可以尝试基于口语语料库对机器翻译进行训练，同时各大高校与企业需要培养相应的译后编辑人员，从而与机器翻译技术开展紧密合作以形成全新的字幕翻译模式。

基金项目

本文为2020年度浙江省高等教育学会高等教育改革课题“人工智能时代融合型翻译人才培养模式研究与实践”(项目编号：KT2020136)、2020年浙江越秀外国语学院混合式教学改革项目“混合式教学改革环境下学习者学习动机强化策略研究：以《影视字幕翻译》课程为例”的阶段性成果。

参考文献

参考文献

[1]	王华树, 李莹. 字幕翻译技术研究: 现状、问题及建议[J]. 外语电化教学, 2020(6): 80-81。
[2]	肖维青, 高佳晖. 机器翻译字幕质量评估研究——以‘网易见外’英译中字幕为例[J]. 外国语言与文化, 2020(4): 95-105.
[3]	Burchardt, A., Lommel, A., Bywood, L., Harris, K. and Popović M. (2016) Machine Translation Quality in an Audiovisual Context. Target. International Journal of Translation Studies, 28, No. 2, 206-221. [Google Scholar] [CrossRef]
[4]	Melero, M., Oliver, A. and Badia, T. (2006) Automatic Multilingual Subtitling in the eTITLE Project. Translating and the Computer 28th Conference, November 2006, 5-8.
[5]	Volk, M., Sennrich, R., Hardmeier, C. and Tidström, F. (2010) Machine Translation of TV Subtitles for Large Scale Production. Second Joint EM+/CNGL Workshop, Denver, 4 November 2010, 53-62.
[6]	Bywood, L., Georgakopoulou, P. and Etchegoyhen, T. (2017) Embracing the Threat: Machine Translation as a Solution for Subtitling. Perspectives, 25, No. 3, 492-508. [Google Scholar] [CrossRef]
[7]	Che, X., Luo, S., Yang, H. and Meinel, C. (2017) Automatic Lecture Subtitle Generation and How It Helps. 2017 IEEE 17th International Conference on Advanced Learning Technologies (ICALT), Timisoara, 3-7 July 2017, 34-38. [Google Scholar] [CrossRef]
[8]	Hu, K., O’Brien, S. and Kenny, D. (2020) A Reception Study of Machine Translated Subtitles for MOOCs. Perspectives, 28, No. 4, 521-538. [Google Scholar] [CrossRef]
[9]	余邡棋. 英汉机器翻译字幕质量评估实验报告[D]: [硕士学位论文]. 成都: 西南交通大学, 2019 .
[10]	Pedersen, J. (2017) The FAR Model: Assessing Quality in Interlingual Subtitling. The Journal of Specialised Translation, No. 28, 210-229.
[11]	Rubin, A.D. (1978) A Theoretical Taxonomy of the Differences between Oral and Written Language. Center for the Study of Reading Technical Report 35.

为你推荐

友情链接