1. 引言
Open AI公司于2022年11月推出的生成式预训练转换器ChatGPT (Generative Pre-Training Transformer)一经发布便迅速成为了各领域讨论焦点,其卓越的文本类内容生成能力和上下文情景理解能力标志着信息社会进入了划时代的人机交互期[1]。人工智能技术的发展使得口译研究界开始关注CAT (Computer-Aided Technology)在翻译中的应用[2]。
口译的成败很大程度上取决于译员对除语言知识外的主题知识和百科知识的准备工作[3],但对于经验有限的新手译员来说,译前准备存在难度高、耗时长、效率低、准确度不高等挑战,如何借助人工智能技术提高译前准备效率是译员在信息化时代面临的共同挑战。
2. 研究现状
口译译前准备指译员为了完成某次具体口译任务,在译前与译中学习和积累与会议有关的术语和主题知识,并在其它各方面作好准备的过程,包括术语准备、主题知识准备、了解源语发言人和目的语听众、心理准备、口译用具准备、场地和设备熟悉[3]。其中术语和主题知识为重要内容,译员需熟悉术语和相关信息,准备双语词汇表,并迅速、反复“扫描式”强记[4]。根据调查,新手译员在学校接受的译前准备教学一般注重理论介绍和课堂操作,由教师传授译前准备的重要性、原则、方法、技巧等,结合课堂训练,学生事先查找相关材料,教师与学生共同讨论或直接提供主题和专业知识及专业术语[5]。这与实战存在差异,也是新手译员职业生涯初期的主要挑战。
随着技术发展,研究者开始关注技术进步对术语准备的帮助,介绍术语准备工具、对比术语准备方式、描述术语准备过程、探究术语准备对口译表现的影响[2]。总体看来,术语提取工具不断增多,包括WebBootCaT、InterpretBank、CorpusMode、Word Smith、TTCTermSuite、SyllabsTools、Sketch Engine [6]、TeaBoat [7]、TradosMultiTerm等;研究集中在笔译,多为对比传统工具和新工具的实证研究;但口译员译前准备方式和手段仍非常传统,在实际工作中通篇阅读会议资料,人工标注、手工提取,术语管理使用的媒介多为纸质或word文档。如无会议组织方提供材料,则全凭口译员自行搜集搜索参考材料[8]。
ChatGPT作为基于自然语言处理(Natural Language Processing, NLP)的技术,使用大型语言模型(Large Language Model, LLM),采用“从人类反馈中强化学习(Reinforcement Learning from Human Feedback, RLHF)”的训练方式,通过“大数据 + 大算力 + 算法 = 智能模型”的逻辑[9],对自然语言进行处理,在译前准备上有应用潜力。因此,本研究选取科技文本——贵州轻工职业技术学院先进电池与材料工程研究中心对外接待实战口译材料,对比分析译员与ChatGPT的译前准备差异,以期为相关研究提供参考。
3. 个案研究
科技英语的语言特点是用词准确、语气正式、陈述客观、逻辑性强、专业术语性强[10],理想状态下,口译员应阅读专业技术书籍,对专业知识的了解程度应尽可能接近专业人员[11],但实战中口译员需在极有限的时间内掌握相关知识。因此,本文将对比新手译员与ChatGPT基于同一科技文本的译前准备,探讨将ChatGPT应用于译前准备的可能性。
3.1. 研究参与者
MTI (Master of Translation and Interpreting)专业毕业的硕士研究生(女,26岁,口译学习时长为3.5年),已通过翻译专业资格考试(China Accreditation Test for Translators and Interpreters, CATTI),获得交替传译二级口译、笔译证书,但实战经验较少,为新手译员。
3.2. 术语准备
3.2.1. 新手译员术语准备
新手译员根据来访接待方案、贵州轻工职业技术学院官网,使用互联网进行了译前准备,通过人工标注、手工提取的方式整理了word文档的双语对照术语表。
3.2.2. 使用ChatGPT做术语准备
在口译任务结束之后,研究者将来访接待方案、贵州轻工职业技术学院官网等文本材料输入ChatGPT,要求其进行译前准备,提取并生成术语表。
3.3. 术语评估
3.3.1. 准确性评估
将新手译员和ChatGPT生成的术语表提供给术语专家,就准确性进行评估,结果见表1。译员提取的术语总量、准确术语数量均高于ChatGPT,错译数量也远低于ChatGPT,且多为不规范翻译。而ChatGPT错翻术语主要有以下几类:1) 中国特色表达,如“宣传统战部”、“产教融合”;2) 错误识别,如“沿路道路畅通”、“学院陪同接待人员”等非术语;3) 无法实时搜索,如“匈牙利多瑙新城大学”、“兰纳皇家理工大学”等。
Table 1. Comparison of the well-formedness of extracted terminologies
表1. 术语准确度对比表
术语准备主体 |
总术语数量 |
准确翻译术语数量 |
错误翻译术语 |
无已形成规范的术语 |
新手译员 |
94 |
83 |
4 |
7 |
ChatGPT |
61 |
43 |
16 |
2 |
3.3.2. 完整性评估
本文使用徐然[7]基于Fantinuoli术语评估标注体系改进的分类标准对术语进行分类整理,就完整性进行评估,结果见表2。使用ChatGPT进行术语准备完整性不如人工高,与主题高度相关的术语数量远低于人工提取数量,接近一半的词汇为“一般词语”等非术语。
Table 2. Comparison of the completeness of extracted terminologies
表2. 术语完整度对比表
术语 准备 主体 |
准备 所花 时长 |
专业术语数量及种类 |
相关术语R (和主题 高度相关) |
不相关术语I (和主题不相关) |
可能相关的术语P (介于“I”和“R”之间, 评估者不确定是否和主题相关) |
一般词语G (非术语) |
失当词簇IL (多词术语的 一部分或词串) |
新手译员 |
约10小时 |
68 |
0 |
11 |
13 |
11 |
ChatGPT |
约30秒 |
13 |
0 |
3 |
32 |
11 |
主要原因有两点:一是ChatGPT无法进行参考特定的在线资源或词典进行实时翻译,只能基于大量的预先训练数据开发的语言模型提供翻译,无法在实时交互中直接检索外部信息(见图1)。二是口译员能基于口译任务的背景、参会人员、场地等信息进行准备,发挥主观能动性,例如,因先进电池与材料工程研究中心隶属于机电工程系,口译员在译前准备时会覆盖机电工程系的相关领导头衔、机电工程系官网简介等内容;此外,在与讲者一同等待访问团时译员通过与讲者沟通,又获得了部分接待方案中未提及的术语,例如“电解质”、“理实一体化”等术语,而ChatGPT则无法主动、有针对性地提供这些知识。
Figure 1. The origin of terminologies extracted by ChatGPT
图1. ChatGPT术语来源图示
3.4. 主题知识准备
3.4.1. 完整度
本次口译任务译者译前准备材料共2篇,以此为基础进行译前准备所涉及的主题/百科知识具体见表3,可见ChatGPT提取主题/百科知识的数量远远低于人工提取数量。
Table 3. Comparison of encyclopedia knowledge
表3. 主题/百科知识对比情况表
译前准备材料 |
先进电池与材料工程 研究中心简介脚本 |
兰纳皇家理工大学、 匈牙利多瑙新城大学来访接待工作方案 |
译员自行 收集材料 |
原文词数 |
1386 |
2991 |
/ |
续表
文中主题/百科知识数 |
44 |
31 |
/ |
口译员准备主题/百科知识数 |
41 |
23 |
29 |
ChatGPT准备主题/百科知识数 |
8 |
4 |
/ |
3.4.2. 准确度
本研究对比了口译员与ChatGPT进行主题/百科知识译前准备的时长、知识来源及知识获取方式三个维度的不同,具体见表4。口译员在查找相关知识时主要以官方权威出处为主,如确实无权威出处则询问讲者,仅在完全查不到任何资料的极少数情况下会通过自行理解上下文从而推断相关知识含义。ChatGPT的知识来源主要是大规模语料库、对常见知识的理解、对文本的理解和分析,其显而易见的优势在于准备时长极短,节约时间成本。
Table 4. Differences of encyclopedia knowledge between the novice interpreter and ChatGPT
表4. 主题/百科知识提取差异
主体 |
口译员 |
ChatGPT |
时长 |
每个词汇平均约5~10分钟 |
共计约30秒(即时生成) |
方式 |
互联网(必应、谷歌、百度)检索 |
文本数据的预训练和学习 |
来源 |
1) 企业、行业或地方标准、规范; 2) 官方新闻; 3) 词典; 4) 平行文本; 5) 询问讲者; 6) 根据上下文推测(仅限于查不到任何资料时) |
1) 大规模语料库(百科全书、教科书、新闻文章、 网络内容和其他各种来源); 2) 对常见知识的理解; 3) 对文本的理解和分析。 |
将口译员手动提取且较难理解的新能源汽车行业词汇输入ChatGPT,并输入以下提示语:“1) 请用通俗易懂的语言解释以下两个知识点;2) 请提供以下两个知识点在新能源汽车行业中的背景知识”,将其与口译员人工搜索的内容进行比较,所得结果见表5。
ChatGPT所提供的解释均短于互联网检索所得解释,能以精简的文字表达同样的意义,准确度上与人工搜索并无太大差异,且耗时短,使用者不断优化提示语,继续追问让其提供更加通俗易懂的解释、使用场景、与其关联度高的其他知识点等等,因此,ChatGPT在人工整理出术语的情况下,解释单个术语及知识点的表现优于搜索引擎。
Table 5. Examples of encyclopedia knowledge extracted by the novice interpreter and ChatGPT
表5. 主题/百科知识提取差异示例
主题/百科 知识解释 |
口译员准备内容 |
ChatGPT准备内容 |
梯次利用 |
指对废旧动力蓄电池进行必要的检验检测、 分类、拆分、电池修复或重组为梯次产品, 使其可应用至其他领域的过程。梯次利用 已经退役的动力电池,可延长电池使用寿命,充分发挥其剩余价值,促进新能源消纳, 能够缓解当前电池退役体量大而导致的 回收压力,降低电动汽车的产业成本, 带动新能源汽车行业的发展(141字) |
一种资源管理策略,意味着将废弃物或 资源进行多次循环利用,以减少浪费, 延长使用寿命,并尽可能地降低对环境的影响。在新能源汽车行业, 梯次利用的概念被广泛应用于电池技术领域。 通过对锂电池等电池材料的回收利用, 可减少资源消耗,降低成本, 提高新能源汽车可持续性(126字) |
续表
高电压钴酸锂 |
钴酸锂是最早商业化的锂离子电池正极材料。由于其具有很高的材料密度和电极压实密度,使用钴酸锂正极的锂离子电池具有高的体积能量密度,因此钴酸锂是消费电子用锂离子电池中应用广泛的正极材料。随着消费电子产品对锂离子电池续航时间的要求不断提高,迫切需要进一步提升电池体积能量密度。提高钴酸锂电池的充电电压可以提高电池的体积能量密度,因此开发下一代更高电压的钴酸锂材料已经成为科研界及企业共同关注的热点(195字) |
高电压钴酸锂是一种用于锂电池的正极材料, 能够提供较高的电压输出,适用于需要高能量 密度的电池应用。在新能源汽车行业, 高电压钴酸锂被广泛用于电动汽车的动力电池中。它具有高能量密度和较长的循环寿命, 是提高电动汽车续航里程和性能的关键材料 之一(117字) |
4. 讨论
4.1. 将ChatGPT应用于译前准备的潜力
4.1.1. 减时提效
由于ChatGPT能够实时生成文本,使用其辅助译前准备可节省大量译员用于搜索查证的时间,从而将精力专注于术语及主题/百科知识的记忆甚至是熟悉场地、与讲者沟通等其他环节。口译中的认知负荷有“听辨和理解”(Listening, L)、“语言表达”(Production, P)和“记忆”(Memory, M)、“协调负荷”(Coordination, C) [12]。如果译员因将大量精力用于听辨与理解主题/百科知识、回忆、输入、输出术语,脑内认知总量超负荷,口译效果会受影响,高效的译前准备可以减轻听辨和理解及语言表达的认知负荷。
4.1.2. 成为译员的私人助手
译员与ChatGPT人机协同。一方面,可以快速对文本进行预翻译,减少简单重复、标准化文本的翻译量,借助ChatGPT的海量语料库、语义分析、同义词替换、语法检查等辅助翻译;另一方面,科技翻译对于专业知识掌握度要求高,甚至有译员认为科技专业知识和术语的译前准备最好以系统的、集中的培训方式进行,帮助译员熟练掌握科技知识以减少翻译中的意义传递损失[13]。虽然ChatGPT提取功能较弱,但对单个知识点的解释类似于行业专家,可以作为译员的百科知识辅助,以通俗易懂的语言解释晦涩难懂的专业知识。
4.2. 将ChatGPT应用于译前准备的局限性
4.2.1. 无法实时检索
由于ChatGPT不能直接参考特定的在线资源或词典进行实时翻译,而是基于大量的预先训练数据提供翻译,所以为确保准确性,仍需参考专业词典及行业规范。
4.2.2. 提取功能弱
ChatGPT在提取术语与主题/百科知识时提取数量有限,提取出的词汇需人工筛选、整理格式,不如MultiTerm、DéjàVu X等术语库工具便捷。
4.2.3. 方向性单一
因ChatGPT的语料库以英语为主要语种,在中到英方向的术语提取和翻译上可参考性低,尤其是中国特色话语的术语翻译,例如,“全国第四届黄炎培职业教育优秀学校”,ChatGPT提供的翻译为一对一的字面翻译——“National Fourth Huang Yanpei Vocational Education Outstanding School”,与其他机器翻译工具并无差异。
5. 将ChatGPT应用于译前准备的启示
5.1. 专业术语库建设与维护的必要性
口译的成败很大程度上取决于译员对术语和主题知识的准备工作,新手译员因处于职业生涯初期,术语及百科知识积累不如成熟译员,如有专项术语库作为参考,则可以大大提高译前准备效率。当下,规模大、运营成功的大型术语库主要有欧盟的Eurodicautom和Euro Term Bank、国际通信联盟ITU联机的多语言术语数据库Termite、世界贸易组织的WTOTERM、加拿大的Termium和Termino Web 2.0、LEXIS、爱尔兰的国家术语数据库、微软的语言门户[14]、联合国的UNTerm、加拿大魁北克省法语办公室运营的GDT (Grand Dictionniare Terminologique)。语言服务工作者及相关研究人员可以通过授权机制方便地访问这些在线术语库,同时部分术语库向公众开放。以Termium为例,该术语库自创立开始,就通过内部网络开放给加拿大翻译局译员、加拿大高校、研究机构和加拿大语言服务公司使用,以辅助翻译实践和支撑加拿大的语言政策[15]。
近年来,中国重要政治词汇对外翻译标准化专题库[16]、中国特色话语对外翻译标准化术语库等术语库[17]相继问世,但专业术语库的建设尚在探索中,多数是译员靠实践积累形成的不规范小型术语库,难以进行推广,可重复利用性低,后期疏于维护与管理,若能建成规范的术语库,译员则可以通过语料库驱动的译前准备来优化这一复杂耗时的过程。
5.2. 新手译员能力建设
5.2.1. 译员“问商”
高效使用ChatGPT始于准确问出一个好问题。“问商”[18]指通过询问ChatGPT获得知识的能力,具体有两层含义,即提问意识和问题表述能力。提示语对于ChatGPT生成的文本质量具有重要影响,具体而言,应遵循以下五条原则:1) 语言简短、切中要害;2) 使用日常语言;3) 提供与问题相关的背景;4) 避免笼统问题;5) 鼓励多种回答[19]。译员在要求ChatGPT提取术语及主题/百科知识前可提供相关定义作为背景知识信息,从而借助ChatGPT强大的理解能力提高提取效率。
5.2.2. 译员“搜商”
在翻译领域,搜商是指译员利用搜索行为解决翻译困难、提升翻译效率的能力。译员以信息转换为天职,必须掌握在海量信息中快速获取所需信息的能力。搜商的培养需要实践指导和长期培养,目前翻译与搜索的系统教学较为缺乏,多数学生没有上过信息检索课,即便有也和翻译实践相距甚远[20],而这恰是新手译员的能力建设不可或缺的环节。
译员的技术能力构建迫在眉睫[21],在构建搜商时应注重以下五个元素:1) 搜索意识:能意识到搜索对解决翻译障碍的重要作用,并意识到自觉提高搜商;2) 搜索资源:翻译过程中不可或缺的重要辅助,包括词典、平行文本、参考资料、网站等;3) 搜索内容:准确判断搜索的内容和其本质以提高搜索效率;4) 搜索方法:掌握搜索引擎的检索语法、检索词的提炼技巧、特定网络资源的检索语法、通配符、正则表达式等检索语言;5) 信息甄别能力:对检索结果的准确性、真实性、权威性和适用性等的判断能力[19]。
5.2.3. 术语管理能力
术语管理是为了满足某种目的而对术语资源进行管理的实践活动,通常包括术语的收集、描述处理、存储、编辑、呈现、搜索、维护和分享等[13]。对于个人译者来说,术语管理贯穿翻译整个过程是翻译质量的重要考核指标之一。德国萨尔兰德大学(Saarland University)的一项全球性术语调查(t-Survey)调查了451名职业语言服务工作者,91%的人实施过术语管理相关工作,约71%的调查对象在使用专业术语管理工具[13]。
术语注重清晰的概念和客观的陈述,高度专业的术语词义单一,如若提前录入术语库中,就可以为译员节省大量查找、输入、验证的时间。且从整个翻译过程来看,术语管理贯穿翻译全程,是语言资产管理的重要组成部分[22]。对于新手译员而言,因翻译量不大,可使用小巧灵活的桌面级术语管理工具。如Any Lexic、Lingo,可以在翻译术语管理的多个阶段应用,包括技术创作、编辑、搜索和翻译数据交换。译者可以创建和编辑多个词汇表和术语库,还可创建多种术语模板,灵活设置术语文本颜色、背景颜色、字体大小和文本格式等,这样的工具一般都支持TXT、CSV、XLS等术语表的导入和导出[13]。
6. 结语
ChatGPT储存了大量百科知识,能帮助新手译员快速理解晦涩的专业术语与知识,从而提升译前准备的效率,在术语准备方面虽不如人工,但仍能以其卓越的理解能力与文本生成能力成为译员的私人辅助,如能与其他术语提取工具联合使用,最大程度发挥其优势,帮助新手译员快速成长,度过职业生涯初期的阵痛。
基金项目
本研究系贵州轻工职业技术学院校级课题“面向口译的贵州轻工职业技术学院译前准备术语库建设研究”(项目编号:24QY01)、四川大学高等教学改革工程第十期项目“基于多学科融合的医疗口译人才培养研究与实践”(项目编号:SCU10034)的阶段性研究成果。
NOTES
*第一作者。
#通讯作者。