1. 引言
基于Transformer的GPT系列、Qwen、BERT、Llama等大语言模型的人工智能(AI)技术,推动了金融,医疗,教育等行业的迅猛发展[1],基于大语言模型的神经网络机器翻译工具可显著提高翻译效率和翻译质量[2],然而这些平台在专业领域文本的翻译质量往往还不尽满意[3],原因在于,翻译质量的评价使用的指标不同,有的指标关注词汇层面,有的关注句子层面,采用单一指标过于偏颇和武断;其次,源文本清洁度不够高,构建的语料库是专业领域的集合,包含了新闻报道、技术介绍等,没有从单一技术文件上考察翻译质量。为解决上述不足,本文基于单一海事术语文本,采用多个评价指标进行翻译质量评价,旨在分析AI翻译平台在标准类文本下的翻译质量,以期为翻译质量评价提供参考。
翻译质量评价(assessment metrics, AM)的指标较多,有BLEU、TER、METEOR、NIST、BERTScore、COMET和BLEURT等。通常多采用BLEU和TER两种评价指标。本研究梳理了相关评价指标(AM),在前人研究成果的基础上加入了NIST,METEOR,对AI翻译平台的翻译质量进行了系统评价与分析。本文采用的4种评价指标,增加了评价指标的综合衡量,可更全面、准确地评价翻译质量。 
国际海事组织(IMO)积极应对气候变化,通过了《2023年国际海事组织船舶温室气体减排战略》,明确在2050年前后实现温室气体净零排放。这表明绿色航运已经成为当前及以后一段时间内的主要领域。为了评价不同AI翻译平台对于海事文本的翻译质量,本研究选用《MEPC 81-7-3-Glossary of climate change definitions in relation to shipping》。该海事文本主要由海事温室气体减排的术语定义构成,属于气候减排的标准和规范文件。目前,学界的文本多是非单一的非术语型文件。雷鹏飞和张浮凌(2024)构建了两个外宣文本语料库进行翻译质量评价研究[4],范新瑜(2023)则进行了海洋科技文本机器翻译译文质量的评测[5],王坤宇和成思(2025)使用ChatGPT 4.0研究了立法文本翻译及质量评价[6]。对比上述翻译质量评价使用的文本,本研究所使用的海事绿色减排标准术语文本,具有单一性和标准性,能更加精确地评价不同AI翻译平台对标准体系文本的翻译质量。
本文的结构分为五部分。第一部分为引言,介绍了研究的背景,意义和目标,并概述了研究内容和创新点。第二部分为文献综述,梳理了国内外关于机器翻译质量评价的研究现状。第三部分为研究设计,介绍了本文的语料来源,选取的AI翻译平台,四种评价指标以及研究方法。第四章研究结果与讨论,呈现了各项指标的评价结果,结合具体实例,从准确性、流畅性、稳定性三个方面对比不同AI翻译平台的表现,分析其优势与不足。第五部分为结语,总结了研究发现,不足和意义。
2. 文献综述
机器翻译普遍采用BLEU、TER、METEOR、NIST、ROUGE、BERTScore、COMET和BLEURT等指标衡量译文质量,其原理是衡量机器译文与参考译文的相似度,不同相似度的对比角度决定了不同评价指标。指标根据计算方法和语言特点可分为:基于词汇匹配的指标,BLEU、TER、NIST和ROUGE;基于语义相似性的指标,METEOR、BERTScore、COMET和BLEURT。
目前,多数学者采用多种评价指标研究翻译质量。有的学者使用BLEU一种指标进行评价,如张文煜和赵璧(2024)采用BLEU与人工评价的方式,对6种不同体裁(小说和散文等)的ChatGPT 4.0、有道翻译、DeepL翻译的机器翻译文本进行测评,发现GPT技术在文学翻译等方面已有质量提升,但未取代神经网络机器翻译[1]。郭望皓和胡富茂(2021)利用BLEU算法对比评测5个翻译系统在1000句军事文本及通用文本中的表现,发现当前神经机器翻译系统尚无法高质量翻译军事文本[3]。范新瑜(2023)结合BLEU值和人工评审,对有道、百度等四大机器翻译系统翻译的海洋科技文本进行质量评价。人工评审和BLEU值均显示有道翻译的平均质量最优[5]。有的学者采用了两种或三种评价指标。王子云、毛毳(2023)和文旭、田亚灵(2024)都运用了BLEU和TER值两个指标分别对淄博陶瓷琉璃博物馆中英介绍文本以及党的二十大报告中10个例句的译文质量进行了评价,前者发现ChatGPT 4.0的表现良好[7];后者发现ChatGPT 4.0在处理意识形态、复杂结构、文化负载词、隐转喻等方面仍存在准确性局限[8]。Lavie A. (2011)运用BLEU、METEOR和TER指标,评价了阿英、中英等多语言对的GOOGLE 等机器翻译系统的文本质量。评价材料有新闻、博客、对话等[9]。
目前,学者倾向于采用四种及以上的评价指标进行实验研究。雷鹏飞,张浮凌(2024)用BLEU、METEOR、ROUGE和NIST评价了百度翻译、谷歌翻译等6款机器翻译软件的翻译质量,发现这些翻译软件均不能满足外宣翻译质量要求[4]。Shweta Chauhan等人(2022)以BLEU、METEOR、NIST、TER、ROUGE和STD等指标衡量了无监督神经机器翻译模型的翻译质量,发现该模型在处理英语、印地语和印地语-kangri语等语言时,BLEU得分均有所提高[10]。Hui Yu等人(2019)运用DPF、组合指标,以及TER、BLEU、METEOR等评价指标,评价了多种语言对的机器译文质量,发现DPF在系统级和句子级均取得最佳结果[11]。Snover M等人(2006)运用TER、BLEU、METEOR及其人类标注变体HTER、HBLEU和HMETEOR,评价了MTEval 2004阿拉伯语评价数据集中100个句子的机器译文质量,发现HTER的人类判断的相关性最高[12]。Agarwal A和Lavie A. (2008)运用Meteor、BLEU、TER、m-bleu和m-ter这些评价指标,对WMT-07中英语、德语等的机器译文进行翻译质量评价,发现重新调整参数后的Meteor与人类排名的相关性显著提高[13]。
综上所述,翻译质量评价的文本有来自文化与文学翻译领域、政治与科技翻译领域以及多语言与资源稀缺语言翻译等领域,而标准文件的翻译质量对比研究,尤其是海事领域绿色仍为空白。
3. 研究设计
3.1. 研究材料
本文的研究材料为国际海事组织(IMO)的海上环境保护委员会(MEPC)发布的《MEPC 81-7-3-Glossary of climate change definitions in relation to shipping》。它由59个英文气候变化相关术语及其定义构成,属于海事绿色低碳术语定义的标准文件,共4027个英文字符。本研究选择术语作为翻译材料,主要是考虑了(1) 海事绿色低碳领域的术语专业性强,既包含行业特定的专业术语,又包含逻辑严谨的定义句式,这使得评价指标得以兼顾术语准确性和定义完整性。(2) 翻译材料属于气候减排的标准和规范文件,具有单一性和标准性。采用标准体系的术语文本避免了目前通用型翻译材料非单一的弊端,可更加客观地评价专业领域的翻译质量。
3.2. 研究工具
本研究选取BLEU、TER、METEOR和NIST四种评价指标对五个AI翻译平台:Deepseek v3、ChatGPT 4.0、文心一言4.0以及DeepL和火山翻译进行评价。为控制变量,实验采用各平台2024年发布的公开版本。
翻译质量评价指标
本研究选取BLEU、TER、METEOR和NIST四种指标从不同的视角对翻译质量进行评价。
BLEU是一种基于n-gram的机器翻译评价指标,通过比较机器译文与参考译文的n-gram匹配度来评价翻译质量。它主要关注机器译文词汇层面(n通常取1~4)和参考译文的表面匹配率,并引入简短惩罚因子(brevity penalty, BP)以防止机器译文因过短而评分虚高[14]。BLEU值越接近1表示匹配度越高,翻译质量越好[15]。但是,BLEU只关注词汇的匹配,忽略语义和行文逻辑,难以识别同义词替换,难以体现译文的流畅性和语义连贯性[6]。因此BLEU在应用中常需结合其他评价指标共同使用。
TER是一种基于编辑操作距离的机器翻译评价指标,通过计算将机器译文转化到参考译文所需的最少编辑操作次数(包括替换、删除、插入和移动)来衡量翻译质量。操作次数越少,机器译文与参考译文越接近,TER值就越低,表明翻译质量越高[7]。编辑操作总次数除以参考译文平均词数得到TER值。由于TER仅关注词汇的匹配,忽略了同义词替换,不注重语法的自然度,会导致语法正确但表达生硬的译文获得高分,无法衡量译文的流畅性。
METEOR是一种基于词汇匹配与语义相似性的机器翻译评价指标。METEOR利用WordNet等外部语言资源识别同义词并纳入匹配范围[16],计算unigram的精确率和召回率衡量词汇匹配度,并引入与词序差异相关的惩罚因子以降低语序混乱获得的高分。最终得分由匹配度与惩罚因子的共同决定,可以更好地识别机器译文与参考译文之间的语义相似性,反映译文的语义准确性和流畅性,分数越接近1表示翻译质量越好。但METEOR完全依赖外部语言资源,而这些资源库涵盖的专业术语和低频词汇不足,导致其在处理专业术语和低频词汇时的能力有限[14]。
NIST是一种基于n-gram匹配进行加权计算相似性的机器翻译评价指标。与BLEU不同的是,NIST根据n-grams在参考译文中出现的频率或其所包含的信息量进行加权,给予稀有词汇或短语更高的权重,从而提升了翻译质量评价的精确性[17]。NIST对稀有词汇的重视有助于提升对技术性或专业性文本的机器翻译评价质量。此外,BLEU在处理短句时容易给出过高的评分,而NIST对长度惩罚因子(BP)进行了优化,使长句和短句都能得到合理的评分[14]。NIST分数越高,表明翻译质量越好。但NIST同样存在局限性,由于计算方式相对复杂,NIST的实施难度高于BLEU,一定程度上导致其在实际应用中未广泛普及。
由于本文的研究材料属于标准体系文件,是IMO绿色航运标准体系的术语规范,后续出台的技术文件或政策文本的术语表述都必须基于该文件的术语定义标准;该文件对专业术语及其技术性定义翻译的准确性要求也极高,而NIST凭借低频术语加权机制,给稀有词汇更高的权重,能够关注译文在专业术语准确性上的表现。因此,本研究引入NIST,结合BLEU、TER、METEOR三个主流的机器翻译评价指标[16],可以全面地评价AI翻译平台的翻译能力。参考译文由一位专家翻译并校对审核,确保了参考译文的专业性和可信度。在实验开始前,所有平台均在相同时间内输入统一指令,避免外部干扰影响翻译结果。
3.3. 研究过程
3.3.1. 数据预处理
笔者首先对研究材料进行标准化文本提取,使用Python中的PyPDF库将原始PDF文件转换为TXT格式文本文件,随后对文本进行多轮人工清洗,删除多余的空格、非常规的换行符以及无关元素。最终提取出59项术语及定义的完整英文,储存于Excel表格第一列。
3.3.2. 译文准备
为了控制输入指令对翻译质量的影响,本实验对于AI翻译平台(文心一言4.0、Deepseek v3、ChatGPT 4.0),使用统一查询指令“Translate the following maritime climate terminology into Chinese”;对于DeepL和火山翻译则采用英文原文直接输入翻译的方式,得到译文结果;再准备一份由专家审核的人工译文作为参考译文。最后,将五个AI翻译平台输出的译文与参考译文在Excel中进行对齐处理。
3.3.3. 评价指标计算
本研究选用Python作为编程工具,下载安装Pandas、Jieba和Nltk库来完成评价指标分数的计算。先通过Pandas导入Excel数据,并对数据进行清洗与结构化处理,再利用Jieba完成中文文本分词,再进行人工校验,最后结合NLTK库中的各种函数进行各评价指标分数的计算,将各AI翻译平台中59个术语的不同评价指标得分导入Excel表格,得到评价指标数据。部分程序代码示例如下,表1为各AI翻译平台BLEU指标的句子得分部分数据。
“"bleu_scores = {
    '序号': list(range(1, len(df) + 1)), 'Deepseek v3译文': [], 'ChatGPT 4.0译文': [],......"
......
"for _, row in df.iterrows():
    ref_tokens = chinese_tokenizer(row['参考译文'])
    reference = [ref_tokens]  
    for system in ['Deepseek v3译文', ...]:
        hyp_tokens = chinese_tokenizer(row[system])
        smooth = SmoothingFunction().method1
        score = sentence_bleu(reference, hyp_tokens, smoothing_function=smooth)
        bleu_scores[system].append(score)"
......
"result_df.to_excel('bleu_scores_detail.xlsx', index=False,
                   sheet_name='BLEU明细',
                   float_format="%.4f")
print("\n明细数据已保存至bleu_scores_detail.xlsx")"”
Table 1. Partial sentence-level BLEU score data of AI translation platforms
表1. 各AI翻译平台BLEU指标的句子得分部分数据
 
  
    序号  | 
    Deepseek v3  | 
    ChatGPT 4.0  | 
    文心一言4.0  | 
    DeepL  | 
    火山翻译  | 
  
  
    1  | 
    0.2567  | 
    0.1314  | 
    0.3008  | 
    0.1559  | 
    0.2173  | 
  
  
    2  | 
    0.3327  | 
    0.3017  | 
    0.6306  | 
    0.1419  | 
    0.2608  | 
  
  
    3  | 
    0.4553  | 
    0.4570  | 
    0.4527  | 
    0.3630  | 
    0.4809  | 
  
  
    4  | 
    0.6491  | 
    0.6539  | 
    0.7076  | 
    0.5735  | 
    0.5700  | 
  
  
    5  | 
    0.5973  | 
    0.584  | 
    0.5622  | 
    0.4782  | 
    0.4932  | 
  
  
    6  | 
    0.4893  | 
    0.4835  | 
    0.5434  | 
    0.3004  | 
    0.3500  | 
  
  
    7  | 
    0.5683  | 
    0.6725  | 
    0.3569  | 
    0.3779  | 
    0.3540  | 
  
  
    8  | 
    0.7576  | 
    0.876  | 
    0.8214  | 
    0.5197  | 
    0.6896  | 
  
  
    9  | 
    0.4247  | 
    0.4334  | 
    0.4647  | 
    0.2590  | 
    0.3201  | 
  
  
    10  | 
    0.4407  | 
    0.6001  | 
    0.5614  | 
    0.4861  | 
    0.3281  | 
  
 为了验证统计有效性,将Excel中的指标数据导入编写好的Python程序中得到各AI翻译平台各指标的平均数、方差、中位数、和标准差;再将Excel中的指标数据导入SPSS数据分析软件得到各个指标的Friedman检验分析结果秩均值、统计量、P值和Cohen’s f值。所有统计结果通过Excel生成可视化表2,最终形成翻译质量数据对比的条形(图1)。
Table 2. Descriptive statistics of evaluation metrics by AI translation platforms
表2. 各AI翻译平台的评价指标统计量数据
 
  
    指标类型  | 
    AI翻译平台  | 
    平均数  | 
    方差  | 
    中位数  | 
    标准差  | 
    秩均值  | 
    统计量  | 
    P值  | 
    Cohen’s f值  | 
  
  
    NIST  | 
    Deepseek v3  | 
    4.382  | 
    0.547  | 
    4.411  | 
    0.740  | 
    3.47  | 
    39.176  | 
    0.000  | 
    0.446  | 
  
  
    ChatGPT 4.0  | 
    4.436  | 
    0.719  | 
    4.588  | 
    0.848  | 
    3.74  | 
  
  
    文心一言4.0  | 
    4.201  | 
    0.858  | 
    4.378  | 
    0.926  | 
    2.92  | 
  
  
    DeepL  | 
    3.755  | 
    0.865  | 
    3.701  | 
    0.930  | 
    2.08  | 
  
  
    火山翻译  | 
    4.148  | 
    0.728  | 
    4.216  | 
    0.853  | 
    2.79  | 
  
  
    BLEU  | 
    Deepseek v3  | 
    0.478  | 
    0.011  | 
    0.493  | 
    0.106  | 
    3.34  | 
    32.967  | 
    0.000  | 
    0.403  | 
  
  
    ChatGPT 4.0  | 
    0.504  | 
    0.027  | 
    0.492  | 
    0.165  | 
    3.66  | 
  
  
    文心一言4.0  | 
    0.463  | 
    0.022  | 
    0.465  | 
    0.147  | 
    3.15  | 
  
  
    DeepL  | 
    0.387  | 
    0.030  | 
    0.363  | 
    0.174  | 
    2.14  | 
  
  
    火山翻译  | 
    0.426  | 
    0.024  | 
    0.434  | 
    0.154  | 
    2.70  | 
  
  
    METEOR  | 
    Deepseek v3  | 
    0.735  | 
    0.008  | 
    0.747  | 
    0.088  | 
    3.36  | 
    36.014  | 
    0.000  | 
    0.424  | 
  
  
    ChatGPT 4.0  | 
    0.742  | 
    0.014  | 
    0.740  | 
    0.120  | 
    3.51  | 
  
  
    文心一言4.0  | 
    0.731  | 
    0.014  | 
    0.733  | 
    0.120  | 
    3.46  | 
  
  
    DeepL  | 
    0.668  | 
    0.018  | 
    0.678  | 
    0.135  | 
    2.17  | 
  
  
    火山翻译  | 
    0.683  | 
    0.014  | 
    0.689  | 
    0.119  | 
    2.51  | 
  
  
    TER  | 
    Deepseek v3  | 
    0.392  | 
    0.012  | 
    0.388  | 
    0.110  | 
    2.36  | 
    34.654  | 
    0.000  | 
    0.415  | 
  
  
    ChatGPT 4.0  | 
    0.404  | 
    0.027  | 
    0.414  | 
    0.163  | 
    2.49  | 
  
  
    文心一言4.0  | 
    0.499  | 
    0.076  | 
    0.469  | 
    0.275  | 
    3.25  | 
  
  
    DeepL  | 
    0.553  | 
    0.049  | 
    0.552  | 
    0.220  | 
    3.84  | 
  
  
    火山翻译  | 
    0.448  | 
    0.025  | 
    0.441  | 
    0.159  | 
    3.07  | 
  
 
Figure 1. Translation quality data
图1. 翻译质量数据
3.3.4. 数据有效性
为了验证实验数据的有效性,本研究通过Friedman非参数检验分析了五种AI翻译平台在以上四种指标上的得分差异。Friedman检验显示,四种指标的P值均小于0.001,这表明五个翻译系统的性能存在差异,且Cohen’s f值介于0.40~0.45之间,证明系统间存在显著差异;表3中的成对比较的调整后显著性检验也进一步支持了这一结论。例如,在NIST指标下,DeepL译文与Deepseek v3译文和ChatGPT 4.0译文的P值均为0.000,表明存在显著差异;而DeepL译文与火山翻译译文的P值为0.157,大于0.05,表明两者在NIST指标上无显著差异。此外,非参数检验的秩均值排序与描述性统计的平均数、中位数排序结果高度一致。这些结果表明,实验数据能够有效区分不同AI翻译平台的表现,可靠性较高,为后续分析奠定了基础。
Table 3. Paired comparison results with significance testing for each metric across AI translation platforms
表3. 各AI翻译平台成对比较的各指标显著性数据
 
  
    Sample 1-Sample 2  | 
    NIST显著性  | 
    BLEU显著性  | 
    METEOR显著性  | 
    TER显著性  | 
  
  
    DeepL-火山翻译  | 
    0.157  | 
    0.547  | 
    1.000  | 
    0.081  | 
  
  
    DeepL-文心一言4.0  | 
    0.043  | 
    0.005  | 
    0.000  | 
    0.416  | 
  
  
    DeepL-Deepseek v3  | 
    0.000  | 
    0.000  | 
    0.000  | 
    0.000  | 
  
  
    DeepL-ChatGPT 4.0  | 
    0.000  | 
    0.000  | 
    0.000  | 
    0.000  | 
  
  
    火山翻译-文心一言4.0  | 
    1.000  | 
    1.000  | 
    0.011  | 
    1.000  | 
  
  
    火山翻译-Deepseek v3  | 
    0.184  | 
    0.290  | 
    0.036  | 
    0.145  | 
  
  
    火山翻译译文-ChatGPT 4.0  | 
    0.011  | 
    0.010  | 
    0.006  | 
    0.478  | 
  
  
    文心一言4.0-Deepseek v3  | 
    0.547  | 
    1.000  | 
    1.000  | 
    0.022  | 
  
  
    文心一言4.0-ChatGPT 4.0  | 
    0.047  | 
    0.807  | 
    1.000  | 
    0.096  | 
  
  
    Deepseek v3-ChatGPT 4.0  | 
    1.000  | 
    1.000  | 
    1.000  | 
    1.000  | 
  
 注:每行都检验“样本1与样本2的分布相同”这一原假设。显示渐进显著性(双侧检验)。显著性水平为0.050。
4. 研究结果与讨论
本文将五个AI翻译平台输出的译文分别和参考译文进行对比,并计算了它们的NIST、BLEU、METEOR和TER分数,各个指标的得分情况如上图1所示。
4.1. 准确性
准确性是衡量译文质量的重要标准之一。BLEU通过n-gram的匹配程度衡量词汇的忠实度;NIST指标给出现频率较低的词汇更高的权重,能反映专业术语的翻译准确性。TER通过计算将机器译文转化到参考译文所需的最少编辑操作次数来评价机器译文中词汇和语法的准确性。因此,本研究将通过BLEU、NIST和TER三个指标衡量翻译系统的准确性。
综合图1来看,ChatGPT 4.0译文在NIST (均值4.436)和BLEU指标(均值0.504)上表现最好,而在TER指标(均值0.404)的表现上仅次于DeepSeek v3;Deepseek v3在TER指标(均值0.392)上表现最优且在NIST和BLEU指标上排名也靠前。文心一言4.0和火山翻译在NIST、BLEU和TER指标上的得分表明其翻译质量均落后于前两者; DeepL生成的译文在三个指标上的得分均最低,译文准确性较差。
例如:原文“Carbon dioxide (CO2) is a naturally occurring gas and is also a by-product of burning fossil fuels (such as oil, gas, and coal), of burning biomass, of land use changes (LUC) and of industrial processes (eg, cement production). It is the principal greenhouse gas (GHG) produced by, or resulting from, human activities that affects the earth’s radiative balance. It is the reference gas against which other GHGs are measured and therefore has a global warming potential (GWP) of 1. (IPCC, 2021)”
专业术语方面,ChatGPT 4.0和Deepseek v3均准确地翻译了专业术语。例如,“land use changes (LUC)”译为“土地利用变化”,“global warming potential (GWP)”均准确译为“全球变暖潜力”。而其他AI翻译平台在术语翻译方面存在问题,例如火山翻译将“IPCC”误译为“气专委”,DeepL在“industrial processes”部分出现重复翻译,这些错误直接影响了海事气候变化术语翻译的准确性,术语体系的严谨性、一致性与权威性。
句子结构方面,原文“It is the principal greenhouse gas (GHG) produced by, or resulting from, human activities…”这一复杂句式,ChatGPT 4.0译为“它是人类活动产生的或由此产生的主要温室气体”,Deepseek v3译为“它是主要的人类活动产生或导致的温室气体”,均准确传达了原文的含义及修饰关系。而DeepL的部分译文语序混乱(如“工业过程(如水泥生产)”的重复),文心一言4.0的译文略显生硬(如“它是衡量其他温室气体的参考气体”),两者在传达原文含义时均有欠缺,可能会导致后续各国家、组织及利益相关方基于该术语文件而出台技术文件或政策文本时,存在概念上的歧义,引发不必要的争议。
综上所述,在准确性方面,ChatGPT 4.0和DeepSeek v3在翻译海事气候变化术语及其定义时的整体表现最好,DeepL和火山翻译相对较差,尤其在翻译复杂术语时存在不足。ChatGPT 4.0与DeepSeek v3在专业术语及复杂句式结构上的准确处理,为国际海事组织(IMO)气候术语框架提供了可靠的语言转换基础。
4.2. 流畅性
流畅性能反映出译文的自然度和语义连贯性,是衡量机器翻译质量的重要手段之一。本研究将通过METEOR指标评价译文的流畅性。METEOR指标不仅关注词汇的匹配度,还考虑了语法准确性和语义一致性。METEOR对同义词替换的关注度使其在评价译文流畅性方面更具优势。实证研究表明,在句子层面,METEOR比BLEU更具有人工评价的相关性[9]。王坤宇和成思(2025)的研究指出,BLEU指标存在局限性,它关注词汇的匹配,忽略语义及上下文逻辑,难以衡量译文的流畅性和语义连贯性[6]。这说明METEOR更能反映出译文的可读性。而文旭和田亚灵(2024)在进行ChatGPT 4.0对于中国特色话语翻译的有效性研究时,使用BLEU指标评价机器译文的流畅性显得不够专业[12]。
在表2中,METEOR得分显示,ChatGPT 4.0 (均值0.742)和DeepSeek v3 (均值0.735)在五个AI翻译平台中表现最佳,且两者之间无显著差异,说明其译文在语言自然度和语义连贯性上均接近参考译文。而DeepL (均值0.668)和火山翻译(均值0.683)得分较低,表明两者存在译文表达不自然的问题。例1,原文“Net zero carbon ship operations describes when the carbon dioxide (CO2) emissions resulting from the operation of the ship are balanced by removals resulting from human activities over a specified period. Net zero carbon ship operations means reducing emissions and balancing the remaining residual emissions through removal rather than using offsets to other sectors. The emissions removal can be achieved during fuel production and/or after combustion.”。
在术语一致性方面,对于核心术语“Net zero carbon ship operations”,ChatGPT 4.0、DeepSeek v3和DeepL都准确译为“净零碳船舶运营”,与参考译文一致;文心一言将其译为“净零碳排放船舶运营”,增译“排放”稍显冗余;火山翻译译为“船舶净零碳作业”,“作业”通常指具体的操作活动,不如“运营”涵盖范围广。文心一言4.0将“offsets”译为“转移”,与“抵消”概念不符,其他平台皆准确译为“抵消”。
在语义连贯性方面,对于核心结构:“describes when the carbon dioxide CO2 emissions… are balanced by removals…”,ChatGPT用“描述了……被……所平衡”,语序自然流畅,句子逻辑清晰,Deepseek v3用“排放通过……移除达到平衡”,两者的句式避免了冗余表述,动词搭配既忠实于原文,连贯性又强,且符合中文表达习惯。而对比其他译文:DeepL译文“通过清除而不是使用其他部门的抵消来平衡”,信息量大,略显紧凑,译文不够自然;火山翻译将“operations”译为“作业”,与其后文“运营”不一致,导致术语混淆,影响逻辑流畅性。
在表达自然度方面,中文倾向于简洁、避免重复,ChatGPT 4.0和Deepseek v3的译文在措辞上更贴合这一特点,避免了不必要的冗余短语(如“的状态”、“的方式”),动词(平衡、减少、移除/去除)和连接词(被……所/通过……)的使用使行文更连贯、一气呵成,词语之间的搭配更符合中文习惯(如“使用……措施”比“利用……抵消”或“进行……抵消”更地道)。而对比其他译文:文心一言“向其他部门转移碳排放的方式”中,“转移”与原文“offsets”(抵消)语义偏差,影响理解流畅性,“相平衡的状态”中“的状态”稍显累赘;火山翻译“利用对其他部门的抵消来减少排放和平衡剩余的剩余排放”中,“剩余的剩余排放”重复累赘,且“利用……抵消”表达生硬;DeepL“使用其他部门的抵消”省略了动作指向,语义不完整。
综上所述,通过METEOR指标验证,ChatGPT 4.0和DeepSeek v3在专业术语翻译的自然度、语义连贯性和句式流畅性方面明显优于其他AI翻译平台,它们不仅能够将海事术语文本中的专业术语翻译准确,语义理解能力也更强,能准确传达原文信息,根据目的语习惯进行调整,使译文更加通顺自然。
4.3. 稳定性
在本文的翻译质量评价中,稳定性是指AI翻译平台在翻译多个海事气候术语及其定义时译文质量的一致性水平。稳定性通过五个AI翻译平台的各评价指标的方差和标准差进行衡量,数值越小,说明该平台的翻译质量波动越小、表现越稳定。 
从方差和标准差进行分析发现,Deepseek v3在四个指标上均保持最低水平,说明其翻译质量波动最小,在翻译多个海事气候术语及其定义时的稳定性较高;ChatGPT 4.0仅在BLEU指标上的数值排名靠后而在NIST、METEOR和TER三项指标上的数值相对较小,位列第二,因此其翻译质量的稳定性也较高;火山翻译四个指标的数值均位于第三位,稳定性表现中等;文心一言4.0在NIST和TER指标上的数值较高,稳定性较差,但在METEOR和BLEU指标上的数值排名第二,说明其在译文流畅性和词汇匹配度上相对稳定;DeepL在四个指标上的数值均较高,说明其翻译质量波动最大,表现不稳定。
综上所述,通过对五个主流AI翻译平台在NIST、BLEU、METEOR和TER四项评价指标下的表现进行系统分析,可以发现ChatGPT 4.0与DeepSeek v3在翻译海事绿色低碳术语定义的标准文件时,准确性、流畅性和稳定性的表现都更好,这两个平台均表现出较高的翻译质量,尤其在翻译专业性强、句子结构复杂的气候变化相关术语及其定义时,其词汇匹配度、语义连贯性均优于其他翻译平台。而DeepL和火山翻译在多个指标中得分较低,表现出在术语准确性和语言自然度方面的不足,且整体稳定性相对较弱;文心一言4.0虽在部分指标中表现中等偏上,但与ChatGPT 4.0和DeepSeek v3相比仍存在一定差距,特别是在术语一致性和句法结构还原方面仍有提升空间。因此,ChatGPT 4.0和DeepSeek v3更适合作为国际海事组织发布的专业气候术语翻译任务的机器翻译平台。
5. 结语
本研究围绕五个AI翻译平台在海事标准体系术语定义翻译中的表现进行对比分析。研究发现,在准确性方面,ChatGPT 4.0与DeepSeek v3的译文与参考译文的术语一致性最高,能够更准确地传达原文的含义;在流畅性方面,ChatGPT 4.0和DeepSeek v3在译文自然度和语义连贯性方面表现最优,其译文更加通顺自然,句子逻辑清晰,符合海事标准体系的术语翻译的表达规范;在稳定性方面,ChatGPT 4.0和DeepSeek v3的翻译质量波动最小,稳定性较高。因此,ChatGPT 4.0和DeepSeek v3更适配海事标准体系的术语翻译需求。
AI正从大模型转化为专业能力突出的平台。同样,翻译平台应在模型规模、领域数据之外加强基于人类反馈的强化学习(RLHF) [18]。如果RLHF能够基于标准文件的训练,那么其准确性、流畅性和稳定性可以显著提高。目前,AI大语言平台的翻译训练集中在规模和参数,而对基于标准文件的训练较少。可以推测,随着规模的进一步扩大,AI大语言平台的下一个发展将集中在专业领域的训练。
本研究能够帮助从业者根据准确性和流畅性等具体需求选择适合的AI翻译平台。再者,BLEU、METEOR、TER和NIST四种指标可从不同的角度评价翻译质量,特别是METEOR表现出来的流畅性和NIST代表的术语准确性,可作为专业领域翻译质量评价的基本要素,有助于提升翻译质量及行业标准化水平。