生成式AI中英文化负载词翻译策略与质量研究——以《红楼梦》ChatGPT与DeepSeek译本为例
A Study on the Translation Strategies and Quality of Culture-Loaded Terms in Generative AI—A Comparative Analysis of ChatGPT and DeepSeek Translations of The Story of the Stone
摘要: 现有研究多聚焦于通用翻译质量评估,对文化负载词翻译机制关注不足,本研究深入探讨了生成式AI在文化负载词翻译中的策略分化与语境作用问题。以《红楼梦》前八十回五类文化负载词为对象,基于Nida文化五分法与Venuti归化–异化理论,采用定量与定性相结合方法,对比分析GPT-4o与DeepSeek的翻译表现。研究发现,GPT-4o系统性倾向归化策略,与霍克斯译本匹配度更高;DeepSeek倾向异化策略,与杨宪益译本契合度更优。词类翻译质量差异显著,物质文化词表现最佳,语言与社会文化词最差。值得关注的是,语境对翻译质量无正向增益,反而可能干扰模型对文化词的聚焦,其干扰强度与文化图式依赖性相关。本研究揭示了生成式AI作为文化中介的潜在立场,为AI助力中国古典文学海外传播提供了重要的实证参考。
Abstract: While existing research has largely focused on general translation quality assessment, there remains insufficient attention to the translation mechanisms of culture-loaded terms. This study delves into the strategic divergence and contextual influence of generative AI in translating such terms. Taking five categories of culture-loaded terms from the first eighty chapters of The Story of the Stone as the research object, and drawing upon Nida’s five-category cultural framework and Venuti’s theory of domestication and foreignization, this study employs a mixed-methods approach to compare the translation performance of GPT-4o and DeepSeek. Findings indicate that GPT-4o systematically leans toward domestication, aligning more closely with the Hawkes translation, whereas DeepSeek exhibits a preference for foreignization, showing greater affinity with the Yang Xianyi translation. Translation quality varies significantly across term categories, with material culture terms achieving the highest accuracy and linguistic and social culture terms the lowest. Notably, contextual information does not contribute positively to translation quality; rather, it may distract the model from focusing on culture-specific terms, with the degree of interference correlating with the dependency on cultural schemata. This study reveals the implicit stance of generative AI as a cultural mediator and provides valuable empirical insights for leveraging AI in the global dissemination of classical Chinese literature.
文章引用:王禹雯. 生成式AI中英文化负载词翻译策略与质量研究——以《红楼梦》ChatGPT与DeepSeek译本为例[J]. 现代语言学, 2026, 14(1): 97-106. https://doi.org/10.12677/ml.2026.141015

1. 引言

生成式人工智能的发展为跨语言翻译提供了新的可能。以Transformer架构为基础的GPT系列模型通过海量语料预训练与自注意力机制,显著提升了语义理解与生成能力[1]。GPT-4o在多语言翻译中展现出巨大潜力[2],而DeepSeek等本土模型凭借对中文语料的优化,在处理中国特色文本时具有独特优势[3]

现有关于AI翻译的研究多聚焦于一般性质量评估或表层文化偏向,对不同类型文化负载词的翻译机制、语境在AI翻译中的实际作用,以及不同模型是否呈现系统性的文化策略分化等问题,仍缺乏深入探讨。《红楼梦》作为中国古典文学巅峰之作,融合了丰富的民俗、礼制、宗教与语言文化,其文化负载词涵盖面广、代表性强,是研究跨文化翻译的理想语料。同时,该作品拥有霍克斯与杨宪益两个经典译本,为对比分析提供了权威参照。尽管长语境理解被视为大语言模型的核心能力之一,但其在文化负载词翻译这一特定任务中究竟起促进作用还是干扰作用,尚缺乏实证研究。本研究旨在对比GPT-4o与DeepSeek在《红楼梦》文化负载词翻译中的表现,分析其策略差异与质量特征,并通过“显式聚焦”指令实验探究其背后的认知机制,为生成式AI的文化适应能力评估提供新视角。

2. 文献综述

2.1. 生成式AI与翻译研究进展

大语言模型已在多领域翻译任务中展现出超越传统方法的潜力[4]。然而不同模型因训练数据、微调策略与RLHF标注的文化背景差异,表现出不同的文化倾向性。Bender EM等人明确指出大模型的训练天然存在英语中心主义与西方文化主导倾向[5],处理非英语概念时易加剧文化偏见。OpenAI承认RLHF过程中使用的标注人员主要来自英语国家,其文化和价值观偏好会影响模型的输出[2]。李德凤、王华树和刘世界通过评估多模型指出,本土模型在特定领域可能表现更佳[6]

尽管注意力机制等技术允许模型处理更长的上下文,但许多模型的理解仍常停留在表层文本,难以理解特定文化概念。文旭、田亚灵指出GPT-4处理意识形态和文化负载词时存在局限[7];毛文伟、朱海莹对汉日文学翻译的计量研究证实GPT模型的语境适应性与文化信息传递能力仍需优化[8]。Deng & Sun通过系统实验指出,LLMs在翻译包含特定文化习俗、历史典故和意识形态的文本时,无法传递原文的深层文化意蕴[9]。这一局限在以《红楼梦》为代表、文化负载密集的文学经典翻译中尤为突出,也构成了本研究聚焦于该文本的重要出发点。

2.2. 理论基础

本研究以Nida的文化五分法和Venuti的归化异化理论为理论基础。Nida系统性构建了以动态对等为核心的翻译理论体系,并将翻译过程中的文化差异划分为生态文化、物质文化、社会文化、语言文化和宗教文化五类。他强调翻译的终极目的在于使目标语读者产生和原文读者高度近似的心理反应和文化认知[10]。该理论对本研究中的文化负载词翻译质量评估具有重要指导价值。Lawrence Venuti提出归化与异化理论,归化是一种以目标语文化为归宿的翻译策略,它要求译者最小化甚至消除原文的特色,将作者完全带到目标语读者面前;异化是一种以源语文化为归宿的翻译策略,它要求译者刻意保留原文中的某些异质成分,制造陌生化[11]。该理论为大模型翻译中的文化策略分析提供可靠支撑。

3. 研究设计与方法

3.1. 研究设计

本研究聚焦于《红楼梦》汉译英任务,旨在考察生成式AI在翻译不同类型文化负载词质量差异。研究选择中国深度求索发布的Deepseek和美国OpenAI在2024年发布的GPT-4o作为研究对象。GPT-4o在通用文本翻译中表现出色,而Deepseek作为中国本土AI大模型,在处理中国特色文本时表现出较强的文化敏感性。

为全面评估生成式AI的翻译效能,本研究采用定性与定量相结合的混合研究方法。Fisher最早提出多维度分类评估。机器翻译质量评估中,BLEU、精确率、召回率及F1分数等是常用量化指标[12]。其中,BLEU通过比对机器翻译与人工参考译文的n-gram重叠度量化质量,其评分范围为0~1,分数越高表明与参考译文契合度越高[13]。本研究优化n-gram权重为(0.5, 0.5, 0, 0),并引入平滑函数避免零匹配的问题,兼顾词汇准确性与结构流畅性。C. J. van Rijsbergen将F1定义为精确率和召回率的调和平均数,其评分范围为0~1,能有效弥补BLEU在短文本评估中的局限。在定性分析层面,本研究从忠实度、流畅度和文化适应性进行考察,探究其跨文化交际效果。

为区分认知负荷与文化图式缺失假说,针对基础实验中受语境负面影响显著的词条,采用“显式聚焦”指令(“请忽略以下段落的其他内容,只专注于翻译其中加粗的词汇”)重新测试。通过比较“显式聚焦”与普通有语境条件下的表现,识别认知分散的影响程度。通过比较“显式聚焦”与普通有语境条件下的表现识别认知分散对翻译质量的影响程度。若显式聚焦能显著改善质量,则说明原语境下的错误主要源于注意力分散;若改善有限,则表明错误更可能根植于模型文化图式的根本性缺失。

针对“有语境”条件下与参考译文匹配度较低的翻译结果,本研究进一步开展错误模式分析,通过将模型输出与参考译文进行精确比对,回溯其所在原始语境,系统检视错误译文是否与语境中其他词汇、短语或表层结构存在机械性或表面的关联,并据此建立错误分类框架,以揭示模型在语境理解与文化信息处理中的系统性偏差。

3.2. 研究材料

许国璋(1980)首次提出文化负载词(culturally loaded words)概念[14]。Hartmann将其界定为“与语言社会生活方式息息相关的词汇或短语”[15]。本研究依据Nida文化五分法,采用人工筛选方式从《红楼梦》前八十回中选取五类文化负载词各10个,构建双语平行语料库。为保证评估的效度与信度,本研究选取David Hawkes & John Minford的译本以及杨宪益、戴乃迭夫妇的译本作为权威参考译文。通过设置“语境缺失”与“语境辅助”的对比实验,深入分析语境因素对翻译质量的影响。

3.3. 研究流程

首先,构建《红楼梦》文化负载词中英双语平行语料库。筛选五类文化负载词并标注权威译文,设语境辅助或缺失两组实验;以“请为以下《红楼梦》文化负载词提供准确、符合英文表达习惯的单一英文翻译”为标准化指令,将词汇导入两款模型,采集不同语境下的译文形成原始数据集。

其次,基于Python的NLTK库开展量化分析,采用自定义n-gram权重为(0.5, 0.5, 0, 0);计算得到语料库级别的综合BLEU分数。并通过自定义函数计算F1值,形成量化数据集。

随后,对量化数据进行结构化处理与可视化呈现,用分组柱状图呈现语境对模型表现的影响,雷达图对比多维度质量特征。针对量化差异显著的词汇,结合忠实度、流畅度、文化适应性三维度分析翻译策略,最终形成定量与定性相互印证的结论。针对“有语境”条件下与参考译文匹配度较低的翻译结果,本研究进一步开展系统的错误模式分析,据此建立错误分类框架,从而揭示模型在语境理解与文化信息处理中的系统性偏差。

4. 文化负载词翻译表现质量

根据Nida文化五分法,本研究选取的生态、物质、社会、宗教和语言文化负载词如表1所示。其BLEU均值和F1均值如表2所示。gpt_0 (无语境)、gpt_1 (有语境)、deepseek_0 (无语境)、deepseek_1 (有语境)的文化负载词分别与杨宪益、戴乃迭版和David Hawkes & John Minford版对照情况如下表3所示。

表3可知,DeepSeek和GPT-4o在《红楼梦》文化负载词的翻译上呈现显著的策略分化与质量差异。DeepSeek在杨译本对照下表现优异,尤其在无语境条件下BLEU达0.391,F1分数为0.538,显著高于GPT-4o,说明其作为本土AI在对中国特色文化的忠实传递上更具优势。而GPT-4o在霍译本对照下得分更高,倾向于将中国文化概念转化成为西方读者更容易接受的形式。

Table 1. Glossary of culture-loaded words

1. 文化负载词词表

类别

文化负载词

生态文化负载词

翠嶂、清溪、绛珠仙草、芭蕉、竹、奇花烂灼、白石为栏、山坳树杪、青埂峰、太虚幻境

物质文化负载词

银子、铜钱、小锞子、当票、古董行、香料铺、棉衣、恒舒(当铺)、通灵宝玉、冷香丸

社会文化负载词

还愿、凑份子、世职、内侄、月钱、巡盐御史、皇商、金刚咒、水陆道场、偈语

宗教文化负载词

神仙、出家、超度、功德、超生、轮回、情僧、太虚幻境、风月宝鉴、晨昏定省

语言文化负载词

眼花缭乱、天下老鸹一般黑、病来如山倒、墙倒众人推、拼着一身剐、耳旁风、三日打鱼,两日晒网、吃着碗里看着锅里、顶缸、着三不着两

Table 2. Average BLEU and F1 scores of culture-loaded words

2. 文化负载词BLEU、F1均值

类别

BLEU值

F1值

生态文化负载词

0.303333369

0.52263438

物质文化负载词

0.394392724

0.594449856

社会文化负载词

0.257543928

0.442830017

宗教文化负载词

0.253187585

0.433691031

语言文化负载词

0.262182218

0.412876553

Table 3. Summary of BLEU and F1 Scores

3. BLEU、F1汇总表

Reference-Test Name

BLEU

F1

杨宪益、戴乃迭版gpt_0

0.228997858

0.402969583

杨宪益、戴乃迭版deepseek_0

0.391089079

0.537498557

杨宪益、戴乃迭版gpt_1

0.221822069

0.399361259

杨宪益、戴乃迭版deepseek_1

0.275892863

0.467832795

David Hawkes & John Minford gpt_0

0.42392734

0.61401209

David Hawkes & John Minford deepseek_0

0.236482059

0.442883503

David Hawkes & John Minford gpt_1

0.331699614

0.531256376

David Hawkes & John Minford deepseek_1

0.243112836

0.454556777

值得注意的是,语境并不必然提高翻译的可靠性,DeepSeek在有语境条件下BLEU值从0.391降至0.276,GPT-4o在霍译对照下有语境时也从0.424降至0.332,提示语境引入可能干扰模型对独立文化词的聚焦,生成式AI在平衡语境与精准翻译方面仍存在挑战。

4.1. 生态文化负载词

生态文化负载词指与人类社会所处自然环境直接相关的文化元素,涵盖特定地域的动植物、地理特征、气候条件等自然范畴。《红楼梦》中此类词汇均带有鲜明的中国传统文化意象,该类词汇的翻译质量高度依赖其文化图式的跨文化可通约性。

案例1:竹

“竹”作为潇湘馆的核心意象,在中国文化中象征着清高、坚韧与隐逸,其意象在东西方文化中具备相似的审美联想,两个AI模型的译文与两个权威译本均将其直译为“bamboo”。GPT-4o和DeepSeek在不同语境条件下,与杨、霍译本的BLEU值稳定于0.5~0.8,F1集中于0.6~0.8,表现稳定。

该词作为具象植物名词,在中英文中存在明确对应关系,其象征意义具备跨文化可通约性,模型无需进行文化适配即可实现完全匹配。从忠实度和流畅度看,它精准对应了原文,并自然融入目标语句法。在文化适应性上,它成功地将源文化的象征内涵无损地植入目标语语境,实现了深层的文化传递。

案例二:绛珠仙草

“绛珠仙草”作为《红楼梦》神话体系的核心意象,指林黛玉前世及“泪水报恩”的神话,霍版归化译为“Crimson Pearl Flower”,杨版异化译为“Vermilion Pearl Plant”,他们的译法分歧显著。

Table 4. BLEU and F1 scores of different models and reference translations for “Jiangzhu Fairy Grass”

4. “绛珠仙草”不同模型与参考翻译BLEU值和F1值

参照翻译

测试翻译

BLEU

F1

David Hawkes & John Minford

gpt_0

0.40824829

0.571428571

杨宪益、戴乃迭版

gpt_0

0.091287093

0.285714286

David Hawkes & John Minford

deepseek_0

0.129099445

0.333333333

杨宪益、戴乃迭版

deepseek_0

0.577350269

0.666666667

David Hawkes & John Minford

gpt_1

0.316227766

0.5

杨宪益、戴乃迭版

gpt_1

0.070710678

0.25

David Hawkes & John Minford

deepseek_1

0.129099445

0.333333333

杨宪益、戴乃迭版

deepseek_1

0.577350269

0.666666667

根据表4,无语境GPT-4o译为“Crimson Pearl Fairy Grass”,与霍版的BLEU达0.4082,F1达0.5714,远高于与杨译版的0.0913和0.2857,通过“Fairy Grass”贴近西方神话植物意象,属于归化策略,以西方读者熟悉的“奇幻植物”概念降低理解门槛。无语境Deepseek_0与杨译版的BLEU达0.5774、F1达0.6667,远高于与霍版,凸显本土模型对异化策略的倾向性,但仍存在偏差,译为“Vermilion Pearl Plantain”,将仙草误译为“Plantain”车前草。值得注意的是,有语境仍未修正这一偏差,DeepSeek和GPT-4o在有语境条件下译文及分值均未改变,其翻译倾向由训练数据预设,局部语境难以撼动其对核心文化词的既定处理模式。这种误译源于其对《红楼梦》神话体系的认知不足,无法区分其与普通植物的文化边界,反映模型在处理高文化图式依赖词条时对训练数据固有策略的依赖。

4.2. 物质文化负载词

物质文化负载词指不同文化中人类为满足生存与生活需求所创造的物质产品。其BLEU均值为0.3944,F1值为0.5944,整体上翻译准确率表现突出,反映出生成式AI在处理具象化、功能明确文化概念时具有优势。

案例三:铜钱、当票、恒舒当铺

在《红楼梦》所构建的清代社会图景中,这类词汇承载着丰富的经济生活与阶级信息,他们的双权威译本译法高度一致,全部译为“silver”、“copper coins”、“pawn ticket”,因此模型普遍实现BLEU = 1的完全匹配。这些词汇是跨文化认知中相对具象的概念,语义边界清晰,文化障碍较低,模型采用通用表达即可实现精准翻译。在忠实度上,译文精准对应了原文的实物与功能;在流畅度上,完全符合英文表达规范;在文化适应性上,则通过准确的术语实现了文化信息传递。生成式AI在处理具有明确指涉的现实世界物质实体时具有可靠性。

案例四:冷香丸

“冷香丸”是宝钗的专属方剂,工艺复杂且承载隐喻,霍版译“Cold Fragrance Pill”,杨版译“Cold Fragrance Pills”,存在单复数形式分歧。模型翻译中,gpt_0译“the Cold Fragrance Pill”,Deepseek_0误译“Cold Incense Pill”。当提供完整配方语境时,gpt_1保持原有输出,显示出对特定译本的强倾向性;可见复杂物质文化词的翻译受训练数据中译法变体约束,语境修正能力有限,无法突破既定模式。

4.3. 社会文化负载词

社会文化负载词指维系人类群体秩序与互动的社会结构、行为规范及群体习惯的文化词。其BLEU均值(0.2575)在五类文化词中最低,F1均值为0.4428,反映此类概念在跨文化转换中的难度。

案例五:内侄

Table 5. BLEU and F1 scores of “Nei Zhi” across different translation models

5. “内侄”不同模型与参考翻译BLEU值、F1值

参照翻译

测试翻译

BLEU

F1

David Hawkes & John Minford

gpt_0

0.081873075

0.363636364

杨宪益、戴乃迭版

gpt_0

0.070710678

0.285714286

David Hawkes & John Minford

deepseek_0

0.260130048

0.666666667

杨宪益、戴乃迭版

deepseek_0

0.129099445

0.4

David Hawkes & John Minford

gpt_1

0.002130726

0.285714286

杨宪益、戴乃迭版

gpt_1

0.116333694

0.666666667

David Hawkes & John Minford

deepseek_1

0.030261889

0.25

杨宪益、戴乃迭版

deepseek_1

0.223606798

0.5

“内侄”指妻子兄弟的儿子,与“外侄”有严格的区分,而西方亲属称谓中仅用“nephew”泛称侄子,无直接对应的文化概念。量化数据表明,表5显示,BLEU值趋近于0,但功能性流畅度达到基本要求,可见自动评估指标的局限性。

gpt_0翻译为“Nephew (from one’s sister)”,尝试通过注释性翻译进行归化处理,但是将妻子的兄弟误译为sister,在中文中实际对应“外甥”。这在英语语法层面流畅自然,但是精确度仍然不够。DeepSeek_0选择直译“Wife’s nephew”,和霍版类似,提及“妻系”但未能明确具体关系,具有模糊性。但是在有语境的条件下,两款模型均过度归化,gpt_1简化为“nephew”,Deepseek_1简化为“Her nephew”,完全丢失“妻系”的文化特征。可见语境补充可能强化了模型对流畅性的追求,却使其为符合目标语表达习惯而牺牲文化特异性,导致翻译文化适应性降低,生成式AI在平衡文化忠实与语言流畅方面的内在困境。

4.4. 宗教文化负载词

宗教文化负载词指与人类精神信仰相关的文化体系下的文化词,它们往往根植于特定的宗教教义、历史传统和信仰体系,具有高度的文化特异性。许多词汇的含义无法直接对应到其他语言或文化中,会导致翻译或分类时出现语义丢失或扭曲。其BLEU均值为0.2532,F1均值为0.4337,在所有文化类别中均为最低,在翻译质量和分类准确性上面临更大挑战。

案例六:轮回

“轮回”贯穿《红楼梦》的神话结构与人物命运,蕴含循环往复、业力牵引与“众生皆苦”的哲学内涵,其在不同模型与参考翻译测试下的数据如表6所示。霍版译为“reincarnation”,是西方大众熟知的“转世”概念;杨版译“transmigration”,属于佛教学术术语,阅读门槛较高,文化适应性较弱。

无语境情况下,gpt_0译为“reincarnation”,有语境优化为“karma and reincarnation”,补充“业力”这一术语,提高了翻译的忠实度。Deepseek_0译“Cycle of rebirth”着重强调了循环的特征,属于解释性译法,但是灵活性稍弱,有语境修正后对齐杨宪益的异化策略,但受众局限于宗教研究者或深度读者。生成式AI在处理宗教哲学体系的词汇时,虽能依据训练数据做出策略选择,却难以平衡文化普及需要与哲学内涵。

Table 6. BLEU and F1 scores of “Lun Hui” across different translation models

6. “轮回”不同模型与参考翻译BLEU值、F1值

参照翻译

测试翻译

BLEU

F1

David Hawkes & John Minford

gpt_0

0.316227766

1

杨宪益、戴乃迭版

gpt_0

0

0

David Hawkes & John Minford

deepseek_0

0

0

杨宪益、戴乃迭版

deepseek_0

0

0

David Hawkes & John Minford

gpt_1

0.129099445

0.5

杨宪益、戴乃迭版

gpt_1

0

0

David Hawkes & John Minford

deepseek_1

0

0

杨宪益、戴乃迭版

deepseek_1

0.316227766

1

4.5. 语言文化负载词

语言文化负载词指依托语言系统本身形成的文化形态,涵盖语言的结构规则、表达习惯、文学作品及语言符号承载的文化内涵的文化词。其BLEU均值为0.2622、F1均值为0.4129,受到文化隐喻的不可通约性和逻辑差异的影响,翻译质量面临显著挑战。

案例:天下老鸹一般黑

“天下老鸹一般黑”是汉语的典型俗语,具有隐喻性、口语化、文化专属的特点。在翻译处理上,霍版译本归化译为“All crows under heaven are black equally”,杨版译本异化直译为“all crows are black”。Deepseek_0完全对齐霍克斯归化意译,表层语义忠实度更优,Deepseek_1译为“All crows under heaven are black”,二者与霍克斯版BLEU匹配度较高,但“under heaven”属于文言化表达,在一定程度上影响了流畅性。同时所有译本仍然局限于字面义的对应,没有通过解释性翻译补充丢失的隐喻内涵,反映出语言文化负载词中独特修辞意象在跨语际转换中的普遍流失。

案例:顶缸

“顶缸”是汉语惯用语,指“替人受过”,在《红楼梦》中形象地反映了传统社会中的责任转嫁现象,属于文化空缺词。霍译本归化意译为“scapegoat”,借用西方文化中广为人知的“替罪羊”意象,成功实现了文化概念的转换,而杨译本异化直译为“take the blame”。

gpt_0、gpt_1和deepseek_0均译为“take the blame”,作为英语通用表达,流畅性更优,准确传达表层语义;而deepseek_0翻译为“Bear the blame for others”因补充“for others”流畅性略逊。但所有生成式AI均未采用霍译本“scapegoat”,导致目标语读者无法直观理解该词的隐喻内涵,文化适应性较弱。

5. 生成式AI文化负载词翻译偏差分析

本研究基于“有语境”条件下与参考译文匹配度较低的翻译结果,结合关联理论、原型理论和图式理论将其核心错误划分为三种类型,分别为伪关联错误、过度泛化错误和语境干扰性意译。

伪关联错误是生成式AI缺乏真正的意图识别与推理能力,导致翻译结果表面机械。Sperber & Wilson (1986)的关联理论认为人类的交际核心是寻找“最佳关联”,以最小的认知努力从话语中获得足够的语境效果[16]。然而,在翻译“内侄”时,模型因语境中出现指代王熙凤的“她”,便机械地输出“her nephew”,错误地将“内侄”与“外甥”关联。模型将目标文化词与语境中其他词汇进行基于统计共现的浅层关联,而非基于逻辑或文化知识的深度推理。在强制模型忽略冗余语境,只关注目标词汇的“显式聚焦”指令下,该词的翻译质量显著改善(BLEU值从0.002提升至0.081,F1均值从0.286提升至0.364),表明普通语境条件下的错误确实源于认知分散而非能力缺失。

Rosch (1978)的原型理论指出,范畴成员的地位并不相等,而是围绕一个“原型”展开[17]。过度泛化错误是生成式AI基于大规模训练已经建立“原型”表征,但当遇到高度文化特异性的词项时,若其内在文化图式缺失,模型会退而求其次,输出该范畴中更“原型化”、更通用的成员。例如,大模型将具有特定神话寓意的“绛珠仙草”中的“草”过度泛化为植物学上常见的“plantain”,用一个宽泛的植物原型替代了精确的文化专有项,导致文化意象的严重流失。即使在显式聚焦提示下,该误译仍未得到修正,此类错误根植于模型文化图式的结构性缺失。

图式是人脑中组织知识的认知结构,用于理解新情境[18]。人类译者拥有关于《红楼梦》社会结构、亲属关系、宗教神话的复杂文化图式。但当长语境引入时,模型无法像人类译者那样激活并调用正确的文化图式来框定词义,反而被语境中片面的、次要的信息所影响,导致翻译偏离核心文化语义,形成语境错误干扰性意译。例如,“顶缸”在提供语境后,模型可能被段落中承担责任的通用描述干扰,从而输出“take the blame”而未能译出“替罪羊”的隐喻内涵,模型虽然处理了语境,但无法将其与一个正确的、具有约束力的专属文化图式进行匹配。对此类词汇采用显式聚焦指令后,翻译质量有一定改善,但能力有限。

上述错误模式与GPT-4o和DeepSeek在文化负载词处理中呈现的系统性策略差异密切相关。结合前文《红楼梦》文化负载词的翻译表现,GPT-4o整体偏向归化策略,优先选用西方文化中熟悉的对应物,显著提升读者接受度;DeepSeek整体偏向异化策略,对同类词汇的翻译更执着于保留源语文化特性,与杨译本有更高相似性。前者作为面向全球用户的通用模型,更倾向于采用归化策略,倾向于将具有中国文化特质的概念转化为目标语读者所熟悉的表达形式,以提升译文的可接受度。而作为本土模型的DeepSeek则更偏向异化策略,力图在译文中保留源语文化的语言形式与特征。

这两种策略倾向的形成根源在于模型训练数据与设计目标的差异(cf. Bender & Friedman, 2018)。GPT-4o作为一个面向全球用户的通用模型,其训练数据极其庞杂且以英语为主导,更侧重于生成流畅、易于目标语读者理解与接受的文本,这促使它自然地倾向于归化策略。而DeepSeek作为本土模型,其训练数据中包含了更大比例的中文原生文本及以异化策略为主导的汉英翻译语料,这使其潜意识中更侧重于忠实地再现源语文化特征,因此倾向于异化策略。

6. 结语

本研究通过系统性的对比分析,揭示了生成式AI的翻译并非价值中立,其输出深受内嵌于训练数据中的文化立场与策略偏好所影响,GPT-4o倾向于归化策略,DeepSeek倾向于异化策略。研究同时发现,语境引入未必提升翻译质量,反而可能干扰文化词的精准传递,这一“语境干扰效应”在文化图式依赖性高的词项上表现尤为突出。当前模型在不同文化维度的翻译能力呈现不均衡性,在物质文化词处理上表现优异,但在社会、宗教等深层文化概念传递上仍面临挑战,主要体现在文化图式认知缺失与语境利用能力不足。

尽管BLEU和F1指标能够量化译文准确性,但未能充分反映GPT-4o和DeepSeek在语义保留、情感传递及文化再现方面的表现。未来需关注优化生成式AI处理复杂文化内涵的能力,通过改进提示工程、优化长文本理解机制等路径,提升其对文化差异的敏感度,并在语境中保持连贯性与信息完整性,从而真正推动其成为中国文学对外传播的有效中介。

参考文献

[1] Vaswani, A., et al. (2017) Attention Is All You Need. Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, 4-9 December 2017, 6000-6010.
[2] OpenAI (2023) GPT-4 Technical Report.
[3] DeepSeek (2024) DeepSeek LLM Technical Report.
[4] 冯志伟, 张灯柯. 语言模型与人工智能[J]. 外语研究, 2024, 41(1): 1-19, 112.
[5] Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S. (2021) On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 3-10 March 2021, 610-623. [Google Scholar] [CrossRef
[6] 李德凤, 王华树, 刘世界. 国家翻译技术能力与大语言模型[J]. 上海翻译(中英文), 2025(2): 18-24.
[7] 文旭, 田亚灵. ChatGPT应用于中国特色话语翻译的有效性研究[J]. 上海翻译, 2024(2): 27-34.
[8] 毛文伟, 朱海莹. 计量文体学视角下的汉日机器翻译语言特征研究——以《阿Q正传》日译本为例[J]. 日语学习与研究, 2024(6): 63-73.
[9] Deng, Y. and Sun, H. (2023) Cultural Information Transfer in Neural Machine Translation: A Systematic Evaluation of Large Language Models. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, Toronto, 9-14 July 2023, 1250-1265.
[10] Nida, E.A. (1964) Toward a Science of Translating. Brill. [Google Scholar] [CrossRef
[11] Venuti, L. (1995) The Translator’s Invisibility: A History of Translation. Routledge.
[12] Fisher, R.A. (1936) Statistical Methods for Research Workers. 6th Edition, Oliver and Boyd.
[13] Papineni, K., Roukos, S., Ward, T. and Zhu, W. (2001) BLEU. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics-ACL‘02, Philadelphia, 7-12 July 2002, 311-318. [Google Scholar] [CrossRef
[14] 许国璋. 文化负载词与英语语言教学[J]. 现代外语, 1980(4): 21-27.
[15] Hartmann, R.R.K. and James, G. (2000) Dictionary of Lexicography. Routledge, 3.
[16] Sperber, D. and Wilson, D. (1986) Relevance: Communication and Cognition. Blackwell.
[17] Rosch, E. (2024) Principles of Categorization. In: Rosch, E. and Lloyd, B.B., Eds., Cognition and Categorization, Routledge, 27-48. [Google Scholar] [CrossRef
[18] Rumelhart, D.E. (2017) Schemata: The Building Blocks of Cognition. In: Spiro, R.J., Bruce, B.C. and Brewer, W.F., Eds., Theoretical Issues in Reading Comprehension, Routledge, 33-58. [Google Scholar] [CrossRef