1. 引言
生成式人工智能(Generative Artificial Intelligence, GenAI)的崛起正在重塑语言服务业。以ChatGPT、Gemini、Deepseek等为代表的预训练大模型在跨语言翻译等领域取得突破性进展,显著提升了翻译效率与自动化水平。在新闻、科技、商务等领域的跨语言信息传递中,大语言模型已成为重要的辅助甚至主导翻译工具。由于该类模型在性能方面呈现指数级发展,翻译工作流程也面临着重构。使人机协同迈入人智协同的新阶段。 在这场技术驱动的变革中,翻译模式正从机器翻译译后编辑(Machine Translation Post-Editing, MTPE)转向人工智能译后编辑(Artificial Intelligence Post-Editing, AIPE) [1]。
然而,大语言模型(LLMs)仍存在较多短板。首先,LLMs在译文生成方面仍聚焦于词汇准确性、语法规范性、句法流畅性等表层语言特征,却无法分析跨文化交际行为中不可或缺的情感维度[2]。原文中所蕴含的情感倾向、情感强度及情感色彩,是作者意图与文本感染力的核心组成部分,情感传递的忠实度直接影响信息的完整接收与读者的心理共鸣。且LLMs的“黑箱”特性导致其生成的文本存在不可预测性,不可控程度仍偏高。因此,本研究提出基于LSTM模型与双语情感词典对机器译文进行情感一致性分析,优化目前质量评估框架忽略情感分析的短板。
2. 相关研究
2.1. 机器学习
早期的情感分类会通过手工设计的方法进行,比如通过计算词频、制作情感词汇表等,并从文本数据中提取特征并进行分类。后来随着计算机的发展,利用机器学习进行情感分类逐渐占据了学科的主导地位。传统的机器学习常运用支持向量机、朴素贝叶斯、决策树等进行情感分类。
机器学习的发展为情感分类带来了更多维度的分析。“然而,基于机器学习的传统方法有许多不足之处,在处理长文本和复杂语境时面临巨大挑战。传统方法高度依赖人工设计,需要人工进行特征工程、模型选择和参数调整等。这些步骤不仅需要人工付出大量的时间和精力,而且结果可能受到人为因素的影响。传统方法通常无法捕捉到文本的语义信息,它们主要依赖于浅层的特征表示”[3]。
2.2. 深度学习
深度学习即可以从大量的数据中提取文本特征并进行分类。这一方法为当今最普遍的方法,节省了许多时间。深度学习中,常用卷积神经网络(Convolutional Neural Network, CNN) 和循环神经网络(Recurrent Neural Network, RNN)来进行情感分析。
2.2.1. CNN
CNN (Convolutional Neural Network)即卷积神经网络,常用于图像识别任务。CNN的结构组成依次为输入层(Input)、卷积层(CONV,包括激活操作)、池化层(POOL)、全连接层(FC)和输出层(OUTPUT)。CNN处理使用卷积操作来提取图像中的局部特征。池化层则用于降低特征图的维度,保留关键特征并减少参数数量和计算量。常见的CNN算法有LetNet5、VGG16、AlexNet、GoogleNet。
2.2.2. RNN
循环神经网络是将文本数据以序列的形式进行输入,网络中的相关节点也是以链式连接的递归神经网络进行排列[4]。RNN主要用于图像处理、音频识别、文本相似度计算、机器翻译等。相较于CNN,其结构比较简单,依次为:Input layer、Hidden Layer、Output layer。本文将用到的LSTM属于RNN的一种。
2.2.3. Transformer
该模型摒弃了前两种结构,提出自注意力机制(Self-Attention)处理序列关系,通过多头注意力(Multi-Head Attention)和位置编码(Positional Encoding)实现了对序列的高效并行计算和全局依赖建模。该模型也是目前生成式大模型的核心架构[5]。
虽然Transformer架构发展迅速并在多项NLP任务中取得了领先性能,但其固有的“黑箱”特性仍然是无法根本解决的问题。Transformer模型内部复杂的多头注意力机制与海量参数的非线性交互,导致模型的决策过程高度不透明且难以解释[6]。且大语言模型在处理微妙情感表达、文化特定情感色彩以及复杂情感变化时,容易出现情感弱化、偏移甚至误判的现象。
相比之下,长短期记忆网络(LSTM)虽然在并行计算和全局建模能力上不及Transformer,但其在情感分析任务上仍具有稳定的输出。LSTM是基于RNN优化的模型,通过引入门控机制(包括输入门、遗忘门和输出门)和细胞状态(cell state),能够有效地捕捉长距离依赖关系,避免梯度消失问题[7]。LSTM在文本情感分类任务中能够达到较高的准确率。
情感分析(Sentiment Analysis),亦称意见挖掘(Opinion Mining),是自然语言处理(NLP)的核心子领域之一,旨在通过计算,识别、提取、量化和研究文本中所表达的主观性信息、情感状态、观点、评价、态度和情绪。情感分析试图让机器理解超越客观事实的、带有个人色彩的态度、情绪和评价[8]。情感分析对智能系统的输出质量具有重要作用,任何追求自然、友好、个性化的智能系统(如智能客服、虚拟伴侣、教育助手)都必须具备理解和回应人类情感的能力。情感分析是实现情感计算和人性化人机交互的基础模块[9]。
3. 实验过程
本研究采用双路径融合分析框架,使用基于LSTM的深度学习方法与基于情感词典的规则方法,对大语言模型译文与原文的情感一致性进行多维度评估。
3.1. 数据集介绍
本研究使用的公开数据集选自以下地址:http://www.cs.cornell.edu/people/pabo/movie-review-data/,其中包含了观众对电影的正面和负面评价数据集,情感规模数据以及对作品的主观评分数据集。本研究选取了该数据集中的polarity dataset 2.0。该数据集中的正面和负面数据均为1000条。
3.2. 文本预处理
数据集中的数据已有处理好的标签,但还应对文本进行(一) 分词(包括降噪,即删除没有语义的符号数据);(二) 建立字典;(三) 将文本从词序列转化为索引序列,即编程语言可识别的数据集。
其中建立词典步骤较为复杂。建立字典即把词汇对应成数字,储存在字典中。词典构建中可以使用特殊字符填充短句并代替未来的新词汇。“数字编码:将文本单词映射为数字编码,使其能够被模型处理。为此,创建了一个词表(Vocabulary),将每个单词映射到唯一的整数。在代码中,这一过程通过构建词汇表vocab实现”[10]。建立词典的具体步骤包括句子分词;词语储存(包括词语过滤和次数统计);实现文本和数字序列的相互转换。
通过Python处理数据样本长度和出现频率间的关系,得到以下可视化关系图(见图1)。
Figure 1. Sample length distribution diagram
图1. 样本长度分布图
由上图可知,本数据集的绝大多数文本长度均在1000以下。
3.3. 基于LSTM情感分类
LSTM单元包含记忆细胞、输入门、输出门和遗忘门,这些门机制帮助模型在训练过程中选择性地保存和丢弃信息。LSTM模型通过一个或多个LSTM层来处理输入数据。在构建模型时,我们可以加入一个或多个LSTM层,并在其后添加全连接层,以输出最终的情感分类结果。
训练LSTM模型需要选择合适的超参数,如学习率、批次大小、训练轮数等。我们可以使用交叉验证来调整这些参数,以获得最佳的模型性能。在训练过程中,损失函数(如交叉熵损失)和优化器(如Adam或RMSprop)被用来最小化训练误差。训练完模型后,我们需要使用测试集对模型进行评估,通过准确率、精确率、召回率和F1分数等指标来衡量模型的性能。
为了进一步提升模型的准确性,我们可以引入其他技术,如注意力机制、双向LSTM层,甚至结合卷积神经网络(CNN)以捕捉更复杂的特征。此外,通过增加数据集的多样性,或利用数据增强技术,可以增强模型的泛化能力。
3.4. 模型准确率反思
3.4.1. 模型参数
update_w2v = True # 是否在训练中更新w2v
vocab_size = 54848 # 词汇量,与word2id中的词汇量一致
n_class = 2 # 分类数:分别为pos和neg
embedding_dim = 50 # 词向量维度
batch_size = 64 # 批处理尺寸
hidden_dim = 128 # 隐藏层节点数
n_epoch = 5 # 训练迭代周期,即遍历整个训练样本的次数
lr = 0.0001 # 学习率;若opt=‘adadelta',则不需要定义学习率
drop_keep_prob = 0.2 # dropout层,参数keep的比例
num_layers = 2 # LSTM层数
bidirectional = True # 是否使用双向LSTM
list1=[64.789,76.355,79.304,77.545,80.760]#lr=0.0001
list2=[70.812,79.179,80.263,81.595,83.123]#lr=0.0002
3.4.2. 实验结果(见图2)
Figure 2. Model accuracy
图2. 模型准确率
该图呈现模型准确率随训练轮数的增加而产生的变化,其中横轴表示训练轮数,纵轴表示准确率。每轮所得准确率为:[64.789, 76.355, 79.304, 77.545, 80.760]。当完成4轮训练后,模型准确率已处于较高水平。
3.5. 情感词典的构建
为全面评估译文情感一致性,本研究构建了三层级情感词典体系,包括基础通用情感词典、领域专用情感词典以及双语对齐情感词典。基础通用情感词典中的英文部分是基于NLTK的VADER词典,包含7500+情感词,支持强度分级,中文部分融合知网Hownet词典和清华大学中文情感词典,覆盖8000+情感词。领域专用情感词典包括从IMDb、豆瓣等平台收集影评特色情感表达建立电影评价专用词库。双语对齐情感词典为人工创建的中英情感词对照表,确保跨语言情感分析的准确性。
完成对双路径分析框架的搭建后,本研究选取了一篇来自《北京周报》关于中国电影出海的评论型报道,并使用ChatGPT-5获取大模型译文。随后将原文与译文输入代码块并得出以下结果(见表1)。
Table 1. Sentiment consistency analysis
表1. 情感一致性分析表
|
情感分类 |
综合得分 |
情感极性一致性 |
情感强度一致性 |
情感一致性得分 |
原文 |
正面 |
1.457 |
1 |
0.076 |
0.626 |
译文 |
正面 |
0.533 |
通过结果得出,虽然译文与原文保持了情感极性上的一致(都为正面),但译文在情感强度上略低于原文。
4. 案例分析
4.1. 副词程度的弱化
程度副词的主要作用是表示某种事物的性状或动作行为的程度,以加深表达的语气[11]。汉语程度副词具有强烈的主观增强功能,尤其在新闻评论语体中,程度副词承担着情感强化和立场表达的双重功能。原文为表达两部影片取得的成功,多次使用如“极高(的水平)”、“令人瞩目”、“尤为”等程度副词。而译文对于这些程度副词的翻译仅保持准确性但忽略了情感强度,如“极高(的水平)”译为especially high standards,“令人瞩目”译为remarkable,“尤为(亮眼)”译为eye-catching。这些词语虽然含有同样的赞美之意,却难以传达与原文相同的强度。因此,建议修改为(shine) with remarkable excellence, stunning, eye-popping。
4.2. 中英文句子结构差异
中文多流水句,且句与句之间无需逻辑词或结构连接,而英文则有固定的句子结构,需要显化逻辑关系。
原文“‘坚定文化自信、服务大众’的创作理念”被译为the creative principle of “strengthening cultural confidence while serving the broader public”,用“while”承担逻辑词汇,使句子更偏事实陈述,弱化了原句情感强度。因此,建议修改为“Firmly uphold cultural confidence and serve the people.”。
4.3. 特定文化概念翻译
不同文化虽有相似的表达,但描述方式却不同。原文“酒香也怕巷子深”,译文采用直译的方式译为“Even the best wine fears hidden alleys”。这种对于原文文化的直译虽然保留了中文语境,但在传达含义与情感上会造成阻碍,因此建议采用保留情感强度的解释性翻译“No matter how great it is, it won’t sell itself if no one knows about it.”。
4.4. 隐喻性表达
大语言模型将原文“新蓝海”译为“a new blue ocean”。虽然“blue ocean”已在国际上作为一个战略术语广泛使用,但并没有表达出原文所包含的“具有高潜力”的含义,因此建议修改为“ripe for growth”。
5. 结语
LSTM模型因其在处理序列数据方面的优势被广泛应用于情感分析。本文在详细的实验过程中,首先通过数据预处理、特征提取等步骤为模型的训练做好准备。通过对数据集进行分词、建立词典以及将文本转化为索引序列等处理,确保数据能够被LSTM模型有效利用。并在此基础上引入基于情感词典的计算方式,构建针对情感一致性的双路径融合框架,对原文与译文的情感一致性进行分析,为翻译质量评估增加了新的维度,使译文能更准确传达原文情感,提高跨语言交流的质量。