1. 引言
多模态情感分析(multimodal sentiment analysis, MSA)旨在通过整合来自不同模态的信息(如视觉、文本和音频)来全面分析人类情感。与基于单模态的情绪分析不同,MSA不仅利用单模态数据,还探索模态间的相互关系,其提供了更丰富,更准确的情感识别[1]。现如今,MSA已在市场决策[2]、人机交互[3]以及社交媒体[4]等领域广为涉猎。
早期的研究主要集中在单模态情感分析上,通常依赖于单一的数据源,如视觉、文本和音频,以提取情感信息[5]。然而,单模态方法在应对复杂情感表达时无法全面捕捉和理解情感的细微变化。尽管多模态数据的组合提高了情感预测的准确性[6],但模态间的异质性问题增加了多模态融合的难度。为了解决上述挑战,前人的共工作通常使用两种策略:1) 基于多模态注意力机制的MSA方法[7] [8]通过动态建模模态间各元素的相关性,实现模态间的有效交互,从而缩小非对齐多模态数据之间的鸿沟。2) 基于多模态一致性学习的MSA方法[9] [10]能够有效地弥合不同模态之间的差异,促进模态间信息的协同融合。在模态融合过程中,仅依靠跨模态交互难以充分实现模态间的信息融合。跨模态一致性学习可以有效实现跨模态对齐,减少多模态融合难度。然而,现存的跨模态一致性学习策略缺乏情绪信息的有效约束,导致多模态融合特征中的语义信息有所下降。
鉴于上述挑战,我们提出了一种基于分层距离感知对比学习(hierarchical distance-aware contrastive learning, HDACL)的多模态情感分析方法,旨在解决异质多模态数据融合过程中面临的模态非对齐问题。本文的主要贡献如下。
首先,我们提出了一种多模态交互注意力(cross-modal interaction attention, CIA)机制,以实现多模态数据间的交互和融合。CIA以文本模态为中心,充分利用文本信息的主导作用,确保各模态在情感分析中的协同工作。
其次,我们进一步设计了一种情绪距离感知对比学习(sentiment distance-aware contrastive learning, SDACL)方法,其可以在情感强度差异指导下实现多模态正负样本对的选择。这为对比学习引入了细粒度的语义信息,从而增强了对齐后特征的情感表达能力和语义一致性。
最后,我们在多模态情感分析数据集CMU-MOSI上进行实验。结果表明,相较于前人的方法,HDACL在Acc-2、F1分数、Acc-7以及平均绝对误差(mean absolute error, MAE)指标上取得了显著提升。
2. 相关工作
2.1. 单模态情感分析
早期的研究主要聚焦于单一模态的情感分析,其中构建情感词典是文本情感分析的常用方法。与图像和音频模态相比,文本模态提供了更丰富的语义层次信息。例如,Taboada等[11]构建了具有极性和强度的单词词典,名为语义取向计算器(semantic orientation calculator, SO-CAL),以捕捉文本对情绪信息的关系。吴杰胜等[12]通过添加程度副词、否定词等丰富了情感词典,提高了中文微博情感分析的准确率。随着机器学习的发展,支持向量机[13]、循环神经网络[14]以及Transformer [15]等方法通过有监督学习的策略进一步改善了基于文本情感分析的性能。基于视觉的情感分析通常通过提取面部动作单元或微表情特征,计算出能够识别出个体的情感状态[16]。例如,Li等[17]利用卷积神经网络(Convolutional Neural Network, CNN)来捕获面部表情特征,以实现情感分析。另一方面,基于音频的情感分析则通过分析语音的声学特征,如基频、语音强度、语速以及音调等,来识别情感状态。特征提取方法如梅尔频率倒谱系数(Mel-frequency cepstral coefficients, MFCC)常用于捕捉音频信号中的情感信息[18]。随着深度神经网络的引入,特别是CNN和Transformer,这些模型能够更好地处理音频中的时序信息和复杂的声学特征,进而提升情感识别的效果[19]。由于情感表达方式复杂且多样,因此单一模态往往难以充分捕捉情感信息。
2.2. 多模态情感分析
近年来,随着多模态情感分析的研究进展,学者们开始探索通过结合多种模态(如文本、音频和视觉)来提高情感识别的准确性。其中,多模态融合是提升情感识别精度的核心所在。常见的融合方法包括张量融合[20]和注意力机制融合[21] [22]。然而,由于不同模态之间存在异质性导致这些方法难以弥合模态之间的差距,进而导致多模态融合不充分。近期的研究[7] [8]也尝试引入多模态Transformer来实现跨模态交互并减少模态间的异质性问题。例如,Tsai等[7]提出了MulT,其利用定向成对跨模态注意力机制来关注不同模态之间的密集相互作用。尽管如此,这些方法缺乏跨模态一致性建模,导致信息融合不完善。此外,一些基于跨模态一致性学习的方法[9] [10],通过提高模态间的对齐程度,实现了增强了多模态的融合效果。例如,Han等[9]通过最大化模态间的互信息,来提升跨模态一致性程度,进而提升多模态联合表示的质量。然而,这些方法往往缺乏细粒度的情感信息引导,尤其是在复杂情感场景下,单纯的跨模态一致性可能无法有效捕捉情感的多维特征,导致情感分析的鲁棒性不足。因此,本文提出了基于HDACL的MSA方法,其通过具有分层跨模态一致性学习的多模态注意力机制来实现多模态信息充分交互。在多模态交互过程中,HDACL可以在情绪距离感知对比学习约束下实现多模态信息的细粒度对齐。
3. 方法
3.1. 总体框架
所提出的HDACL框架的结构图如图1所示。针对不同的输入模态,采用了不同的编码方式:文本模态使用BERT [23]作为文本编码器以提取编码特征
;而视觉和音频使用预训练工具[22]进行初步特征提取并使用Transformer以分别获得其对应的编码特征
和
。随后,音频编码特征和视觉编码特征作为非文本特征,与文本特征通过距离感知对比学习进行融合,以实现低级特征在情感信息约束下的多模态对齐。进一步地,跨模态Transformer被应用于以文本模态为中心的跨模态交互,生成两种高级跨模态特征
和
。接着,通过距离感知对比学习以实现高级特征的对齐。最后,进行多模态特征融合并通过多层感知机进行情感分析。
Figure 1. Diagram of the proposed HDACL structure
图1. 所提出的HDACL结构图
3.2. 跨模态Transformer
如图1所示,所提出的跨模态Transformer主要包括三个子网络:交叉注意力机制、自注意力机制以及前馈网络。其中,每个子网络还包括恒等映射和层归一化,其可以表示为
。我们利用主模态,即文本模态,隐式地指导模态间学习。具体来说,我们使用交叉注意力机制执行文本模态特征和非文本模态特征间的交互与融合。值得一提的是,文本模态在此配置中充当查询Qt,将其定位为目标模态,而非文本模态信息被视为键
和值
,。因此,文本模态与非文本模态的跨模态注意力机制操作可以公式化为:
(1)
其中,
表示跨模态特征,
为非文本模态特征的维度。随后,我们通过自注意力机制来对跨模态特征进一步学习,以实现序列内的全局依赖性建模,其可以表示为:
(2)
其中,
表示全局建模后的跨模态特征,
为跨模态特征的维度。最后,通过前馈网络进行非线性变换,以捕获更复杂的表示,进而获得最终的跨模态特征
,可以表示为:
(3)
其中,W1,W2,b1,以及b2表示前馈网络的权重和偏执。至此,跨模态Transformer构建完毕,其可以有效地在可变的时间步长内捕获多模态序列之间的相互作用。
3.3. 情绪距离感知对比学习
为了在对齐过程中有效利用情感强度连续变化的细粒度信息,我们设计了情绪距离感知对比学习,其包括低级层次对比和高级层次对比。首先,我们通过欧氏距离来计算不同样本间的情绪强度差异,以样本i和j为例,可以公式化为:
(4)
其中,
表示情绪强度,也是MSA任务的真实样本标签。然后,我们设置了阈值
= 0.5确定积极样本对和消极样本对。当
时,样本i和j为积极样本对;当
时,样本i和j为消极样本对;之后,我们根据情感强度差异来为不同的样本对赋予不同的权重。具体来说,我们利用使用非线性激活函数设计了权重函数,如下:
(5)
其中,
表示样本i和j的权重,
为幅值,
为温度系数。公式(5)的权重分布图如图2所示。当
时,随着距离的增大,
逐渐下降。此时,情感强度差异越大,积极对拉近的强度应该越小。当
时,随着距离的增大,
逐渐上升。此时,情感强度差异越大,消极对推远的强度应该越大。至此,情绪距离感知对比学习可以表示为:
(6)
其中,B表示批次数量,
表示样本i和j的余弦相似度,
表示指示器(如果满足x,则为1,否则为0。)对于低级层次对比,i或j用
(
的[CLS]特征),
表示;对于高级层次对比,i或j用
(
的[CLS]特征),
表示。
3.4. 融合层和预测端
Figure 2. Diagram of the weight change rule
图2. 权重变化规律图
在经历过跨模态交互和一致性学习后,我们通过拼接操作来融合[CLS]特征
和
。然后通过全连接层来实现最终情感强度分数的预测,其目标函数使用MAE,如下:
(7)
式中,y为真实情感强度标签,
为全连接层预测出来的情感标签。结合距离感知对比学习,我们的总体目标函数可以表示如下:
(8)
式中,
表示损失函数的权重系数,
和
表示低级层次对比学习,
表示高级层次对比学习。
4. 实验结果及分析
4.1. 实验配置
所有实验在python语言3.8版本和pytorch深度学习框架1.10版本下执行。此外,所有模型均在一个NVIDIA RTX 3090 GPU上进行。在训练过程中,我们使用Adamw优化器,学习率为0.001。为了避免过拟合,我们实现了一个早期停止策略,当连续8个连续epoch的MAE不下降即认为训练完毕。
4.2. 数据集和评价指标
我们使用了CMU-MOSI [24]数据集来评估HDACL的性能。CMU-MOSI数据集是评估MSA性能的最常用基准之一,它是从YouTube上的视频博客中收集而来的,包含从93个视频中分割出来的2199个视频片段。CMU-MOSI数据集的每个片段都是在[−3, 3]的范围内以正/负分别区分积极情绪和消极情绪。在实验中,我们使用了二类精度(Acc-2)、F1-Score、七类精度(Acc-7)以及MAE作为性能评价指标。
4.3. 对比实验结果分析
为了验证HDACL的有效性,我们将其与MSA任务中以前的模型,即MULT [7]、MMIM [9]、TFN [20]以及MISA [22]进行了比较。从表1中我们观察到所提出的HDACL的Acc-2、F1-Score、Acc-7以及MAE分别达到了85.8%、85.7%、46.8%以及0.71,在各个指标上的性能均优于前人的方法。这归因于以文本模态为中心的跨模态信息交互和分层情绪距离感知对比学习对异构模态数据的有效融合,能够更好地捕捉情感信息中的细微差异,并促进多模态情感分析任务中的信息传递和表达,从而提高模型的准确性。
Table 1. Comparative experimental results
表1. 对比实验结果
模型 |
Acc-2 |
F1-Score |
Acc-7 |
MAE |
MULT |
83.6 |
83.6 |
45.5 |
0.83 |
MMIM |
84.8 |
84.8 |
46.0 |
0.77 |
TFN |
84.3 |
84.4 |
45.2 |
0.81 |
MISA |
85.1 |
84.9 |
44.8 |
0.78 |
HDACL |
85.8 |
85.7 |
46.8 |
0.71 |
4.4. 特征可视化分析
如图3所示,我们通过对输入到预测端前的特征进行T-SNE可视化来分析情绪距离感知对比学习对模型性能的影响。从图3(a)中可以看出,在未应用情绪距离感知对比学习的情况下,所提取的特征在不同类别之间的判别性较差,且同一类别的特征分布较为分散,显示出较低的类内紧密度和较高的类间重叠。相比之下,图3(b)展示了在使用对比学习后,模型所提取的特征显著改善了判别性,不同类别间的特征具有明显的差异性,且各类别的特征分布更加集中。这表明情绪距离感知对比学习有效地提升了特征的判别能力,减少了类别之间的混淆,从而优化了模型的性能。
Figure 3. Feature visualization results, (a) is the method without contrastive learning, (b) is the HDACL
图3. 特征可视化结果,(a) 是未使用对比学习的方法,(b) 是所提出的HDACL
4.5. 重要超参数分析
如图4所示,我们进一步对两个重要超参数,阈值
和权重系数
的敏感性进行了分析。具体而言,我们在{0.1, 0.2, …, 0.9}的范围内探索了这两个超参数的影响。从图4(a)中可以看出,当阈值
设定为0.5时,模型的MAE最低,性能表现最佳。若阈值过小,模型难以有效拉近积极样本对之间的距离,而过大的阈值则可能导致忽视消极样本对的推远效果,进而影响模型的训练效果和性能。图4(b)显示了权重系数对模型性能的影响。我们观察到,当权重系数
设为0.3时,模型的表现最佳。若权重系数过小,无法充分实现跨模态对齐,从而影响模型的整体性能;而过大的权重系数则可能引入干扰,导致主任务预测损失的优化不充分。因此,合理选择这两个超参数对于模型性能的提升至关重要。
Figure 4. Hyperparameter sensitivity analysis results, (a) is the threshold
, (b) is the weight coefficient
图4. 超参数敏感性分析结果,(a) 是阈值
,(b) 是权重系数
5. 结论
本文提出了一种基于分层距离感知对比学习(HDACL)的MSA方法,旨在解决异构模态数据之间的交互与融合问题。通过引入跨模态注意力机制(CIA)和情绪距离感知对比学习(SDACL)策略,HDACL能够有效地增强多模态数据的一致性对齐,提升情感分析的准确性和语义一致性。实验结果表明,HDACL在CMU-MOSI数据集上的Acc-2、F1-Score、Acc-7以及MAE分别达到了85.8%、85.7%、46.8%以及0.71,相比传统方法取得了显著的性能提升。
基金项目
沈阳市科技创新智库决策咨询课题《数字经济下推进沈阳制造业工业互联网平台建设与发展对策研究》(SYZK2022ZX087),沈阳城市建设学院校级科研基金项目《基于机器视觉技术的机器人分拣系统的研究》(XKJ202306)。
NOTES
*通讯作者。