基于跨注意力机制特征融合的多模态情绪识别

doi:10.12677/jisp.2025.142016

期刊菜单

基于跨注意力机制特征融合的多模态情绪识别
Multimodal Emotion Recognition Based on Feature Fusion with Cross-Attention Mechanism

DOI: 10.12677/jisp.2025.142016, PDF, HTML, XML,
作者: 吴铎：北方工业大学电气与控制工程学院，北京
关键词: 情绪识别；卷积神经网络；Transformer；Emotion Recognition； Convolutional Neural Network； Transformer

摘要: 情绪是人类与环境互动中产生的一种心理状态，它会影响认知、社交互动和幸福感。本研究使用了IEMOCAP数据库，聚焦于现实生活中的情绪表达。经过对音频、文本、视频数据的预处理，提取了语音、文本、和面部表情等特征，并进行了时间对齐和位置编码。随后，利用Transformer的交叉注意力机制将这些特征融合，以捕捉时间序列的变化并识别四种情绪类别。仿真结果验证了该模型的高效性，并且与其他基于IEMOCAP的模型相比，展示了更优的识别精度。

Abstract: Emotions are a psychological state that emerges from the interaction between humans and the environment, which can influence cognition, social interaction, and well-being. This study utilizes the IEMOCAP database, focusing on real-life emotional expressions. After pre-processing the audio, text, and video data, features such as speech, text, and facial expressions are extracted, and time alignment and position encoding are carried out. Subsequently, the cross-attention mechanism of Transformer is employed to fuse these features to capture the changes in the time series and identify four emotion categories. The simulation results verify the high efficiency of this model, and it demonstrates superior recognition accuracy compared with other models based on IEMOCAP.

文章引用：吴铎. 基于跨注意力机制特征融合的多模态情绪识别[J]. 图像与信号处理, 2025, 14(2): 162-172. https://doi.org/10.12677/jisp.2025.142016

1. 介绍

在单模态的情绪识别领域中，卷积神经网络(CNN)在其中发挥着主导作用。通过采集和处理面部图像，提取出具有辨识度的特征，然后利用CNN算法进行情绪识别。一项研究[1]利用微软Kinect设备创建了三维面部模型。另一项研究[2]提出了基于区域的权重方法，以实现更为细致的面部情绪识别，针对遮挡和不利视角等挑战提供了有效的解决方案，实验结果表明，在RAF-DB数据集上达到了约80.54%的准确率。进一步推动该领域发展的研究[3]提出了SCN方法，这是一种自我修正机制，用于解决标记错误样本的重要性问题，即使在10%的噪声数据下，仍能保持约70.26%的准确率。随后，cheng [4]提出的精细化Forcal Loss模型旨在提升面部情绪检测，达到了在FER2013数据集上的72.49%准确率。进一步推动该领域发展的还有PENG LJ [5]提出的CNN-LSTM框架，该框架通过双重CNN层处理清洗后的图像进行特征挖掘，并将这些特征与LSTM层融合，在CK + 数据集上实现了79.67%的成功率。虽然单模态情绪的识别取得了一定成果，但是却忽视了情绪信号在不同情境下的复杂性，仍然具有一定的局限性。为了解决这一挑战，本文提出了一种基于Transformer的多模态情绪特征融合网络，结合了卷积神经网络。通过使用IEMOCAP数据集，该模型在面部情绪识别中达到了约90.68%的准确率。

2. 相关工作

2.1. 模型总体架构

将数据库中的情绪数据提取音频特征、文本特征、头部姿势特征和面部表情特征，进行交叉注意力机制进行融合，并通过softmax层进行情绪分类，多模态情绪识别架构见图1。

2.2. 表情特征提取

1. 预处理。首先，使用Topaz Video Enhance AI [6]将帧速率调整为每秒13帧。然后，使用Open CV中的Haar级联分类器进行人脸检测，并以鼻尖为中心，将视频中的人脸部分裁剪为224 × 224的大小。

2. 获取人脸边界框和人脸特征位置。利用MTCNN [7]网络和Open Face 2.0工具，从视频中的图像中提取面部特征。通过以下步骤处理来自IEMOCAP数据库的数据输入，以执行所需的特征提取和处理。MTCNN神经网络架构图见图2。

3. 面部情绪特征提取。在获得对齐的面部图像后，本文使用Open Face 2.0工具从面部中提取情绪特征。提取的特征包括68个面部特征点、17个面部动作单位、头部姿势、凝视估计和HOG (定向梯度直方图)特征。这些功能在情绪识别任务中起着重要作用。Openface2.0处理过程见图3。

Figure 1. Architecture diagram of multimodal emotion recognition

图1. 多模态情绪识别架构图

Figure 2. MTCNN neural network architecture diagram

图2. MTCNN神经网络架构图

2.3. 音频特征提取

1. 音频信号预处理工作中，语音信号的处理始于采样和量化。采样过程是按照指定间隔获取语音信号的幅度值，以此实现信号的数字化，常见的采样频率有11.25 kHz、22.05 kHz和44.1 kHz。采样完成后，语音信号会被量化成离散值。为便于后续处理，会对语音信号进行分割操作，将其拆分为多个部分，

Figure 3. Openface2.0 processing procedure

图3. Openface2.0处理过程

每个部分代表一个稳定状态，这样语音信号就转变为一系列帧。在处理这些帧时，会同步进行窗口化操作，即把窗口函数应用到处理流程里。此过程涉及一个遍历语音信号的移动窗口，该信号乘以窗口函数[8]。汉明窗口、矩形窗口和海宁窗口是应用较为广泛的窗口函数。考虑到汉明窗旁瓣低，且在频域具有出色性能，对于包含周期性信号和噪声的处理场景有独特优势，因此本文采用汉明窗开展相关处理工作。计算公式为：

$W (n) = {\begin{array}{l} 0.5 - 0.46 \cos (\frac{2 π n}{L - 1}), 0 \leq n \leq (L - 1) \\ 0, others \end{array}$ (1)

2. 语音情绪特征提取。梅尔倒谱系数特征(MFCC)是语音领域应用最为广泛的特征之一。其原理的设计灵感源自人类听觉系统的工作模式。人耳对不同频率声音的响应呈现出非线性特点，而MFCC能够精准捕捉这种非线性关系，并且不受语音信号具体属性的制约，这使其在语音特征提取工作中占据重要地位。

在对语音信号完成加窗分帧的预处理操作后，会运用傅里叶变换将其转换到频率域。接着，使用三角带通滤波器组对频率域信号进行滤波处理，并计算滤波器组输出的对数能量。最后，借助离散余弦变换(DCT)来计算梅尔倒谱系数。具体而言，该计算过程先通过Mel滤波器把线性光谱转变为具有非线性特征的Mel光谱，再将其进一步转化为倒谱表示形式，进而从中提取出梅尔倒谱系数。Mel尺度和频率之间存在如下关系：

$Mel (f) = 1125 In (1 + f / 700)$ (2)

其中，f代表频率。在本文中，我们借助OpenSMILE工具包来提取音频特征。OpenSMILE可通过命令行运行，通过配置config文件就能完成特征提取工作。在特征选择方面，我们采用了INTERSPEECH2009基准，最终提取出384维声学特征，所使用的配置文件是emo_IS09.conf。这些提取的特征丰富多样，涵盖了PCM响度、Voicing概率、线谱对频率、周期差(DDP)、短时能量、短时平均幅度、短时过零率、基音周期与频率，以及梅尔倒谱系数(MFCC)等。

2.4. 文本特征提取

本文使用BERT [9]提取文本特征，BERT全称为“Bidirectional Encoder Representations from Transformers”(双向编码转换器)是一种自编码语言模型。与其他神经网络相比，BERT能够同时进行双向处理，提取句子中单词之间的关系特征，并且可以从多个层次上捕捉这些关系，从而更全面地反映句子的语义。BERT结构见图4。

Figure 4. BERT structure

图4. BERT结构

1. 文本嵌入。E1，E2，E3，En代表输入文本的嵌入(Embeddings)。这些嵌入包括词嵌入、段嵌入和位置嵌入，用于将输入文本转换为模型可处理的向量形式。

2. Transformer 编码。图里的多个Transformer层构成了BERT的核心架构。在BERT中，每个Transformer层借助Self-Attention机制和前馈神经网络对输入信息进行编码处理。Self-Attention机制的作用十分关键，它让每个token在编码过程中，能够兼顾整个输入序列里的所有token，进而有效捕捉上下文信息。值得一提的是，BERT具有双向性。这就意味着，在BERT模型里，每个token的表示并非仅仅取决于它前面的token，其后面的token同样会对其产生影响。凭借这种双向的特性，模型可以更全面、深入地理解语义信息。

3. 特征提取。经过多层Transformer编码后，每个token都会生成一个高度上下文相关的表示。对于文本分类任务BERT使用第一个token即[CLS]标记的最终表示作为整个文本的聚合特征。这个表示包含了整个输入序列的上下文信息，用于融合任务。

3. 多模态特征融合

在情绪识别任务中，卷积神经网络(CNN)存在一定局限。CNN主要依靠局部感受野和卷积操作来提取特征，这种特性使其在捕捉长距离依赖关系时能力有限。由于情绪往往与上下文紧密相连，而CNN可能会忽视长序列中的情绪信息，进而造成远距离信息关联性的丢失。为解决上诉问题，本文设计了一个模态之间基于跨注意力机制融合神经网络(Inter modal cross attention feature fusion, IMCA)。该网络能够并行处理数据并进行全局特征交互，有效补充模态间的数据特征。

3.1. 跨注意力机制

在多模态融合领域，跨注意力机制[10]是实现不同模态信息高效整合的有效手段，它依靠动态交互达成这一目标。其关键在于借助注意力权重，使一个模态(Query)能够精准关注另一模态(Key和Value)中与之关联度最高的部分。具体操作流程如下：首先，对不同模态的特征分别实施线性变换，将其映射为Q、K和V。这里，Q源于主模态m，而K和V则来自辅助模态n。接着，计算Q和K之间的相似度得分。之后，经过残差连接和归一化操作，生成注意力权重。最后，利用这些权重对V进行加权求和，完成不同模态的融合。跨注意力机制融合原理见图5。

Figure 5. Schematic diagram of cross-attention mechanism fusion

图5. 跨注意力机制融合原理图

3.2. IMCA网络模型

IMCA网络架构图如图6所示。 $X_{n}^{0}$ ， $X_{m}^{0}$ 分别代表两种模态通过传统方法提取的低阶特征，其中 $X_{m}^{0}$ 是主模态的特征信息， $X_{n}^{0}$ 是辅助模态的特征信息。 $X_{n \to m}^{i - 1}$ 计算方法为：

$X_{n \to m}^{i - 1} = LayerNorm (X_{m}^{i - 1})$ (3)

其中 $X_{m}^{i - 1}$ 代表通过i − 1层多头注意力网络进行模态间特征交互后的特征数据。再将 $X_{n \to m}^{i - 1}$ 和 $X_{n}^{0}$ 输入多头注意力网络进行全局特征的交互并进行残差计算，计算方法为：

$W e i g h t = softmax (\frac{W_{Q m} X_{n \to m}^{i - 1} \cdot W_{K_{γ}} {[X_{m}^{0}]}^{T}}{\sqrt{d_{k}}})$ (4)

$W_{Q_{m}} \in R_{d_{m} \times d_{K}}$ $W_{K_{n}} \in R_{d_{n} \times d_{k}}$ $W_{V_{n}} \in R_{d_{n} \times d_{s}}$ 代表不同张量的权重矩阵，具体的 $d_{m}$ $d_{n}$ $d_{k}$ $d_{s}$ 分别为样本维度常量。接下来通过：

Figure 6. IMCA Network architecture diagram

图6. IMCA网络架构图

$C M_{n \to m}^{i} (X_{n \to m}^{i - 1}, Z_{m}^{0}) = W e i g h t \cdot W_{V_{n}} {[X_{m}^{0}]}^{T}$ (5)

$X_{n \to m}^{i} = X_{n \to m}^{i - 1} + C M_{n \to m}^{i} (X_{n \to m}^{i - 1}, X_{m}^{0})$ (6)

$C M_{n \to m}^{i} (X_{n \to m}^{i - 1}, Z_{n}^{0})$ 代表使用辅助模态的低级特征数据 $C M_{n \to m}^{i} (X_{n \to m}^{i - 1}, Z_{n}^{0})$ 与经过i − 1层多头注意力网络单元后输出的目标模态特征数据 $X_{n \to m}^{i - 1}$ 进行全局特征交互后的特征数据。最后对残差相加后的特征数据进行归一化，输入前馈神经网络并进行残差计算，计算方法为：

$X_{n \to m}^{i} = {ReLU}_{n \to m}^{i} (LayerNorm (X_{n \to m}^{i})) + X_{n \to m}^{i}$ (7)

${ReLU}_{n \to m}^{i}$ 代表将第i轮n和m模态特征交互后进行层归一化的结果，再将结果输入前馈神经网络。最终经过i层跨模态注意力网络的特征交互，得到以m模态为目标模态，n模态为辅助模态，通过跨模态注意力网络进行全局特征交互的特征数据 $X_{n \to m}^{i}$ 。

IMCA网络作用是在多模态情感识别任务中能够将各个模态特征数据两两组合输入，通过模态间特征数据的全局交互，以实现辅助模态对目标模态情绪特征的补充，丰富目标模态的情绪信息。

4. 实验与结果分析

4.1. 数据集介绍

EMOCAP (Interactive Emotional Dyadic Motion Capture Database)数据库[11]是一个专门服务于情感识别以及多模态情感分析的多模态数据库，它由南加州大学的语音分析与解释实验室构建而成。该数据集涵盖了4453个主观情感片段，在处理音频数据和视频数据时，分别采用了12.5 Hz和15 Hz的采样频率。对于文本数据，则是通过对对话内容进行转录而得到。同时，数据集还提供了涉及对话内容、语调、音量以及语速等方面的元数据。这些元数据能够为深入研究声音和面部表情所蕴含的语义情感以及语言特征提供助力。在本次实验中，重点聚焦于快乐、愤怒、悲伤和中性这四种情绪。每种情绪类别的数量详见表1。

Table 1. The number of samples for each emotion category in the dataset

表1. 数据集中每个情感类别的样本数量

Happy	Anger	Neutral	Sad	Total
1336	807	1408	802	4453

4.2. 评价标准

在情绪识别分类的相关任务里，为了衡量分类模型的性能表现，人们经常会借助准确率、精确率、召回率以及F1分数这些指标。而混淆矩阵则是一个实用的工具，它能把模型的识别结果以直观的形式呈现出来，方便我们进行观察和分析。具体到情绪识别任务中，各类样本有着明确的定义。TP (True Positive)即真正例，它代表的是那些被模型准确预测为正类的样本；TN (True Negative)也就是真负例，指的是被模型正确判断为负类的样本；FP (False Positive)为假正例，意味着模型出现了判断失误，将本不属于正类的样本错误地预测成了正类；FN (False Negative)是假负例，表明模型把实际上应该属于正类的样本错误地归为了负类。至于准确率、精确率、召回率和F1分数，它们都有各自特定的计算方式，下面将分别展开介绍：

$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$ (8)

$Precision = \frac{TP}{TP + FP}$ (9)

$Recall = \frac{TP}{TP + FN}$ (10)

$F 1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}$ (11)

4.3. 评价标准基于Transformer网络的情感识别实验研究与分析

在本次针对多模态情绪识别的研究中，采用基于IMCA网络的模型展开实验。实验过程中，运用多模态数据，涵盖了视觉、听觉以及文本等多维度信息，以全面且精准地捕捉情绪特征。经过一系列严格的实验流程与数据分析后，实验结果的混淆矩阵如下图所示。该混淆矩阵直观地展示了模型在不同情绪类别分类过程中的表现，为后续深入剖析模型的性能以及改进方向提供了关键依据。混淆矩阵图见图7。

Figure 7. Multimodal fusion confusion matrix

图7. 多模态融合混淆矩阵

4.4. 消融实验

在多模态融合中，每种模态都有不同的作用。消融研究可以评估它们各自的贡献。由于文本模态在该模型中占主导地位，我们将分别去除表情模态和音频模态，以分析它们的影响，并将性能与全模态模型进行比较，从而评估它们对情感识别的重要性。消融实验的混淆矩阵见图8和图9所示。

Figure 8. Confusion matrix of text + audio

图8. 文本 + 音频混淆矩阵

Figure 9. Confusion matrix of text + video

图9. 文本 + 视频混淆矩阵

4.5. 评价标准基于Transformer网络的情感识别实验研究与分析

不同模态的实验效果如表2所示。与其他使用了IEMOCAP数据集的模型实验效果的对比见表3。

Table 2. Results of ablation experiment

表2. 消融实验结果

Modal	Accuracy	Precision	Recall	F1	MAP
T + V + A	0.906	0.812	0.923	0.865	0.906
T + A	0.808	0.710	0.865	0.780	0.808
T + V	0.831	0.743	0.877	0.805	0.831

Table 3. Comparison with other models using the same IEMOCAP dataset

表3. 使用相同IEMOCAP数据集的其他模型的对比

Model	Happy	Neutral	Angry	Sad	Acc	F1
EF-LSTM [12]	86.0	67.8	85.2	80.2	79.8	79.1
LF-LSTM [13]	85.1	67.1	84.7	78.9	79.0	79.7
RMFN [14]	87.5	69.5	85.1	83.8	81.5	80.6
RAVEN [15]	87.3	69.7	87.3	83.4	81.9	81.2
MCTN [16]	84.9	62.3	79.7	80.5	76.9	75.0
M3ER [17]	81.6	74.4	86.8	88.1	82.7	82.4
IMCA	86.5	75.4	83.2	85.2	90.6	86.5

通过一系列严谨且全面的实验分析可知，在情绪识别实验中，运用多模态基于跨注意力的融合方法，相较于单模态数据处理方式、特征级融合策略以及决策级融合技术，展现出极为显著的优势。具体而言，多模态基于跨注意力的融合方法能够更有效地捕捉和整合不同模态数据间的互补信息，在识别准确率、F1等关键性能指标上，均大幅超越其他网络模型，有力地证明了该方法在提升模型性能方面的卓越效能。

5. 总结

本研究对比了基于跨注意力机制的模态件融合神经网络与其他四种深度学习模型在IEMOCAP数据集上的情绪识别性能。结果表明，IMCA模型取得了更高的准确率。后期更换其他模态当作主模态进行融合可对该数据库中视频数据进行分类，多模态融合对识别率的可能会有进一步的提高。

参考文献

[1]	Yu, C.L., Shi, Z.Y. and Xie, Y.H. (2021) Sentiment Analysis and Stock Price Prediction System Based on Natural Language Processing. Systems Engineering, 39, 114-123.
[2]	Zhu, H., Mei, Y., Wei, J. and Shen, C. (2020) Prediction of Online Topics’ Popularity Patterns. Journal of Information Science, 48, 141-151. https://doi.org/10.1177/0165551520961026
[3]	Yang, Y. (2017) Research and Realization of Internet Public Opinion Analysis Based on Improved TF-IDF Algorithm. 2017 16th International Symposium on Distributed Computing and Applications to Business, Engineering and Science (DCABES), Anyang, 13-16 October 2017, 80-83. https://doi.org/10.1109/dcabes.2017.24
[4]	Cheng, T.S. and Quan, H. (2022) Analysis of the Causes of Coal Mine Gas Accidents Based on Text Mining. Coal Mine Safety, 53, 241-245.
[5]	Peng, L.J., Shao, X.G. and Huang, W.M. (2021) Research on the Early-Warning Model of Network Public Opinion of Major Emergencies. IEEE Access, 9, 44162-44172. https://doi.org/10.1109/ACCESS.2021.3066242
[6]	Aravind, R., Ashwin, G. and Srinivasan, N. (2024) AI Enhanced Video Sequence Description Generator. 2024 International Conference on Advances in Data Engineering and Intelligent Computing Systems (ADICS), Chennai, 18-19 April 2024, 1-6. https://doi.org/10.1109/ADICS58448.2024.10533487
[7]	Xiang, J. and Zhu, G. (2017) Joint Face Detection and Facial Expression Recognition with MTCNN. 2017 4th International Conference on Information Science and Control Engineering (ICISCE), Changsha, 21-23 July 2017, 424-427. https://doi.org/10.1109/icisce.2017.95
[8]	Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. and Polosukhin, I. (2017) Attention Is All You Need. arXiv: 1706.03762.
[9]	Zhang, Y., Li, X., Rong, L. and Tiwari, P. (2021) Multi-Task Learning for Jointly Detecting Depression and Emotion. 2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), Houston, 9-12 December 2021, 3142-3149. https://doi.org/10.1109/bibm52615.2021.9669546
[10]	Huang, Z., Wang, X., Huang, L., Huang, C., Wei, Y. and Liu, W. (2019) CCNet: Criss-Cross Attention for Semantic Segmentation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 603-612. https://doi.org/10.1109/iccv.2019.00069
[11]	Busso, C., Bulut, M., Lee, C., Kazemzadeh, A., Mower, E., Kim, S., et al. (2008) IEMOCAP: Interactive Emotional Dyadic Motion Capture Database. Language Resources and Evaluation, 42, 335-359. https://doi.org/10.1007/s10579-008-9076-6
[12]	Tsai, Y.H., Bai, S., Liang, P.P., Kolter, J.Z., Morency, L. and Salakhutdinov, R. (2019) Multimodal Transformer for Unaligned Multimodal Language Sequences. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, 28 July-2 August 2019, 6558-6569. https://doi.org/10.18653/v1/p19-1656
[13]	Poria, S., Cambria, E., Hazarika, D., Majumder, N., Zadeh, A. and Morency, L. (2017) Context-Dependent Sentiment Analysis in User-Generated Videos. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Vancouver, 30 July-4 August 2017, 873-883. https://doi.org/10.18653/v1/p17-1081
[14]	Liang, P.P., Liu, Z., Bagher Zadeh, A. and Morency, L. (2018) Multimodal Language Analysis with Recurrent Multistage Fusion. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, 31 October-4 November 2018, 150-161. https://doi.org/10.18653/v1/d18-1014
[15]	Wang, Y., Shen, Y., Liu, Z., Liang, P.P., Zadeh, A. and Morency, L. (2019) Words Can Shift: Dynamically Adjusting Word Representations Using Nonverbal Behaviors. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 7216-7223. https://doi.org/10.1609/aaai.v33i01.33017216
[16]	Pham, H., Liang, P.P., Manzini, T., Morency, L. and Póczos, B. (2019) Found in Translation: Learning Robust Joint Representations by Cyclic Translations between Modalities. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 6892-6899. https://doi.org/10.1609/aaai.v33i01.33016892
[17]	Mittal, T., Bhattacharya, U., Chandra, R., Bera, A. and Manocha, D. (2020) M3ER: Multiplicative Multimodal Emotion Recognition Using Facial, Textual, and Speech Cues. Proceedings of the AAAI Conference on Artificial Intelligence, 34, 1359-1367. https://doi.org/10.1609/aaai.v34i02.5492

友情链接