多模态融合的演进:从规则驱动到深度学习
The Evolution of Multimodal Fusion: From Rule-Based to Deep Learning
DOI: 10.12677/csa.2025.1510244, PDF, HTML, XML,   
作者: 饶嘉雯:广州软件学院软件与人工智能学院,广东 广州
关键词: 多模态融合规则驱动统计学习深度学习Multimodal Fusion Rule-Based Statistical Learning Deep Learning
摘要: 数据资源的主要形式是多模态数据,多模态融合技术能够将这些数据有效整合,利用模态间互补优势来增强模型的理解能力。本文系统性地梳理了多模态融合的演进路径,以呈现从早期探索到当前进展的完整过程。具体内容围绕着规则驱动、统计学习和深度学习三个阶段展开,阐述各阶段的核心技术原理及其不足之处。同时,该文重点综述统计学习框架下的概率图模型、多视图学习等融合方法,以及基于卷积神经网络、循环神经网络、图神经网络和Transformer等架构的深度融合技术。还对该领域未来的研究方向进行探讨,以期推动多模态融合的发展。
Abstract: The primary form of data resource is multimodal data. Multimodal fusion technology can effectively integrate the data, leveraging the complementary advantages of different modalities to improve the understanding capabilities of models. In order to present the complete process of multimodal fusion, from early exploration to current progress, this paper systematically retraces its evolutionary path. The content is centred around three stages: rule-based, statistical learning, and deep learning. It describes the core technical principles and limitations of each stage. At the same time, the study focuses on reviewing fusion methods within the statistical learning framework, such as probabilistic graphical models and multi-view learning. It also reviews deep fusion techniques based on architectures like Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), Graph Neural Networks (GNNs), and Transformers. Additionally, the paper discusses future research directions in this field with the aim of promoting multimodal fusion development.
文章引用:饶嘉雯. 多模态融合的演进:从规则驱动到深度学习[J]. 计算机科学与应用, 2025, 15(10): 1-9. https://doi.org/10.12677/csa.2025.1510244

1. 引言

我们在理解这个世界的时候,常常需要利用触觉、视觉、听觉、嗅觉和味觉等多个感官。为了让计算机可以像人类一样处理多模态信息,多模态融合技术成为学术界热门研究对象。多模态融合是指融合各个模态的信息,而不同模态之间存在信息互补,凭借这一特性能减少单一模态信息缺失或噪声带来的误差。常见多模态信息来源包括视频、音频、文本、图像和传感器等。多模态融合的应用也较为广泛,自动驾驶、人机交互、医疗诊断与分析、多媒体内容分析等领域均存在其身影。文献[1]表明,自动驾驶系统融合相机和激光雷达数据之后,在恶劣天气下的误判率明显降低了。本研究关注多模态融合的历史演变进程。通过回顾不同阶段的研究进展,梳理出多模态融合从规则依赖到数据驱动、又从浅层建模到深度架构的发展脉络。

2. 规则驱动阶段

早期阶段,领域专家将已有知识表示成一系列规则,即人工编码规则。学者们常基于这种预设的知识框架对多模态数据进行整合,然后使用逻辑推理来解决问题。例如,文献[2]展示了如何利用语音和手势协同操作图形界面,其中语音提供动作指令和属性描述,手势确定目标位置。用户通过语音和手势组合发出特定格式的命令,系统则按照既定结构去解析多模态输入并作出响应。另外,同时期的典型代表还有移动机器人Shakey [3]。其系统中的公理模型统一接收多模态信息,以谓词演算语句的形式存储机器人对环境的认知。但由于规则设计受限于专家经验,该阶段多模态融合模型的可扩展性较差,对于新场景也往往需要重新定义逻辑规则。同时它缺乏学习能力,无法自动获取数据中蕴含的规律,所有知识逻辑都需要人工提前构建。

3. 统计学习阶段

统计学习理论的发展完善和大量统计学习方法的涌现,为统计学习在多模态融合中的应用提供了重要支撑。互联网兴起使得多模态数据采集成本大幅降低,计算能力提升则满足了数据处理的需求。多模态统计学习方法正是随着这些条件的成熟而获得发展。其核心特征是运用统计学习方法进行数学建模,从数据中学习不同模态特征之间的统计关联。这种基于数据的学习机制有利于优化模型应对复杂情境的适应能力,意味着多模态融合进入量化研究新阶段。

3.1. 基于概率图模型的融合

概率图模型用节点表示随机变量,边刻画变量间的依赖关系,以概率分布量化关联的不确定性。对于时间序列任务,概率图模型表现出良好性能,其常见类型可分为生成式模型和判别式模型。生成式模型需建模所有随机变量的联合概率分布,如隐马尔可夫模型(Hidden Markov Model, HMM)。文献[4]基于耦合隐马尔可夫模型(Coupled Hidden Markov Model, CHMM)和因子隐马尔可夫模型(Factorial Hidden Markov Model, FHMM)对音频和视频观察序列的状态异步性建模,并使用EM算法进行参数训练。在从12 dB到30 dB的所有声学信噪比水平上,基于CHMM的系统都优于所有其他模型。文献[5]提出异步隐马尔可夫模型(Asynchronous Hidden Markov Model, AHMM),对语音和视频流等异步序列的联合概率分布进行建模,用于生物识别身份验证。

判别式模型可以直接对条件概率分布建模,更直接且高效。条件随机场(Conditional Random Fields, CRF)作为典型的判别式模型在结构化预测任务中表现突出。文献[6]通过比较隐条件随机场(Hidden Conditional Random Fields, HCRF)和具有相同底层结构的HMM,验证了HCRF用于多模态会议事件分割任务的有效性。文献[7]聚焦于从面部表情、姿势变化、头部姿态和非语言语音等多模态信号中自动识别情绪的问题。考虑到情绪具有时间属性,采用连续条件随机场(Continuous Conditional Random Fields, CCRF)进行建模,实验结果显示,CCRF在音频、视频和视听模态中均显著优于基线SVR,证明了时间数据对情绪分析和识别的重要性。

3.2. 基于多视图学习的融合

多视图学习的原理是假设不同模态为同一对象的不同“视图”,通过视图一致性约束提升泛化能力。多视图学习可分为协同训练、多核学习、子空间学习三类。Blum和Mitchell于1998年提出协同训练(Co-training),该算法利用已标记的数据为每个视图构建学习器,再让各学习器对未标记数据进行预测,将预测置信度高的样本作为补充标记数据加入下一轮的学习器训练中,直到迭代次数达到预设最大值或满足其他停止准则[8]。文献[9]构建文本和视觉分类器,并对未标记图像进行伪标记,通过跨模态信息互补完成图像分类任务。文献[10]提出一种基于协同训练的融合策略,有效整合了人脸图像和语音信息,该方法通过额外的步骤来训练融合分类器实现分数级融合。文献[11]利用音频弱监督训练视频分类器,再利用视频分类器监督个性化音频分类器的训练,形成协同训练闭环,实现了无人工监督的多模态融合。

多核学习(Multi-Kernel Learning, MKL)利用核函数将样本映射到不同的特征空间,然后组合多个核函数,使模型能同时捕捉不同特征空间的结构信息。在多模态数据融合中,多核学习方法针对不同模态数据的特征分布差异选取不同的核函数,进一步采用特定策略对核函数进行融合。文献[12]提取SIFT BoW、LPQ-TOP、gist等视觉特征和音频特征,构造对应的径向基函数核,并使用MKL将它们最优地组合起来,再输入到支持向量机中实现多模态情感识别。文献[13]结合多模态特征,提出了一种通用且简单的MKL框架用于阿尔茨海默病分类问题。该方法通过傅里叶变换和随机采样显式计算映射函数,并对核权重施加了组Lasso约束,以增强不同特征表示之间的组稀疏性。

作为统计学中的经典方法,典型相关分析(Canonical Correlation Analysis, CCA)在子空间学习中占据重要地位。CCA的本质是通过线性变换最大化不同模态间的相关性[14]。例如,文献[15]介绍一种基于典型相关分析的多模态融合策略,该策略首先提取音频和唇部特征的相关成分,然后采用早期和晚期融合方案的最佳组合来融合多模态特征。文献[16]则通过线性混合模型将两种模态特征分解为组件与调制剖面,然后最大化跨模态典型变量的相关性,实现两种模态的联合分析与信息融合。但CCA没有利用数据集所包含的类信息,造成了类信息的浪费。文献[17]提出一种带标签的多视图典型相关分析(Labeled Multiple Canonical Correlations Analysis, LMCCA)的信息融合通用方法,并建立一个具有类内信息的典型相关分析的统一框架。该方法在CCA的基础上引入类别标签信息,确保融合特征携带多模态信息表示的判别特征。实验结果表明,LMCCA的判别能力为双模态视听信息融合提供更有效的建模。

4. 深度学习阶段

统计学习阶段的研究证明了多模态关联可以通过统计规律建模。但该阶段的模型依赖手动设计特征,融合架构的扩展性也比较差[18]。同时基于线性假设或浅层非线性变换的主流方法,无法捕获复杂的语义关联。2011年,Ngiam等人[19]发表《Multimodal Deep Learning》后,多模态深度学习开始受到关注。深度学习凭借神经网络的多层非线性变换能力,在图像识别、语音处理等单模态任务中取得突破性进展,其自动特征学习优势也迅速渗透至多模态融合领域。大规模多模态数据集的构建为模型训练提供了必要的数据基础,计算基础设施的升级也使得训练参数量达千万级的多模态模型成为可能。神经网络能够从原始模态数据中逐层提取特征,形成跨模态共享的抽象概念。这种端到端的学习范式能够减少人工设计特征,自动捕捉跨模态数据的层级化语义关联,且以反向传播为手段优化整个融合流程,显著提升跨模态语义对齐精度与鲁棒性。

4.1. 基于卷积神经网络的融合

卷积神经网络(Convolutional Neural Networks, CNN)主要用于处理具有网格结构的数据,例如图像、视频和EEG信号。CNN以卷积层和池化层为核心,卷积操作擅长捕捉局部空间关联,池化层则实现特征降维与平移不变性。这种特性使其适合需要提取细粒度局部特征的任务。文献[20]针对文本、音频和视觉模态获取情感特征构建一个多模态情感理解框架。其方法是在CNN的基础上融入模糊逻辑,通过模糊化层、模糊卷积层和去模糊化层,有效处理多模态数据的不确定性,多模态情感分类准确性得到提高。为了提升多模态特征融合效率,Joze等人[21]提出多模态转移模块(Multimodal Transfer Module, MMTM),用于CNN的中间层实现特征融合。在此基础上,文献[22]探索了MMTM在压力测试中的应用。考虑到CNN低、中、高层特征的鉴别性,文章分层提取皮肤电活动和心电图数据,再通过MMTM对两种模态的分层特征进行渐进式融合以增强模态间互补性。

然而CNN时序数据处理的能力较弱,通常需要结合RNN或Transformer才能完成多模态融合任务。对于驾驶员压力分类问题,文献[23]介绍的CNN-LSTM时序多模态深度学习模型能自动融合生理信号、车辆数据和环境数据,成功找到跨多模态数据的联合特征表示。文献[24]指出CNN-LSTM模型中的权重随机初始化可能会降低预测性能,进而运用IChOA算法优化CNN-LSTM模型权重以融合各模态特征,情感识别的准确率达到97.8%,较其他多模态模型具有明显优势。同样聚焦多模态情感识别问题,文献[25]则采取分步融合的策略将音频、视频、文本进行深度融合,并引入卡方检验剔除冗余信息。

4.2. 基于循环神经网络的融合

循环神经网络(Recurrent Neural Networks, RNN)模型擅长处理序列数据,如文本、语音和时序传感器数据。它通过隐藏层的循环连接,将历史信息传递给当前时间步的计算,从而捕捉序列中的时序依赖关系。但传统的RNN存在梯度消失问题,RNN的变体LSTM通过门控机制缓解了这一问题,成为多模态时序融合的基础工具。例如,文献[26]提出一种基于LSTM的多模态睡眠检测方法,融合腕部传感器与智能手机数据,睡眠分类准确率达96.5%,睡眠起止检测F1分数为0.86和0.84,性能优于其他模型及商用软件。受LSTM门控机制启发,文献[27]提出门控循环融合单元(Gated Recurrent Fusion Units, GRFU)的多模态时序数据融合方法,该方法通过动态学习融合权重和时序权重,实现端到端的知识提取。文献[28]则在跨文化幽默检测任务中,为音频、视频、文本模态分别训练基于GRU-RNN的单模态模型,然后选取各模态中性能最优的模型,通过加权平均其预测结果完成融合。

LSTM具备序列处理优势,但其处理异步多模态数据能力有限,导致难以建模多模态间的复杂交互,而注意力机制的引入有效地弥补了这一不足。文献[29]借助GRU层和跨模态注意力机制来捕获跨模态随机依赖性,同时该机制允许模型直接关注来自不同模态的低级特征,从而促进多模态信息的有效整合。文献[30]通过递归联合交叉注意力捕捉模态间互补关系,结合LSTM捕捉模态内时间动态,实现模态内与模态间信息的协同利用。

4.3. 基于图神经网络的融合

图神经网络(Graph Neural Networks, GNN)以“节点–边”的图结构为核心,通过消息传递机制聚合邻居节点特征,擅长处理非欧数据,在实体关联复杂的场景中表现突出。例如,文献[31]将GNN应用于抑郁症检测的多模态融合,开发了一种模态共享和模态特定的GNN架构来提取模态间和模态内特征,采用重建网络以确保单个模态内的语义一致性,并对共享信息和各模态特定信息赋予动态权重,融合得到紧凑的多模态表示。

无论是增强信息聚合效率,还是建模复杂图结构依赖关系,都促使着学者们加大力度研究GNN变体。其中图卷积网络(Graph Convolutional Networks, GCN)利用适用于图数据的卷积层聚合相邻节点信息,进而实现跨模态的空间局部特征融合[32]。针对对话场景的多模态情感识别,文献[33]提出多模态融合图卷积网络(MMGCN)。它将每个话语的文本、声学、视觉三种模态特征作为节点,同模态节点间连接捕捉长距离上下文,而同一话语内不同模态节点的连接促进模态间信息交互,同时残差连接加深网络层数提高了表征能力。文献[34]将临床数据与CT影像数据整合为图结构数据,设计一种改进的图卷积网络(Multi-Modal Fusion Graph Convolutional Network, FGCN),其引入的TopKPooling策略解决了多模态融合中特征冗余和噪声问题。

与GCN权重机制不同,图注意力网络(Graph Attention Networks, GAT)在图结构学习中加入注意力机制,动态计算并权衡相邻节点间的注意力权重。文献[35]基于GAT设计多模态图注意力网络(Multimodal Graph Attention Networks, M-GAT)以获取多模态时间序列的空间相关性,时间卷积网络则捕捉时序依赖,两者相结合显著提高MTS异常检测的精度。文献[36]提出超节点关系图注意力(Hyper-node Relational Graph Attention, HRGAT)网络,专注于多模态知识图谱补全任务。该模型把原始知识图谱转换为超节点图,通过关系图注意力网络(RGAT)得到图结构信息,再用ConvE解码器计算三元组可信度完成事实预测。

4.4. 基于Transformer的融合

Transformer是一种基于自注意力机制和前馈神经网络堆叠而成的编码器–解码器架构[37]。它借助多头自注意力捕捉任意位置的全局关联,并支持高效并行计算,克服了传统模型在序列处理方面的局限性。此外,自注意力机制可被抽象为全连接图上的信息传播过程,这使得Transformer能够兼容多模态输入,成为多模态融合任务的通用架构,且在长距离依赖强、模态类型多样的场景中占据SOTA地位。

文献[38]利用Transformer的自注意力机制解决RNN的“遗忘问题”,有效提取抑郁症检测中音频和视觉单模态的长期时序上下文信息,并根据不同模态特征的性能动态分配权重,实现晚期自适应融合。然而自注意力机制主要聚焦于各模态内部特征依赖建模,难以捕捉跨模态语义关联。为突破这一局限,学者们转向交叉注意力机制以实现模态间深度交互。文献[39]以跨模态注意力机制为核心构建多模态Transformer (Multimodal Transformer, MulT)模型,MulT直接关注其他模态中的低级特征,学习不同模态间的潜在关联,完成多模态信息的融合。文献[40]提出了一种基于多头交叉块注意力模块的多模态融合Transformer (Multimodal Fusion Transformer, MFT)网络,用于融合高光谱图像和其他多模态数据以进行土地覆盖分类。文献[41]则设计了三交叉注意力模块,该模块通过交换面部图像中的LBPHOG特征、关键点特征和CNN特征三种特征的查询矩阵,促进不同特征之间的信息交换,实现不同特征之间的相互指导,增强模型对类间相似性和类内差异性的处理能力。也有学者采用层次融合的方式整合多模态数据。针对视频摘要任务,文献[42]提出了一种层次化多模态Transformer (Hierarchical Multimodal Transformer, HMT),第一层由一个视觉Transformer和一个音频Transformer组成,用于捕获每个镜头的帧级依赖关系来编码镜头特征,第二层是一个多模态Transformer,以捕捉镜头间的全局依赖和多跳关系。

另外,Transformer架构因其优异的全局依赖关系建模能力,已被广泛且深入地研究应用于多模态预训练领域。目前,视觉语言预训练(Vision-Language Pre-training, VLP)是该领域的热门研究方向。例如,文献[43]使用S3D模型提取视频特征,通过分层向量量化生成视觉词序列,并利用语音识别工具将语音转文本,经分词得到文本词。再将视觉词和文本词拼接成统一序列,输入共享的Transformer编码器进行联合建模。由于传统模型依赖预训练的离线特征,且密集提取视频特征的计算成本高,Lei等人[44]提出了一种通用框架ClipBERT。它采取稀疏采样策略,在训练时随机选取视频中的短片段,使用可训练的词嵌入层作为语言编码器,结合ResNet-50视觉编码器,通过Transformer融合视觉与语言特征进行端到端建模,推理时从多个密集采样的片段中聚合预测,平衡效率与性能。文献[45]介绍了新一代多模态模型Gemini,该模型支持文本、图像、音频、视频的交错序列输入,不同模态数据转换为统一token序列,再通过具有高效注意力机制的Transformer解码器实现跨模态关联。同样,文献[46]提出Chameleon预训练模型,它也采用基于token表示的早期融合策略。但不同的是,Gemini使用独立的图像和文本解码器,而Chameleon是一个端到端的密集模型,没有任何路由组件。受现有技术限制,难以设计一个适用于所有下游任务的预训练模型,且不同下游任务之间也存在较大差异[47]。所以部分下游任务仍需通过领域适配预训练或轻量化微调提升性能。例如,文献[48]给出一种预训练视觉语言理解架构Kaleido-BERT,用于时尚相关的任务。它通过多尺度图像块生成、注意力对齐及掩码策略学习细粒度跨模态特征,整合文本与图像嵌入后,从Transformer中获取时尚跨模态表示。

5. 结束语

对于复杂环境,单一模态数据往往受限于自身缺陷。而多模态融合通过协同处理文本、图像、音频等异构信息,能够有效弥补单一模态的不足,显著提升模型对复杂场景的认知鲁棒性。充分融合各模态信息,不仅是发挥多模态数据互补性的关键,更是突破现有模型性能瓶颈、实现智能决策的核心路径。本文对多模态融合的演进过程进行了系统性的梳理。早期的多模态融合主要依赖符号逻辑和人工定义规则来关联模态。统计学习阶段则通过数据驱动挖掘模态间的统计规律进行建模,典型方法如概率图模型和多视图学习。深度学习阶段依托神经网络的强大表征能力,更有效地建模跨模态语义关联,代表性架构包括卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)和Transformer等。多模态融合还有很多值得研究的方向。1) 当前多模态模型性能强大但决策过程不透明,严重制约其应用,有必要研究如何提升模型的可解释性。引入因果推理框架可对多模态因果关系进行显式建模,采用干预操作或反事实推理以排除虚假关联干扰,估计各模态特征对决策的真实因果效应。2) 对比学习能有效利用未标注数据构建正负样本对,并挖掘模态间隐含语义相似性。元学习则通过让模型学会如何学习,使其仅需少量标注样本即可快速适应新任务。二者相结合可显著降低标注数据依赖,推动少样本条件下的跨模态推理。3) 开发高效轻量的多模态融合模型,需从模型压缩与硬件适配两方面突破。运用知识蒸馏、模型剪枝、量化和低秩分解等轻量化技术能大幅降低模型参数量和计算开销。同时根据特定硬件的架构特性,对关键算子进行定制化优化,实现实时低功耗多模态推理以支撑边缘端智能应用落地。4) 超越传统的理解任务,重点关注多模态生成模型。对于多模态生成中语义不一致问题,可设计跨模态语义对齐损失函数和引入模态间注意力机制,来增强生成内容与输入语义匹配度。还需研究细粒度可控生成,通过文本、草图、语音等模态指令控制生成结果的风格、属性和内容。5) 研究多模态数据中的隐私泄露风险,进一步探索差分隐私、联邦学习、加密计算等多模态隐私保护技术。同时要关注偏见问题,避免因训练数据不均衡、算法设计缺陷等因素导致对特定群体的歧视性输出。为了规范数据使用目的,要建立相应伦理审查机制或更统一的标准体系。

参考文献

[1] Alaba, S.Y. and Ball, J.E. (2024) Transformer-Based Optimized Multimodal Fusion for 3D Object Detection in Autonomous Driving. IEEE Access, 12, 50165-50176. [Google Scholar] [CrossRef
[2] Bolt, R.A. (1980) “Put-That-There”: Voice and Gesture at the Graphics Interface. Proceedings of the 7th Annual Conference on Computer Graphics and Interactive Techniques, Seattle, 14-18 July 1980, 262-270. [Google Scholar] [CrossRef
[3] Nilsson, N.J. (1984) Shakey the Robot.
https://www.semanticscholar.org/paper/Shakey-the-Robot-Nilsson/476ba2a1c5204d46e420506afacb4b0da6abb868
[4] Nefian, A.V., Liang, L., Pi, X., Liu, X. and Murphy, K. (2002) Dynamic Bayesian Networks for Audio-Visual Speech Recognition. EURASIP Journal on Advances in Signal Processing, 2002, 1-15. [Google Scholar] [CrossRef
[5] Bengio, S. (2003) Multimodal Authentication Using Asynchronous HMMs. In: Lecture Notes in Computer Science, Springer, 770-777. [Google Scholar] [CrossRef
[6] Reiter, S., Schuller, B. and Rigoll, G. (2007) Hidden Conditional Random Fields for Meeting Segmentation. 2007 IEEE International Conference on Multimedia and Expo, Beijing, 2-5 July 2007, 639-642. [Google Scholar] [CrossRef
[7] Baltrusaitis, T., Banda, N. and Robinson, P. (2013) Dimensional Affect Recognition Using Continuous Conditional Random Fields. 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG), Shanghai, 22-26 April 2013, 1-8. [Google Scholar] [CrossRef
[8] Blum, A. and Mitchell, T. (1998) Combining Labeled and Unlabeled Data with Co-Training. Proceedings of the Eleventh Annual Conference on Computational Learning Theory, Madison, 24-26 July 1998, 92-100. [Google Scholar] [CrossRef
[9] Guillaumin, M., Verbeek, J. and Schmid, C. (2010) Multimodal Semi-Supervised Learning for Image Classification. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, 13-18 June 2010, 902-909.
[10] Poh, N., Kittler, J. and Rattani, A. (2014) Handling Session Mismatch by Fusion-Based Co-Training: An Empirical Study Using Face and Speech Multimodal Biometrics. 2014 IEEE Symposium on Computational Intelligence in Biometrics and Identity Management (CIBIM), Orlando, 9-12 December 2014, 81-86. [Google Scholar] [CrossRef
[11] Chakravarty, P., Zegers, J., Tuytelaars, T. and Van Hamme, H. (2016) Active Speaker Detection with Audio-Visual Co-Training. Proceedings of the 18th ACM International Conference on Multimodal Interaction, Tokyo, 12-16 November 2016, 312-316. [Google Scholar] [CrossRef
[12] Sikka, K., Dykstra, K., Sathyanarayana, S., Littlewort, G. and Bartlett, M. (2013) Multiple Kernel Learning for Emotion Recognition in the Wild. Proceedings of the 15th ACM on International Conference on Multimodal Interaction, Sydney, 9-13 December 2013, 517-524. [Google Scholar] [CrossRef
[13] Liu, F., Zhou, L., Shen, C., et al. (2013) Multiple Kernel Learning in the Primal for Multimodal Alzheimer’s Disease Classification. IEEE Journal of Biomedical and Health Informatics, 18, 984-990. [Google Scholar] [CrossRef] [PubMed]
[14] Shaik, T., Tao, X., Li, L., Xie, H. and Velásquez, J.D. (2024) A Survey of Multimodal Information Fusion for Smart Healthcare: Mapping the Journey from Data to Wisdom. Information Fusion, 102, Article ID: 102040. [Google Scholar] [CrossRef
[15] Sargin, M.E., Yemez, Y., Erzin, E. and Tekalp, A.M. (2007) Audiovisual Synchronization and Fusion Using Canonical Correlation Analysis. IEEE Transactions on Multimedia, 9, 1396-1403. [Google Scholar] [CrossRef
[16] Correa, N.M., Li, Y.O., Adali, T., et al. (2008) Canonical Correlation Analysis for Feature-Based Fusion of Biomedical Imaging Modalities and Its Application to Detection of Associative Networks in Schizophrenia. IEEE Journal of Selected Topics in Signal Processing, 2, 998-1007. [Google Scholar] [CrossRef] [PubMed]
[17] Gao, L., Zhang, R., Qi, L., Chen, E. and Guan, L. (2018) The Labeled Multiple Canonical Correlation Analysis for Information Fusion. IEEE Transactions on Multimedia, 21, 375-387. [Google Scholar] [CrossRef
[18] Ramachandram, D. and Taylor, G.W. (2017) Deep Multimodal Learning: A Survey on Recent Advances and Trends. IEEE Signal Processing Magazine, 34, 96-108. [Google Scholar] [CrossRef
[19] Ngiam, J., Khosla, A., Kim, M., et al. (2011) Multimodal Deep Learning. 2011 International Conference on Machine Learning, Bellevue, 28 June-2 July 2011, 689-696.
[20] Nguyen, T.L., Kavuri, S. and Lee, M. (2019) A Multimodal Convolutional Neuro-Fuzzy Network for Emotion Understanding of Movie Clips. Neural Networks, 118, 208-219. [Google Scholar] [CrossRef] [PubMed]
[21] Joze, H.R.V., Shaban, A., Iuzzolino, M.L., et al. (2020) MMTM: Multimodal Transfer Module for CNN Fusion. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 13-19 June 2020, 13289-13299.
[22] Kuttala, R., Subramanian, R. and Oruganti, V.R.M. (2023) Multimodal Hierarchical CNN Feature Fusion for Stress Detection. IEEE Access, 11, 6867-6878. [Google Scholar] [CrossRef
[23] Rastgoo, M.N., Nakisa, B., Maire, F., Rakotonirainy, A. and Chandran, V. (2019) Automatic Driver Stress Level Classification Using Multimodal Deep Learning. Expert Systems with Applications, 138, Article ID: 112793. [Google Scholar] [CrossRef
[24] Geethanjali, R. and Valarmathi, A. (2024) A Novel Hybrid Deep Learning IChOA-CNN-LSTM Model for Modality-Enriched and Multilingual Emotion Recognition in Social Media. Scientific Reports, 14, Article No. 2270. [Google Scholar] [CrossRef] [PubMed]
[25] Hosseini, S.S., Yamaghani, M.R. and Poorzaker Arabani, S. (2024) Multimodal Modelling of Human Emotion Using Sound, Image and Text Fusion. Signal, Image and Video Processing, 18, 71-79. [Google Scholar] [CrossRef
[26] Sano, A., Chen, W., Lopez-Martinez, D., Taylor, S. and Picard, R.W. (2018) Multimodal Ambulatory Sleep Detection Using LSTM Recurrent Neural Networks. IEEE Journal of Biomedical and Health Informatics, 23, 1607-1617. [Google Scholar] [CrossRef] [PubMed]
[27] Narayanan, A., Siravuru, A. and Dariush, B. (2019) Temporal Multimodal Fusion for Driver Behavior Prediction Tasks Using Gated Recurrent Fusion Units.
https://openreview.net/forum?id=9PkIjGpDul
[28] Amiriparian, S., Christ, L., Kathan, A., et al. (2024) The Muse 2024 Multimodal Sentiment Analysis Challenge: Social Perception and Humor Recognition. Proceedings of the 5th on Multimodal Sentiment Analysis Challenge and Workshop: Social Perception and Humor, Melbourne, 28 October 2024, 1-9.
[29] Qin, Z., Luo, Q., Zang, Z. and Fu, H. (2025) Multimodal GRU with Directed Pairwise Cross-Modal Attention for Sentiment Analysis. Scientific Reports, 15, Article No. 10112. [Google Scholar] [CrossRef] [PubMed]
[30] Praveen, R.G., Granger, E. and Cardinal, P. (2023) Recursive Joint Attention for Audio-Visual Fusion in Regression Based Emotion Recognition. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, 4-10 June 2023, 1-5.
[31] Chen, T., Hong, R., Guo, Y., Hao, S. and Hu, B. (2022) MS²-GNN: Exploring GNN-Based Multimodal Fusion Network for Depression Detection. IEEE Transactions on Cybernetics, 53, 7749-7759. [Google Scholar] [CrossRef] [PubMed]
[32] Zhao, F., Zhang, C. and Geng, B. (2024) Deep Multimodal Data Fusion. ACM Computing Surveys, 56, 1-36. [Google Scholar] [CrossRef
[33] Hu, J., Liu, Y., Zhao, J. and Jin, Q. (2021) MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), Online, August 2021, 5666-5675. [Google Scholar] [CrossRef
[34] Ma, X., Ning, F., Xu, X., Shan, J., Li, H., Tian, X., et al. (2024) Survival Prediction for Non-Small Cell Lung Cancer Based on Multimodal Fusion and Deep Learning. IEEE Access, 12, 123236-123249. [Google Scholar] [CrossRef
[35] Ding, C., Sun, S. and Zhao, J. (2023) MST-GAT: A Multimodal Spatial-Temporal Graph Attention Network for Time Series Anomaly Detection. Information Fusion, 89, 527-536. [Google Scholar] [CrossRef
[36] Liang, S., Zhu, A., Zhang, J. and Shao, J. (2023) Hyper-Node Relational Graph Attention Network for Multi-Modal Knowledge Graph Completion. ACM Transactions on Multimedia Computing, Communications, and Applications, 19, 1-21. [Google Scholar] [CrossRef
[37] Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. Advances in Neural Information Processing Systems, 30, 5998-6008.
[38] Sun, H., Liu, J., Chai, S., Qiu, Z., Lin, L., Huang, X., et al. (2021) Multi-Modal Adaptive Fusion Transformer Network for the Estimation of Depression Level. Sensors, 21, Article 4764. [Google Scholar] [CrossRef] [PubMed]
[39] Tsai, Y.H., Bai, S., Liang, P.P., Kolter, J.Z., Morency, L. and Salakhutdinov, R. (2019) Multimodal Transformer for Unaligned Multimodal Language Sequences. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, July 2019, 6558-6569. [Google Scholar] [CrossRef] [PubMed]
[40] Roy, S.K., Deria, A., Hong, D., Rasti, B., Plaza, A. and Chanussot, J. (2023) Multimodal Fusion Transformer for Remote Sensing Image Classification. IEEE Transactions on Geoscience and Remote Sensing, 61, 1-20. [Google Scholar] [CrossRef
[41] Tian, Y., Wang, Z., Chen, D., et al. (2024) TriCAFFNet: A Tri-Cross-Attention Transformer with a Multi-Feature Fusion Network for Facial Expression Recognition. Sensors, 24, Article 5391.
[42] Zhao, B., Gong, M. and Li, X. (2022) Hierarchical Multimodal Transformer to Summarize Videos. Neurocomputing, 468, 360-369. [Google Scholar] [CrossRef
[43] Sun, C., Myers, A., Vondrick, C., Murphy, K. and Schmid, C. (2019) VideoBERT: A Joint Model for Video and Language Representation Learning. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 7463-7472. [Google Scholar] [CrossRef
[44] Lei, J., Li, L., Zhou, L., Gan, Z., Berg, T.L., Bansal, M., et al. (2021) Less Is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 7331-7341. [Google Scholar] [CrossRef
[45] Team, G., Anil, R., Borgeaud, S., et al. (2023) Gemini: A Family of Highly Capable Multimodal Models. arXiv: 2312.11805.
[46] Team, C. (2024) Chameleon: Mixed-Modal Early-Fusion Foundation Models. arXiv: 2405.09818.
[47] Xu, P., Zhu, X. and Clifton, D.A. (2023) Multimodal Learning with Transformers: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45, 12113-12132. [Google Scholar] [CrossRef] [PubMed]
[48] Zhuge, M., Gao, D., Fan, D., Jin, L., Chen, B., Zhou, H., et al. (2021) Kaleido-BERT: Vision-Language Pre-Training on Fashion Domain. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 12642-12652. [Google Scholar] [CrossRef