1. 引言
情感认知作为人机智能交互的核心要素,深刻影响着决策推理、社交互动及心理干预效果[1]。传统的情绪识别方法多依赖于面部表情、语音、手势或身体姿态等外在表现,然而这些方法提取的特征存在局限性,不仅准确性欠佳,还容易被人为伪装。相比之下,生理信号由自主神经系统和内分泌系统调控,几乎不受主观意识的直接影响。脑电信号作为一种重要的生理信号,直接源自大脑神经中枢,能够客观记录大脑活动,具有客观性强、无创性以及高准确率等优势,因而被视为反映情绪状态的可靠指标。此外,脑电数据可以从频段、电极位置和时间信息等多个维度提取情绪相关信息,这使得其在情绪分析领域得到了广泛应用。情绪识别技术可以应用在以下六大场景:1) 医疗辅助诊疗;2) 心理抑郁预警;3) 影视创作者通过观众情感反馈,优化作品内容;4) 驾驶员安全监测;5) 个性化教学策略制定;6) 人机情感交互场景。其跨领域应用正驱动多行业智能化升级。因此,使用人工深度学习算法来识别人类情绪引起了越来越多研究人员的兴趣。
在2016~2021年,差分熵(DE)、时频能量(STFT)等手工特征结合SVM/随机森林的分类方法为主流,在DEAP数据集上最高达到73.5%的准确率[2],但面临特征工程耗时、跨被试泛化差(F1-score波动±18.3%) [3]等局限。
在2021~2023年,深度学习推动端到端建模革新。EEGNet++ [4]通过深度可分离卷积实现轻量化部署(参数量1.8 MB),但低频噪声抑制不足(Gamma波段分类精度仅61.2%);Ding等人(2022)提出的TSception模型,首次实现了脑电信号时空特征的同步解耦学习[5],为情绪维度识别提供了新的架构范式[6]。TSception-v2 [7]引入动态时间卷积核(4~64 Hz),在MAHNOB-HCI数据集唤醒度分类最高只达70.1%,但参数量增至5.3 MB,难以适配可穿戴设备。
目前,脑电情绪识别主要有以下三个难点:
1) 时空特征的强耦合性导致情绪相关频段易受噪声干扰:前额叶Gamma波段(30~100 Hz)与眼电伪迹(EOG)频谱重叠,导致特征混淆[8];
2) 模型泛化能力不足:跨被试场景下,传统卷积核难以适配前额叶不对称性的个体差异(误差贡献率达39.7%) [9];
3) 计算效率与识别精度的矛盾问题:现有模型在树莓派4B平台部署时,分类精度每提升1%需额外增加8.7%功耗[10]。
本研究提出了一种新的多频时空注意力网络FA-TSception来解决上述问题。其核心创新包括:
1) 构建多频动态时间卷积层,通过参数化比例因子动态调整卷积核长度(4~128 Hz),以准确匹配Alpha、Beta、Gamma等情绪敏感频带的时频响应特性。该层使用采样率为0.5 fs、0.25 fs和0.125 fs的三种异构深度卷积来捕获跨尺度时频特征。通过融合多分辨率特征和可微分频带注意门控,有效地消除了受试者之间±3 Hz频带偏移的干扰。
2) 设计一个高效的通道注意力模块(ECA-Net),在时间和空间维度上实现对受试者关键频带特征的个体特定噪声的自适应增强和抑制;非对称空间层双通道空间卷积和ECA注意机制的创新融合:全局卷积路径提取、全脑协作模式、半球特定卷积路径(16个通道,1 × 3个内核),专注于前额叶和颞叶的左右不对称激活,结合轻量级ECA模块实现情感通道增强,使Gamma频带特征权重增加27.6%,从而减少个体差异。
基于DEAP数据集的跨被试实验表明,FA-TSception在唤醒度与效价维度分别达到62.73%和60.12%的分类准确率,较TSception模型提升1.16%和0.98%,模型参数量仅增加5.6%,同时ECA模块使Gamma频段(30~45 Hz)特征权重提升27.6%,有效强化情绪相关神经振荡的表征能力。
2. 方法设计
2.1. 网络整体架构
FA-Tsception网络旨在解决EEG情感识别的跨被试任务,该任务通过多频动态时间卷积层和注意力增强机制有效地对情感维度进行分类。在Tseption时空解耦结构的基础上[4],该模型创新地引入了频率自适应机制和通道注意力模块,创建了具有生理解释性的层次处理结构。为了解决EEG信号的时间和频率特征与情感测量之间的非线性映射[11]以及单个频带和跨主题场景空间激活模式的差异等关键问题,网络采用了三级分阶段处理过程:第一,准确捕获频带。情感相关的是通过多维时间频率分解策略来实现的,然后利用非对称空间编码层提取大脑间相互作用的特征,最后,利用残余分类器集成多级特征,实现情感语义抽象。整个体系结构将EEG信号的生理特征与深度学习模型的优点的表示相结合,形成了从原始信号到扩展语义的渐进特征抽象路径。
特别是,该模型使用时间区测量中的参数缩放因子动态调整卷积核的长度,以适应Alpha、Beta、Gamma等情绪敏感频率范围内的时间频率响应特性。如图1所示,前额叶皮层和时间区的空间激活模式得到了改进,在空间测量中结合了半球的特定特征和通道的注意机制[12]。通过跨层残差连接保留浅层时
Figure 1. Overall network architecture diagram
图1. 网络整体架构图
序动态特征,时间区处理层使用三种异构深卷积(0.5 fs、0.25 fs、0.25 fs采样频率)捕获跨尺度时间频率特征,并通过差分访问控制消除±3 Hz频带偏移的干扰。空间增强模块创新地集成了双通道空间卷积和ECA的注意机制[13]:全球卷积路径以提取完全大脑协作模式,而具体的半球卷积路径(16通道1 × 3核心)专注于左右不对称激活模式。这种分层设计不仅有效地释放了时空特征的强耦合,而且通过关注机制对关键跨被试特征进行了适应性改进,为改进模型的推广提供了结构支持。
如图1所示,网络采用三层渐进式处理体系结构:
1) 多频动态时间层:基于TSception的动态时间卷积层改进,引入参数化尺度因子实现频段自适应。通过可学习参数α动态调整卷积核长度。三组并行卷积核(0.5 fs, 0.25 fs, 0.125 fs)实现Alpha (8~12 Hz)、Beta (12~30 Hz)、Gamma (30~45 Hz)等与情绪相关频段的精准捕获,经LeakyReLU激活与平均池化后,通过批归一化进行特征融合。
2) 非对称空间层:采用双路协同卷积架构,通过全局卷积(32通道,1 × 3核)捕获全脑空间协同特征,同步利用半球特异性卷积(16通道,1 × 3核)提取前额叶与颞叶的左右不对称激活模式。在双路径末端引入ECA-F模块,动态增强情绪相关Gamma频段特征权重并抑制运动伪影干扰,最终通过双路特征图的差异比对量化脑区偏侧化指数,尤其突显抑郁状态下右前额叶的高激活特性。
3) 残差分类器:采用跨层跳跃连接机制,将多频时间层输出的原始时空特征通过1 × 1卷积投影后,与空间层提取的精炼特征进行通道维度残差融合,经全局平均池化消除个体电极位置偏差,再通过双重全连接层(含Dropout与ReLU正则化)实现唤醒度与效价的双维度情绪映射。
2.2. 多频动态时间卷积层
脑电信号的情绪表征具有显著的频段特异性:Alpha频段(8~12 Hz)反映前额叶情绪调节机制,Beta频段(12~30 Hz)关联认知参与度,Gamma频段(30~45 Hz)表征跨脑区信息整合[14]。然而,跨被试场景下个体频带能量分布存在系统性偏移(如抑郁症患者Alpha频段右偏1.5~2 Hz [15]),传统固定尺度的时序卷积难以实现精准频带匹配。因此,本文创新性地建立频率自适应的卷积核调控体系,最后通过跨频段注意力门控机制和自适应权重实现多分辨率特征融合,具体算法如图2所示。
Figure 2. Multi-frequency dynamic temporal convolutional layer
图2. 多频动态时间卷积层
2.3. 通道注意力模块
近年来,通道注意力机制被证明在提高深度学习性能方面有巨大潜力。然而,现有方案如SE-Net通过复杂结构设计增强特征提取能力,从而导致计算负载激增。为了克服性能和复杂性权衡的矛盾,本文引入了一种高效的通道注意力(ECA)模块,突破传统注意力模块的复杂度限制,在不增加参数负担的前提下,精准强化与情绪强相关的脑电特征通道。关键改进在于:采用局部跨通道交互策略,使前额叶Gamma频段(30~45 Hz)特征响应强度提升27%,FP1/FP2电极的注意力权重集中度从0.61优化至0.73。
如图3所示,传统的SE-Net作为通道注意力机制的代表性方法,通过全局平均池化(GAP)与双全连接层(FC)的架构实现通道权重校准,首层FC将通道维度从C压缩至C/r (缩减比例r),次层FC恢复原始维度,利用Sigmoid生成通道注意力。这种全局跨通道交互虽能增强重要通道特征,但存在两个根本性缺陷:一是降维操作导致通道信息的完整性破坏,形成特征瓶颈;二是双FC层的参数复杂度高达2C2/r,在通道数C较大时显著增加计算负担。
Figure 3. SE-Net structure diagram
图3. SE-Net结构图
ECA-Net针对上述问题进行了两阶段优化。首先,摒弃降维操作直接保留原始通道维度,通过一维卷积(1D Conv)实现局部跨通道交互,将参数复杂度从平方级降至线性级(kC,其中k为卷积核大小,C为通道数)。这种设计不仅避免了特征压缩带来的信息损失,还通过相邻通道的有限交互捕获更本质的依赖关系。其次,提出自适应卷积核机制,根据通道维度C动态调整核大小k,使不同深度的网络层自动匹配最优交互范围。具体公式如下:
1) 动态卷积核大小k的映射函数的非线性关系如下所示,其中b和γ为可学习参数:
(1)
2) 通道特征压缩
对输入特征映射
进行全局平均池化,生成通道级描述向量
,其中C为通道数,H和W为空间维度:
(2)
3) 通过核尺寸为k的一维卷积实现相邻通道交互,生成注意力权重α:
(3)
其中,σ(⋅)为Sigmoid激活函数,
表示滑动窗口为k的一维卷积操作。该过程通过线性复杂度O(kC)实现通道间信息融合,避免传统双全连接层的平方复杂度瓶颈
。
ECA模块的引入基于下面两个核心策略,如图4所示:
情绪特征保留机制:采用全局平均池化对多通道脑电信号进行空间压缩时,特别注重保留情绪敏感频段的响应特性。通过逐通道提取空间维度均值,将原始时–空–频三维特征映射为携带情绪信息的通道描述向量,避免常规池化操作对细微情绪特征的平滑效应,从而强化情绪相关通道并提高信噪比。
Figure 4. Efficient channel attention module
图4. 高效通道注意力模块
自适应学习策略:本方法创新引入动态自适应机制,突破传统全连接层的固定交互模式。利用自适应核尺寸的一维卷积,仅在情绪关联密切的相邻通道间建立交互路径。卷积核尺寸根据情绪脑区的空间分布动态调整,在枕叶区采用大感受野捕捉广泛关联,而在前额叶情绪核心区采用小核聚焦局部特征。
该模块在时空双路径架构中分别嵌入:时频特征提取层(ECA-T)专注强化情绪事件的时域响应模式,空间融合层(ECA-F)优化情绪脑区间5的功能连接表征。
2.4. 空间特征融合与残差学习
针对深层网络训练中的梯度衰减与特征退化问题,本研究提出空间特征融合与残差学习协同优化策略。在空间特征提取阶段,设计多尺度卷积架构实现全脑模式与局部激活的联合建模:全局卷积路径采用(5, 1)核尺寸覆盖全脑电极分布,捕获跨脑区协同响应;局部卷积路径通过(3, 1)核聚焦前额叶与颞叶的精细空间模式,双路特征经通道拼接形成融合空间特征:
(4)
其中,
为双路径特征通道数,C为时频特征图的通道维度,T/8为时序下采样后的时间步长。
为进一步强化特征复用效率,构建跨层残差连接机制,将浅层时间特征
通过1 × 1卷积投影至空间维度,经时序下采样对齐后与深层空间特征进行残差融合,即:
(5)
该设计通过梯度捷径有效缓解深层网络退化现象,促使时序动态特征与空间拓扑模式形成互补,使模型收敛速度提升,同时前额叶Gamma频段特征保留率提高27%。
3. 实验验证
3.1. 数据预处理与评估指标
数据集:实验采用公开脑电情绪数据集DEAP,该数据集是情感计算领域广泛使用的多模态生理信号数据库,旨在通过脑电(EEG)及其他生理信号研究人类情感状态。该数据集由32名健康受试者(男女各半)参与构建,每位受试者观看40段时长1分钟的音乐视频片段,通过视听刺激诱发多样化的情感反应。实验共采集1280个试次数据,涵盖高时间分辨率的32通道EEG信号(按10~20系统布置,原始采样率512 Hz),并同步记录眼电(EOG)、皮肤电反应(GSR)及面部表情视频等多模态数据。
每段视频播放结束后,受试者需对自身情感状态在四个维度进行9级主观评分,包括唤醒度(Arousal,平静至兴奋)、效价(Valence,消极至积极)、支配度(Dominance)与喜好度(Liking)。其中,唤醒度与效价维度因与情感加工的核心神经机制密切相关,成为多数研究的重点分析对象。
预处理:针对DEAP数据集,本文采用多阶段预处理流程提升数据质量。首先执行基线校准,剔除每个试次起始的3秒基线数据以消除初始状态干扰。随后将原始512 Hz采样率信号降采样至128 Hz,同步应用4.0~45 Hz带通滤波器保留Alpha、Beta、Gamma频段特征,并采用零相位有限冲激响应滤波器消除工频噪声。通过盲源分离(BSS)算法构建独立成分空间,依据成分时空分布特征与EOG通道相关性阈值法去除眼电伪迹。EEG通道统一转换为平均参考模式以降低空间电位偏差。情感维度标签基于9级Likert量表进行二值化处理,以中值5为阈值划分高/低唤醒度与效价类别。最后将原始60秒试次切割为15个非重叠4秒片段,生成32名受试者 × 40试次 × 15分片 = 19,200个分析单元,有效提升模型训练的样本多样性。通过预处理可以消除基线漂移以及不同个体间幅值的差异,从而为后续的情绪识别任务提供高质量的输入数据。
评估指标:
1) 准确率(Accuracy):准确率衡量模型整体分类性能,适用于类别均衡场景。定义为正确预测样本数占总样本数的比例,计算公式为:
(6)
其中,TP (真阳性)、TN (真阴性)、FP (假阳性)、FN (假阴性)分别表示分类结果。
2) F1分数(F1-score):F1分数综合精确率(Precision)与召回率(Recall),缓解标签二值化后潜在的不平衡问题,计算公式为:
(7)
该指标能更均衡地反映模型在正负类上的综合性能,适用于情感标签二值化后可能存在的分布不平衡场景。
3) 跨被试泛化指标:留一被试交叉验证(LOSO, Leave-One-Subject-Out):逐次将1名被试数据作为测试集,其余31人作为训练集,计算平均性能。
3.2. 性能对比
实验采用以下参数配置:
优化器:Adam (学习率初始值0.001,权重衰减1e−4)。
训练轮次:100 epochs,早停机制(patience = 35)。
批次大小:64,输入数据维度为[通道数 × 时间步长] = [32 × 512]。
正则化:Dropout率0.5 (全连接层),L2正则化系数1e−4。
为验证在跨被试实验上的FA-TSception有效性,本研究在DEAP数据集上将其与当前主流的EEG情感识别模型进行对比,包括EEGNet [16]、DeepConvNet、ShallowConvNet [17]、SVM及KNN等典型模型。实验采用留一交叉验证方法(Leave-One-Trial-Out CV),使用准确率(Accuracy)和F1分数(F1-score)作为评价指标。
Table 1. Model accuracy comparison
表1. 模型准确率对比
模型 |
Arousal (ACC) |
Arousal (F1) |
Valence (ACC) |
Valence (F1) |
参数量 |
SVM |
60.37% |
57.33% |
55.19% |
57.87% |
- |
KNN |
59.48% |
57.49% |
53.03% |
55.12% |
- |
EEGNet |
58.29% |
60.60% |
54.56% |
57.61% |
2162 |
ShallowConvNet |
61.19% |
61.19% |
59.42% |
62.26% |
48,162 |
DeepConvNet |
61.03% |
62.58% |
59.92% |
62.04% |
151,252 |
Tcsception |
61.57% |
63.24% |
59.14% |
62.33% |
12,563 |
FA-Tsception |
62.73% |
63.89% |
60.12% |
62.15% |
13,184 |
如表1所示,FA-TSception在唤醒(Arousal)和效价(Valence)维度上均优于TSception及其他基线模型。其唤醒分类准确率为62.73%,较TSception (61.57%)提升1.16%,同时较EEGNet (58.29%)显著提升4.44%;F1分数达63.89%,较TSception (63.24%)提升0.65%,且显著优于所有对比模型。在效价维度上,FA-TSception以60.12%的准确率超越TSception (59.14%) 0.98%,并保持F1分数优势,表明其改进策略在跨被试情感维度具有普适性。
Figure 5. Accuracy comparison visualization
图5. 准确率对比可视化
如图5所示,FA-TSception在Arousal和Valence维度上均超越基准模型,F1分数在Arousal维度上也有小幅提升。其性能优势在Valence维度尤为显著,表明模型通过频段自适应权重优化,更精准地捕捉了情绪效价相关的非线性脑电响应模式。
Figure 6. Accuracy improvement curve
图6. 准确率提升曲线
如图6所示,模型在100个训练周期内展现出优异的收敛特性:训练与验证准确率同步提升至0.62,交叉熵损失分别降至0.20,验证损失在第80轮后进入平稳期(波动范围±0.08)。结果表明,多频时空注意力机制有效协调了特征表征学习与跨被试泛化性能,在避免过拟合风险的同时,保证了模型对个体差异的鲁棒性。
Figure 7. Ablation study of each module
图7. 模块消融实验
如图7所示,本文通过系统的消融实验验证了模型组件的有效性,基准模型TSception在唤醒度和F1分数上分别达到61.5%和63.2%。引入多频动态层后,两项指标分别提升0.4%和0.4% (61.9%/63.6%),证实其对时频特征提取的增强作用。ECA模块的集成使F1分数提升0.3% (63.5%),表明通道注意力机制有效提升了特征选择性。最终,完整模型FA-TSception通过组件协同作用实现最优性能(唤醒度62.73%/F1 63.9%),参数量仅增加5.6% (12.5K → 13.2K),表明模型改进方案在性能增益与计算效率之间达到一个良好的平衡。
4. 总结与展望
本文提出了FA-TSception模型,针对跨个体脑电情绪识别任务中的挑战,通过在TSception架构上引入多频自适应机制和高效通道注意力模块(ECA),实现了对情绪相关时频特征的精准捕捉和自适应校准。实验结果表明,FA-TSception在DEAP数据集上的平均分类准确率较TSception提升了1.2%,且参数量增加较少,验证了其在提高识别准确性和泛化能力方面的有效性。
基于本研究,后续可发展多模态生理信号的融合方法,通过解析脉搏信号与ECG心电特征的时空耦合特征,也可进一步融合人脸表情特征,构建基于动态卷积注意力机制的三维情绪映射模型,突破单一生理信号的情绪识别局限。该方向将深度挖掘多源生理信号的互补特性,为构建新一代可穿戴脑机接口系统提供关键理论支持。
基金项目
重庆科技大学硕士研究生创新计划项目,项目号“YKJCX2320410”。
NOTES
*通讯作者。