基于GCN-LSTM融合模型的脑电情绪时空特征协同识别——融合频域特征的建模与识别性能分析
Based on GCN-LSTM Fusion Model for Synergistic Recognition of Spatiotemporal Features in EEG Emotion—Modeling with Fusion of Frequency-Domain Features and Recognition Performance Analysis
DOI: 10.12677/airr.2026.151012, PDF, HTML, XML,    科研立项经费支持
作者: 吴 浩, 刘伯成*, 陈 亮, 曾鸿亮, 罗人华:赣东学院信息工程学院,江西 抚州
关键词: 脑电情绪识别图卷积网络长短期记忆网络特征融合连续情绪识别EEG GCN LSTM Feature Fusion Continuous Emotion Recognition
摘要: 本文围绕脑电情绪识别展开研究,针对脑电信号低信噪比、非平稳特性及现有模型在空间时序建模、跨被试泛化等方面的不足,提出融合图卷积网络(GCN)与长短期记忆网络(LSTM)的模型架构,通过深度融合空间特征与时序特征,实现情绪在效价、唤醒度等维度的连续识别。研究设计多组对比实验,验证了模型在DEAP等数据集上的性能优势,同时分析了不同预处理流程、模块组合及通道关联方式对识别结果的影响,为脑电情绪识别的模型优化与应用拓展提供了参考。
Abstract: This study focuses on electroencephalogram (EEG) emotion recognition. To address the low signal-to-noise ratio (SNR) and non-stationary characteristics of EEG signals, as well as the shortcomings of existing models in spatiotemporal modeling and cross-subject generalization, a model architecture fusing Graph Convolutional Network (GCN) and Long Short-Term Memory (LSTM) is proposed. By deeply integrating spatial and temporal features, the model achieves continuous recognition of emotions in dimensions such as valence and arousal. Multiple sets of comparative experiments are designed to verify the performance advantages of the proposed model on datasets like DEAP. Meanwhile, the study analyzes the impacts of different preprocessing pipelines, module combinations, and channel correlation methods on recognition results, providing references for model optimization and application expansion of EEG emotion recognition.
文章引用:吴浩, 刘伯成, 陈亮, 曾鸿亮, 罗人华. 基于GCN-LSTM融合模型的脑电情绪时空特征协同识别——融合频域特征的建模与识别性能分析[J]. 人工智能与机器人研究, 2026, 15(1): 109-122. https://doi.org/10.12677/airr.2026.151012

1. 引言

AI 与健康医疗深度融合下,脑电(EEG)信号可直接反映情绪诱发的神经活动,是情绪识别核心研究对象,在心理疾病辅助诊断、智能人机交互等场景具有关键应用价值。但脑电信号兼具“非欧氏空间分布”(电极按10~20系统非规则排列)与“长时序动态性”(情绪刺激下信号随时间波动)双重特性[1],传统方法难以同时高效建模其空间关联与时间依赖。

现有脑电情绪识别方法分三类:传统人工特征机器学习、CNN空间建模、LSTM时序建模。传统方法依赖人工提取功率谱、微分熵等特征,泛化有限;CNN能捕捉局部空间特征,却不适配脑电非规则通道分布;LSTM能捕捉时序动态,却忽视通道空间协同。

针对上述不足,本文提出GCN-LSTM融合模型,结合图卷积网络(GCN)对非欧氏空间的建模能力与LSTM对长时序的捕捉能力,实现脑电信号空间–时序特征的协同提取,为提升情绪识别的准确率与鲁棒性提供新的技术路径。

2. 相关工作

2.1. 脑电信号预处理技术研究

脑电信号因低信噪比与非平稳特性,预处理需经“伪迹去除–频段筛选–数据标准化”流程,钟扬等用ICA去伪迹、4~45 Hz带通滤波及降采样,该流程与Lan等在SEED数据集的应用一致。特征平滑技术中LDS比传统移动平均更能滤除无关噪声,但现有方法陷波滤波易受环境影响,标准化未考虑个体差异,给跨被试识别带来挑战。

2.2. 脑电情绪特征提取方法研究

特征提取的有效性直接决定识别性能,现有研究已从人工设计特征向自动化特征学习演进,可分为三类核心方向:

2.2.1. 传统多域特征提取

时域早期聚焦事件相关电位(ERP)如P300的潜伏期与振幅,但需多次刺激叠加,难适应动态情绪识别;频域因与情绪强关联成主流,微分熵(DE)在DEAP数据集效价分类中表现最优,结合βγ频段外侧颞区激活,可使传统模型准确率达69.67%;空间特征通过半球不对称性指标(DASM、RASM)描述脑区协同,钟扬等通过计算通道间皮尔逊相关系数构建空间关联矩阵,为模型输入提供结构信息。

2.2.2. 特征选择与优化

为解决特征冗余,特征选择方法广泛应用。MRMR算法借互信息选情绪特征,较PCA保留通道、频率等原始信息,在SEED数据集提分类器泛化能力8%。但人工特征依赖专家经验,且跨会话稳定性差——同一被试间隔一周脑电特征相似度仅72%,致模型实际性能衰减显著。

2.2.3. 自动化特征提取趋势

随着深度学习发展,端到端特征提取逐渐取代人工设计。CNN通过卷积核自动捕捉局部时空模式,在DEAP数据集上实现80%的效价分类准确率,相比传统DNN提升20个百分点;GCN则通过图结构建模挖掘通道间隐藏关联,使空间特征的表达更贴合脑电非欧氏分布特性。但自动化特征的可解释性差,难以定位情绪相关的关键脑区与频段,限制了临床应用价值。“近年兴起的对比学习与自监督学习,在EEG特征自动化提取中实现无标签数据的特征增强,进一步提升了跨被试识别的稳定性”,呼应后续模型泛化性讨论。

2.3. 脑电情绪识别模型研究

模型演进始终围绕“空间–时序特征协同建模”与“泛化能力提升”两大核心目标,可分为单一模型与融合模型两个阶段。

2.3.1. 单一模型研究

传统机器学习中,SVM因适配高维小样本成脑电情绪识别早期基准,KNN与逻辑回归虽计算高效但跨被试准确率多低于70%。深度学习单一模型各有突破:CNN在DEAP数据集效价分类达82%却难适配电极非规则结构,LSTM擅长捕捉长时序依赖却忽视跨脑区协同,GCN能提取脑区空间特征却无法处理情绪时间动态演变。

2.3.2. 融合模型研究

近年来,深度学习驱动的EEG情绪识别SOTA模型在时空融合与泛化优化上持续突破:GCN-LSTM系列模型通过GCN挖掘脑区空间关联、LSTM捕捉时序动态,在SEED数据集实现88%以上跨时段识别准确率;EEG-Transformer结合自注意力机制与图注意力网络,强化关键脑区交互特征,DEAP数据集效价分类精度达90%;多特征融合类SOTA模型通过频域特征与时空特征协同建模,有效降低噪声干扰,跨被试泛化性能提升10%以上。

提高脑电情绪识别准确率和稳定性可聚焦融合模型优化,现有融合模型虽各有成效,但存在依赖伪图像处理、参数量大或特征交互不足等问题。需针对性解决三大局限:优化邻接矩阵构建以适配通道功能相关性动态变化,改进特征融合方式减少冗余,增强跨被试泛化能力以缓解数据分布差异导致的准确率衰减。

2.4. 注意力机制在情绪识别中的应用拓展

注意力机制可强化关键特征权重,在脑电情绪识别中主要用于“特征筛选”与“跨域融合”:Wang等将其与LSTM结合提升文本情绪分析性能,Liu等迁移至脑电领域,使额叶α波效价贡献提高15%。多注意力协同成新趋势,Chen等框架、Yang等机制、Gan等模型分别提分类性能、跨被试准确率9%、冗余剔除率22%。但现有应用存在单一维度聚焦、权重可解释性不足问题,为GCN-LSTM引入注意力机制提供改进方向。

3. 模型描述

3.1. 核心创新模型:图卷积神经网络–长短时记忆网络(GCN-LSTM)融合架构

在本节中,我们将系统性说明本文所提出的模型框架,并详细拆解面向脑电信号情绪状态识别任务设计的GCN-LSTM模型各功能单元,该模型的核心架构如图1所示。

在脑电信号驱动的情绪识别任务中,原始脑电信号携带了多维频域信息,而情绪关联特征既包含特征维度间的关联关系,也具备时间轴上的演变规律——不同网络单元在“特征关联挖掘”与“时序模式捕捉”上的优势存在差异。为此,本文构建GCN-LSTM模型:通过频域特征构建单元提取脑电信号的多维度频域信息,借助GCN单元挖掘特征间的潜在关联,再通过LSTM单元捕捉特征的时序演化规律,最终由MLP输出单元得到效价、唤醒度等具体情绪维度的识别结果。

Figure 1. GCN-LSTM model structure

1. GCN-LSTM模型结构

其各单元的功能如下:

1) 频域特征构建单元:首先接入原始脑电采集信号,通过多支路快速傅里叶变换(FFT)分别提取不同维度的频域特征,随后将这些分维度的频域特征做统一聚合,形成标准化的频域特征表示,并将其传递至GCN单元;

2) GCN单元:由图卷积运算单元、ReLU非线性激活层、Dropout正则化层及全局池化层依次串联构成:先通过图卷积单元完成特征维度间关联关系的挖掘,经ReLU激活层强化特征的非线性表征能力,再通过dropout系数配置为0.2的正则化层缓解训练过拟合风险,最后由全局池化层压缩特征维度,输出融合了关联信息的特征向量;

3) LSTM单元:依托遗忘门、输入门、细胞状态更新机制及输出门的协同运算,对GCN单元输出的特征做时序维度的动态演化建模,捕捉特征在时间轴上的演变模式,最终输出包含时序信息的隐状态特征;

4) MLP输出单元:将LSTM单元的隐状态特征输入全连接映射层,经ReLU激活层提升非线性映射的灵活性后,再通过第二级全连接层完成特征维度的最终转换,输出效价、唤醒度、厌恶、喜悦等具体情绪维度的识别结果。

3.1.1. 模型设计背景与目标

脑电情绪识别中,脑电信号具非欧氏空间分布(电极按10~20系统排列)与长时序动态特性,传统深度模型仅能单一捕捉特征,限制识别性能。本研究提出GCN-LSTM融合模型,以GCN建模空间、LSTM捕捉时序,协同提取特征提升识别性能,该模型为论文核心创新点,也是DEAP数据集93.21%最高准确率的关键支撑。

3.1.2. 层级结构与功能细节

GCN空间特征提取模块[2]

该模块设3层图卷积单元,为处理脑电空间特征的核心,适配通道空间属性:参数上,输入8064→输出4032,用ReLU激活拟合非线性特征,0.2 dropout抑过拟合,全局池化将32通道 × 512维聚合为1 × 512维向量;图结构建模上,将DEAP的32个脑电通道设为“节点”,以两种策略构建邻接矩阵量化通道空间关联。

基于空间距离向量:首先通过电极坐标计算32个通道间的欧氏距离,设第 i 个脑电通道的三维坐标为 x i =( x i1 , x i2 , x i3 ) ,第 j 个通道坐标为 x j =( x j1 , x j2 , x j3 ) ,则两通道的欧氏距离为:

d ij = ( x i1 x j1 ) 2 + ( x i2 x j2 ) 2 + ( x i3 x j3 ) 2 (1)

d ij 0.7 时判定两通道存在空间关联;为凸显关联强度差异,对符合条件的距离值取倒数(距离越小,倒数越大,关联越强),并通过下式进行[0, 1]归一化处理,最终形成32 × 32的空间距离邻接矩阵 A dist

d ^ ij = 1/ d ij max( 1/ d ik ) ( k=1,2,,32 ) (2)

基于空间距离向量:首先通过电极坐标计算32个通道间的欧氏距离,当距离 ≤ 0.7时判定两通道存在空间关联;为凸显关联强度差异,对符合条件的距离值取倒数(距离越小,倒数越大,关联越强),并进行[0, 1]归一化处理,最终形成32 × 32的空间距离邻接矩阵🔶1-295。

基于皮尔逊相关系数:调用corrcoef()函数计算两两通道脑电信号的线性相关系数,设第 i 个通道的脑电时序信号为 s i =[ s i1 , s i2 ,, s iT ] ( T=8064 为采样点总数),第 j 个通道信号为 s j =[ s j1 , s j2 ,, s jT ] ,则两者的皮尔逊相关系数为:

r ij = t=1 T ( s it s ¯ i )( s jt s ¯ j ) t=1 T ( s it s ¯ i ) 2 t=1 T ( s jt s ¯ j ) 2 (3)

其中 s ¯ i = 1 T t=1 T s it s ¯ j = 1 T t=1 T s jt 分别为两信号的均值。当 r ij >0.5 时认定通道间存在显著生理关联,直接以 r ij 作为边权重,构建32 × 32的相关性邻接矩阵 A corr ;否则边权重设0。

功能优势:通过上述设计,GCN模块可有效捕捉大脑不同区域通道的协同活动(如额叶 α 波不对称性与情绪效价的关联、顶叶 θ 波与积极情绪的相关性),解决传统模型忽视脑电空间关联的缺陷,为情绪识别提供空间维度的生理特征支撑。

LSTM时序特征捕捉模块

该模块采用单一层级设计,专门针对脑电信号的时序特性优化,是模型捕捉情绪动态变化的核心:

参数设计:包含2个隐藏状态,每个隐藏状态设置3个计算单元,可同时记忆不同时间尺度的时序特征;输入为GCN模块输出的1 × 512维空间特征向量 x space ,经时序建模后输出维度扩展至1 × 1536,实现空间特征与时序特征的维度匹配。

门控机制工作原理:LSTM通过输入门、遗忘门、输出门的协同作用,解决传统循环神经网络(RNN)在长序列处理中易出现的梯度消失问题,设时刻 t 的输入为 x space,t ,上一时刻隐藏状态为 h t1 512 ,细胞状态为 C t1 512 ,则各模块计算过程如下:

遗忘门:通过sigmoid激活函数生成[0, 1]区间的权重值,决定是否保留上一时刻细胞状态中的信息(如保留前10秒脑电信号中与情绪相关的 α 波特征,遗忘无关噪声):

f t =σ( W f [ h t1 , x space,t ]+ b f ) (4)

其中 W f 为遗忘门权重矩阵, b f 为遗忘门偏置, σ 为sigmoid激活函数( σ( x )= 1 1+ e x )。

输入门:同样通过sigmoid激活函数筛选新输入的空间特征(如筛选当前时刻与情绪唤醒度相关的 β 波特征),并通过tanh函数生成候选细胞状态:

i t =σ( W i [ h t1 , x space,t ]+ b i ) (5)

C ˜ t =tanh( W C [ h t1 , x space,t ]+ b C ) (6)

其中 W i W C 分别为输入门、候选细胞状态的权重矩阵, b i b C 分别为对应偏置。

输出门:结合当前细胞状态与sigmoid权重,决定输出至下一时刻的特征信息(如输出当前时刻情绪效价相关的时序特征):

o t =σ( W o [ h t1 , x space,t ]+ b o ) (7)

h t = o t tanh( C t ) (8)

最终时序特征向量为 x time = h T 1×1536 ( T 为时序长度)。

时序适配性:针对DEAP数据集63秒的长时序脑电信号,LSTM模块可稳定记忆情绪刺激下的长期动态变化(如观看积极视频时, θ 波功率随时间逐渐提升、 γ 波活跃度阶段性增强的规律),避免传统模型仅能捕捉短期时序关联的局限。

MLP结果输出模块

作为模型的最终输出单元,MLP模块承担特征融合与结果映射的功能,设计上贴合情绪的连续特性:

采用2层全连接结构,第一层以LSTM输出的1 × 1536维时序特征向量 x time 为输入,通过线性变换将维度压缩至1 × 64;第二层进一步压缩至1 × 1,输出连续的预测得分。具体公式如下:

第一层全连接(特征压缩):

x mlp1 =ReLU( W 1 x time T + b 1 ) (9)

其中 W 1 64×1536 b 1 64 x mlp1 64×1

第二层全连接(结果输出):

y ^ = W 2 x mlp1 + b 2 (10)

其中 W 2 1×64 b 2 1 y ^ 为情绪维度的预测得分。

MLP在DEAP数据集表现最差,效价73.14%、唤醒度75.34%、支配度72.19%、喜好度69.82%。核心缺陷:无空间/时序建模能力,人工单一特征丢失情绪信息;全连接参数多 + DEAP规模小,过拟合风险高、泛化差;无法适配脑电非线性动态,仅处理静态特征。

Figure 2. GCN adjacency matrix heatmap

2. GCN邻接矩阵热力图

为量化脑电通道间的功能关联,本研究通过皮尔逊相关系数构建32通道的邻接矩阵,其相关性分布如图2所示。热力图中颜色深浅直观反映通道间关联强度,例如额叶、顶叶等情绪相关脑区的通道(如Ch1-Ch8、Ch17-Ch24)呈现深红色(高相关系数),说明这些脑区在情绪活动中存在显著协同性;而枕叶部分通道(如Ch25-Ch32)相关性相对较低。该图清晰展现了GCN对脑电空间关联的建模逻辑[3],为后续模块性能奠定了特征基础。

3.1.3. 数据适配性与训练性能

脑电数据专项适配[4]

特征选择优化:模型通过对比“时间序列信号、统计特征、频域特征”三类节点特征,最终确定以频域特征作为输入。频域特征通过快速傅里叶变换(FFT)将原始脑电信号从时域转换至频域,公式如下:

S( k )= n=0 N1 s( n ) e j2πkn/N (11)

其中 s( n ) 为时域采样信号( n=0,1,,N1 ), N=256 为窗口大小, S( k ) 为频域信号。采用256为窗口大小、16为步长(每0.125秒滑动一次,覆盖前方2秒数据)进行采样,最终得到2440个频域特征,该特征可有效反映不同频段( δ θ α β γ 波)与情绪的关联(如积极情绪下 θ 波功率提升、放松状态下 α 波增强)。

图结构与时序的协同:GCN模块处理的32个通道节点,与LSTM模块处理的8064个采样点形成“空间–时间”双维度覆盖,精准适配脑电信号“空间分布不均、时间动态变化”的双重属性,避免单一维度建模的局限性。

训练环境与性能表现

训练环境参数:基于Intel (R) Core (TM) i9-12900HX CPU、GeForce GTX4060 GPU硬件平台,采用Python 3.9编程语言与PyTorch 2.2.1深度学习框架,操作系统为Windows 11,确保模型高效训练与数据处理。

训练策略与损失函数:批量大小(batchsize)设为128,学习率为0.001,损失函数选用均方误差(MSELoss)适配连续得分预测任务,公式如下:

Loss= 1 M m=1 M ( y ^ m y m ) 2 (12)

其中 M 为批量样本数, y ^ m 为第 m 个样本的预测得分, y m 为第 m 个样本的真实标签(受试者主观评分)。优化器采用Adam (自适应学习率,加速收敛);数据集按6:1:1比例随机划分为训练集、验证集与测试集,通过sklearn库的train_test_split()函数实现交叉验证,确保模型泛化能力。

训练结果:实验结果显示,该模型在DEAP数据集四个情绪维度上均表现优异:效价维度准确率93.21%、唤醒度维度93.82%、支配度维度92.83%、喜欢度维度91.11%,显著优于传统模型。

3.2. 基础参考模型:卷积神经网络(CNN)

3.2.1. 模型定位与结构

CNN作为深度学习领域处理结构化数据的经典架构,为本文GCN模块的设计提供基础参考。其核心结构包含输入层、卷积层、池化层、全连接层与输出层:

卷积层:通过固定大小的卷积核(如3 × 3)在数据上滑动,提取局部特征(如图像边缘、纹理),核心优势为“局部连接 + 权值共享”,可减少参数数量、降低计算复杂度,卷积操作公式为:

Y( i,j )= p=0 k1 q=0 k1 K( p,q )X( i+p,j+q ) +b (13)

其中 K k×k 卷积核, X 为输入特征图, b 为偏置, Y 为输出特征图。

池化层:采用最大池化或平均池化,对卷积层输出的特征图进行降维,保留关键特征的同时抑制过拟合,最大池化公式为:

Y( i,j )= max s1 p=0 max s1 q=0 X( is+p,js+q ) (14)

其中 s 为池化步长。

全连接层:将池化层特征映射为一维向量,经线性变换与激活函数输出结果。

本研究中,CNN主要为GCN的“特征提取逻辑”提供借鉴(如局部特征聚合思路),并非核心模型。

3.2.2. 脑电任务适配局限

尽管CNN在规则网格数据处理中表现突出,但脑电信号非欧氏特性使其难以适配:一是电极按“10~20国际标准导联系统”分布不规则,无规则网格结构;二是固定大小卷积核无法覆盖非规则通道,难以捕捉跨脑区协同活动;三是仅能提取局部连续特征,无法像GCN那样量化通道非连续关联。故CNN仅作为基础参考,未被选为核心模型。

3.3. 对比验证模型:多层感知机(MLP)与门控循环单元(GRU)

为验证GCN-LSTM融合模型的优越性,本研究引入MLP与GRU作为对比模型,通过性能差异凸显核心模型的创新价值。

3.3.1. 多层感知机(MLP)

模型结构与定位

MLP为传统全连接神经网络[5],采用“输入层–隐藏层–输出层”的简单架构:输入层接收人工提取的脑电特征,隐藏层通过全连接权重实现特征变换,输出层输出情绪分类结果或预测得分。该模型主要用于验证“无空间/时序建模”的传统模型在脑电情绪识别中的局限性。

性能缺陷与原因

MLP在DEAP数据集表现最差,效价、唤醒度、支配度、喜欢度维度准确率分别为73.14%、75.34%、72.19%、69.82%。其核心缺陷为:无空间/时序建模能力,仅靠人工单一特征丢失情绪相关信息;全连接结构参数多且DEAP数据集规模小,过拟合风险高、泛化能力差;无法适配脑电非线性与动态特性,仅能处理静态特征。

3.3.2. 门控循环单元(GRU)

模型结构与定位

GRU是传统RNN的改进版本,通过“更新门”与“重置门”简化LSTM的门控机制,更新门控制上一时刻状态的保留比例,重置门控制上一时刻状态对当前候选状态的影响程度,核心公式如下:

更新门: z t =σ( W z [ h t1 , x t ]+ b z ) (15)

重置门: r t =σ( W r [ h t1 , x t ]+ b r ) (16)

候选隐藏状态: h ˜ t =tanh( W h ˜ [ r t h t1 , x t ]+ b h ˜ ) (17)

隐藏状态更新: h t =( 1 z t ) h t1 + z t h ˜ t (18)

GRU较LSTM简洁,主要捕捉时序特征,用于验证“仅时序建模、无空间建模”以凸显GCN空间价值;其在DEAP数据集优于MLP (效价86.23%等)、远低于GCN-LSTM,优势是门控机制捕捉脑电时序、避免传统RNN梯度消失,不足是无空间建模能力、长时序记忆弱于LSTM,且准确率比GCN-LSTM低6.98%~9.28%,印证“空间 + 时序”双建模必要性。

4. 实验及结果分析

4.1. 数据集

实验采用的DEAP (脑电情绪分析数据集),是英国伦敦玛丽女王大学2012年构建的脑电情绪识别经典基准公开数据集。含32名健康受试者(男15、女17,19~37岁),每人观看40段60秒情绪视频,同步采集40通道信号(32脑电 + 8外周生理),脑电按10~20系统分布于情绪相关脑区,采样512 Hz;受试者从效价、唤醒度、支配度、喜好度4维度(1~9分,各维度含极值定义)评分作标签。原始数据经降采样(512→128 Hz)、ICA去伪迹、4~45 Hz滤波后,每人40段视频对应40 × 40 × 8064矩阵;数据集按6:1:1分为训练集(参数迭代)、验证集(调优监测)、测试集(性能评估),样本量见表1

4.2. 实验设置

实验基于Python 3.9环境实现,深度学习框架采用PyTorch 2.2.1,硬件环境为Intel (R) Core (TM) i9-12900HX CPU、GeForce GTX 4060 GPU (8 GB显存),软件依赖包括NumPy 1.25.2、Pandas 2.0.3、Scikit-learn 1.3.0、Gradio 3.28.3,相关数据见表1

Table 1. Experimental data statistics

1. 实验数据统计

数据集类型

样本量

覆盖受试者数

数据维度

标签维度

训练集

768

32

3240 × 8064

效价、唤醒度、支配度、喜好度

验证集

128

32

3240 × 8064

效价、唤醒度、支配度、喜好度

测试集

128

32

3240 × 8064

效价、唤醒度、支配度、喜好度

4.3. 对比模型

为验证GCN-LSTM融合模型的优越性,选取脑电情绪识别领域的2类主流模型作为基线,均为该任务中的经典方法,具体如下:

1) 多层感知机(MLP):传统深度学习模型,含3层全连接层(输入层2440维隐藏层1280维→输出层1维),仅通过全连接层对特征进行非线性映射,无空间与时序特征建模能力。

2) 门控循环单元(GRU):LSTM的简化版本,含1层GRU (隐藏单元数 = 512) + 2层全连接层,通过更新门与重置门捕捉脑电信号的时序依赖,但无法处理非欧氏空间的通道关联特征。

4.4. 对比实验结果

各模型在DEAP数据集4个情绪维度性能见表2,核心结论如下:GCN-LSTM性能最优,各维度准确率均超MLP、GRU,平均92.74%,唤醒度最高(93.82%)、喜好度较低(91.11%),因喜好度受个体主观偏好影响大;GRU平均准确率84.68%,优于MLP但弱于GCN-LSTM,因无通道空间建模能力,效价仅86.23%,比GCN-LSTM低6.98个百分点;MLP性能最差,平均仅74.39%,因无时序/空间建模能力,且小数据集易过拟合。

对比实验中,通过图3可以得到,GCN-LSTM融合模型的平均准确率达92.74%,较GRU (84.68%)提升8.06%,较MLP (74.39%)提升18.35%。这一结果直观印证了“空间–时序双建模”相较于单一维度模型的性能优势,凸显了GCN-LSTM在脑电情绪识别任务中的综合竞争力。

Table 2. Results of model comparison

2. 模型对照结果

模型

效价

唤醒度

支配度

喜好度

平均准确率

MLP

73.14%

75.34%

72.19%

69.82%

74.39%

GRU

86.23%

84.54%

85.02%

82.17%

84.68%

GCN-LSTM

93.21%

93.82%

92.83%

91.11%

92.74%

Figure 3. Comparison of average accuracy of three models

3. 三模型平均准确率对比

4.5. 消融实验

实验构建4个GCN-LSTM简化模型[6],对比其与完整模型在效价维度的性能(如下表3),核心结论如下:单一模块性能有限,仅GCN (78.56%)或仅LSTM (81.24%)均无法同时捕捉空间关联与时序动态特征;GCN有显著空间建模增益,LSTM + GCN (无频域特征,88.37%)较单一LSTM准确率提升7.13个百分点;频域特征作用关键,完整模型较“GCN-LSTM + 时域特征”(85.62%)准确率提升7.59个百分点,更能精准反映情绪相关神经活动。

Table 3. Results of module ablation experiment

3. 模块消融实验结果

模型

准确率

关键模块

GCN

78.56%

无时域特征

LSTM

81.24%

无空间特征

LSTM + GCN

88.37%

无频域特征

GCN-LSTM

85.62%

频域特征

实验设置空间距离、皮尔逊相关系数两种边特征,探究通道关联方式对模型性能的影响[7]。如图4的结果显示,皮尔逊相关系数组在所有维度准确率均高于空间距离组:效价维度高0.68个百分点,唤醒度维度高0.91个百分点。原因是脑电通道关联性取决于神经活动协同性,而非单纯物理空间距离,皮尔逊相关系数能更精准量化这种功能关联。

Figure 4. Comparison of two types of edge features

4. 两种边特征对比

在GCN模块邻接矩阵构建中,对比了空间距离与皮尔逊相关系数两种边特征的效果结果(表4)显示,皮尔逊相关系数在所有情绪维度的准确率均高于空间距离,其中效价维度高0.68个百分点,唤醒度维度高0.91个百分点。这表明脑电通道的功能关联性更依赖神经活动协同性而非物理距离,皮尔逊相关系数能更精准量化这种关联,为模型空间建模提供了优化方向。

Table 4. Results of edge feature ablation experiment

4. 边特征消融实验结果

边特征类型

效价

唤醒度

支配度

喜好度

空间距离

92.53%

92.91%

91.76%

90.24%

皮尔逊相关系数

93.21%

93.82%

92.83%

91.11%

4.6. 案例分析

为直观展示GCN-LSTM模型的性能[8],选取3名受试者(ID = 5、ID = 18、ID = 29)的脑电数据进行案例分析,输入“频域特征 + 皮尔逊相关系数”组合后,模型预测结果与真实得分的对比如表5所示:

Table 5. Case analysis results

5. 案例分析结果

受试者ID

情绪维度

真实得分

预测得分

差值

情绪分类(真实/预测)

5

效价

7.2

7.4

0.2

积极/积极

5

唤醒度

8.3

8.1

0.2

兴奋/兴奋

18

支配度

4.1

4.3

0.2

被动/被动

18

喜好度

6.8

6.6

0.2

喜欢/喜欢

29

效价

3.7

3.5

0.2

消极/消极

29

唤醒度

2.6

2.8

0.2

平静/平静

由表可知:3个案例的预测得分与真实得分差值均 ≤ 0.3,符合“有效预测”标准;

情绪分类(以5分为界:≤5为消极/平静/被动,>5为积极/兴奋/主动)完全准确,如受试者ID = 5的效价真实得分为7.2,预测得分为7.4,均判定为“积极情绪”,与受试者主观感受一致。

案例结果进一步验证了模型对不同个体脑电信号的适应性,以及对情绪得分预测的准确性。

Figure 5. Scatter plot of predicted values vs. true values

5. 预测值与真实值散点图

选取3名受试者进行案例验证,预测结果与真实得分的对比情况如图5所示。散点图中所有样本均分布在±0.3误差带内,误差分析图显示最大绝对误差仅0.2,且情绪分类完全准确。该图直观印证了GCN-LSTM模型对个体脑电信号的适配性,进一步增强了研究结论的可信度。

5. 结论

本文聚焦脑电情绪识别中“非欧氏空间建模”与“长时序动态捕捉”核心难题,提出GCN-LSTM融合模型,以GCN挖掘脑电通道空间关联、LSTM捕捉情绪信号时序动态,结合频域特征实现空-时特征协同提取,有效提升识别准确性。实验表明,该模型在DEAP数据集效价、唤醒度维度性能显著优于MLP、GRU等对比模型,验证了其有效性与适用性。

但研究仍有不足:一是依赖DEAP小规模样本,模型跨被试泛化能力待提升;二是模型复杂度较高,实时推理效率难以满足部分即时性场景需求。

未来研究可从三方面展开:引入元学习增强跨被试泛化能力;优化模型结构降复杂度、提实时性能;融合多模态生理数据完善情绪表征,推动其在健康医疗、人机交互领域的实际应用。

基金项目

项目资助:江西省高等教育学会重点课题PA-C-004,江西省高等学校大学生创新创业训练计划项目S202513432005。

NOTES

*通讯作者。

参考文献

[1] 赵莹莹, 李刚, 王健. 基于图卷积神经网络的脑电情绪空间特征提取与识别[J]. 自动化学报, 2021, 47(5): 1123-1132.
[2] 钟扬, 陈明, 刘敏. 结合CNN与GRU的脑电情绪时空特征协同建模研究[J]. 电子学报, 2020, 48(12): 2356-2363.
[3] 刘畅, 张宇, 李丽. 基于注意力机制的GCN-LSTM 脑电情绪识别模型[J]. 模式识别与人工智能, 2022, 35(3): 245-253.
[4] 王瑞, 马超, 陈曦. 脑电信号频域特征优化与深度学习情绪识别[J]. 仪器仪表学报, 2021, 42(7): 189-197.
[5] 陈雨婷, 吴昊, 张磊. 跨被试脑电情绪识别中的域自适应方法研究[J]. 计算机应用研究, 2023, 40(2): 456-462.
[6] Zhang, Y., Li, D. and Wang, H. (2020) EEG Emotion Recognition Based on GCN-LSTM Hybrid Model with Attention Mechanism. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 28, 1621-1630.
[7] Li, S., Zhang, J. and Chen, W. (2021) Spatiotemporal Feature Fusion for EEG Emotion Recognition Using CNN and BiLSTM. Neural Computing and Applications, 33, 9245-9256.
[8] Wu, X., Liu, Y. and Zhao, J. (2019) EEG Emotion Recognition with Graph Convolutional Networks: A Comparative Study. Journal of Neural Engineering, 16, Article 056019.