1. 引言
癫痫是一种慢性神经系统疾病,全球约有5000万人受其影响,其特征是反复发作的非自主性抽搐,常伴随意识丧失和尿失禁等症状[1],不仅会对患者的精神与认知功能造成持续性负面影响,甚至可能危及生命[2]。脑电图(EEG)作为记录脑电活动的重要工具,在癫痫的诊断和监测中得到了广泛应用[3]。目前,癫痫诊断主要依赖神经科专家对脑电图(EEG)记录的视觉检查。但手动标注冗长的EEG数据耗时费力,难以满足日益增长的临床需求,因此开发自动癫痫检测系统具有重要的临床价值,既能减轻患者的身心和经济负担,又能降低医疗专家的工作量[4]。
在过去的几十年里,癫痫发作自动检测引起了越来越多的研究关注,各种脑电信号的分类和识别算法得到了广泛的研究[5]。自20世纪80年代,Gotman [6]提出一种基于脑电图半波分解识别癫痫发作节律活动的检测策略以来,多种信号处理和机器学习技术被应用于该领域。随后,探索了支持向量机(SVM) [7]、k-近邻(k-NN) [8]、随机森林(RF) [9]和朴素贝叶斯[10]等机器学习算法用于脑电信号的模式识别。例如,Shanmugam等[10]提出一种基于机器学习的癫痫发作检测方法,通过对脑电图信号进行预处理、小波变换分解,并利用高斯径向基函数核的非线性支持向量机完成分类,经训练后在FPGA上实现,以少量特征实现了良好的检测性能。Wang等[11]提出一种癫痫发作自动检测与识别方法,先通过经验模态分解将脑电图信号分解为多个本征模态函数,再计算首个本征模态函数的均值、标准差、波动指数和样本熵,最后采用粒子群算法优化的支持向量机与K-近邻融合算法进行分类。Donos等[8]提出一种易于在微控制器上实现的癫痫发作检测算法,以用于植入式闭环刺激设备,其从发作起始区的一个颅内脑电图触点中提取11个简单的时域和功率带特征,并用随机森林分类器进行分类,该算法实现了良好的检测性能。这些基于机器学习的癫痫检测方法通常需要手工提取和选择特征,而选择最佳特征通常需要广泛的专业知识。
随着深度学习技术的发展,近年来人们提出了越来越多基于深度学习的癫痫发作预测方法[12]。Acharya等[13]率先将卷积神经网络(Convolutional Neural Network, CNN)应用于脑电图信号的分析,实现了一个13层的深度CNN来进行多类癫痫脑电图的分类。高云园等[14]通过多尺度符号化排列传递熵分析多通道脑电交互信息生成同步矩阵,融合功率谱密度能量图和同步矩阵图,利用深度卷积神经网络(DCNN)评估癫痫发作预测性能。Li等[15]提出通过短时傅里叶变换提取脑电信号时频特征,利用CNN与Transformer交替结构实现癫痫发作预测。Hu等[16]与Li等[17]分别构建了融入双向长短期记忆(Bi-LSTM)的神经网络架构。该架构能够有效捕捉脑电图(EEG)时间序列中的时间依赖性,进而实现癫痫发作的自动检测。由于这些方法引入了双向信息流机制,因此其性能相较传统LSTM网络得到了显著提升。
尽管现有研究推动了癫痫自动检测的发展,但仍存在诸多局限性。传统机器学习方法依赖手工特征工程,其性能受限于研究者的领域知识,难以自适应捕捉EEG信号的非线性、非平稳特性,且对噪声敏感、泛化能力有限;深度学习方法中,纯CNN架构擅长提取局部模式却难以建模长程时序依赖,LSTM/Bi-LSTM虽能捕捉时序关系但对局部细微特征(如癫痫特异性尖波)敏感性不足,在短序列数据上易过拟合;而CNN与Transformer的简单结合虽试图兼顾局部与全局特征,但Transformer的自注意力机制在短序列上存在计算冗余,且固定融合方式难以适配样本特征分布差异。
针对这些问题,本文提出一种融合多尺度卷积与轻量化时序建模的并行网络架构(Parallel Attention-Based Multiscale Feature Correlation-Informer Network, PAMFC-InfoNet)。该架构通过AMFC分支与Informer分支的协同学习实现特征互补:AMFC分支整合通道注意力与多尺度深度卷积,结合残差连接增强局部特征提取能力;Informer分支采用轻量化概率注意力机制,高效捕捉长程时序依赖;同时引入动态加权融合策略,根据特征分布自适应调整双分支权重。整体模型经轻量化设计,在平衡特征提取全面性与计算效率的同时,提升癫痫模式识别的鲁棒性与准确性。
Figure 1. Flowchart of the detection method for epileptic seizures
图1. 癫痫发作检测方法流程
图1为本文方法流程图,清晰展示了PAMFC-InfoNet模型用于癫痫发作检测的完整过程,主要包含数据输入、预处理、双分支特征提取、动态加权融合及分类输出五个核心环节。首先,输入单通道或多通道EEG原始信号;随后通过数据预处理(如滑窗分割、噪声增强、类别平衡处理)生成标准化样本;接着,AMFC分支聚焦局部细微特征(尖波/棘波)提取,Informer分支专注长程时序依赖建模;借助动态加权融合策略自适应整合双分支特征;最终经分类网络输出发作期/发作间期的检测结果,为临床癫痫自动检测提供端到端的解决方案。
2. 材料与方法
2.1. 数据来源和数据预处理
2.1.1. 数据来源
本文采用两个公开的脑电图数据集验证模型性能,具体信息如下:
1) 波恩大学脑电图癫痫数据集
该数据集包含5组单通道脑电图记录(A~E),每组含100个时间序列样本,采样频率173.61 Hz,分辨率12位,单个样本时长23.6秒(含4096个采样点)。其中,A组为睁眼状态下的正常脑电图,B组为闭眼状态下的正常脑电图,C组和D组为发作间期脑电图,E组为发作期脑电图。为验证模型对“发作期vs正常/间期”的二分类能力,实验选取A组(正常)与E组(发作期)样本进行训练与评估。波恩大学数据集的描述如表1所示。
Table 1. Detailed information of the University of Bonn dataset
表1. 波恩大学数据集的详细信息
|
健康人 |
癫痫患者 |
Z |
O |
N |
F |
S |
状态 |
睁眼 |
闭眼 |
发作间期 |
发作间期 |
发作期 |
数据类型 |
头皮层 |
头皮层 |
颅内 |
颅内 |
颅内 |
电极位置 |
头皮 |
头皮 |
海马结构处 |
病灶区 |
病灶区 |
2) CHB-MIT头皮脑电图数据集
该数据集是由波士顿儿童医院(CHB)和麻省理工学院(MIT)联合采集的头皮脑电数据集[18],其中包含22名受试者(5名男性,年龄3~22岁;17名女性,年龄1.5~19岁)的23例记录,其中1例(第21例记录)为同一女性受试者(1号受试者) 1.5年后的复查数据。所有头皮脑电图记录均使用了如图2所示的国际10~20 EEG电极位置和命名系统方式,共采用23~26个电极采集。数据采样频率为256 Hz,分辨率为16 bit。CHB-MIT数据集的描述如表2所示。
Table 2. Detailed information of the CHB-MIT dataset
表2. CHB-MIT数据集的详细信息
患者 |
性别 |
年龄 |
发作数量 |
发作时长(s) |
1 |
女 |
11 |
7 |
442 |
2 |
男 |
11 |
3 |
172 |
3 |
女 |
14 |
7 |
402 |
续表
4 |
男 |
22 |
4 |
378 |
5 |
女 |
7 |
5 |
558 |
6 |
女 |
1.5 |
10 |
138 |
7 |
女 |
14.5 |
3 |
325 |
8 |
男 |
3.5 |
5 |
919 |
9 |
女 |
10 |
4 |
276 |
10 |
男 |
3 |
6 |
447 |
11 |
女 |
12 |
3 |
806 |
12 |
女 |
2 |
27 |
1475 |
13 |
女 |
3 |
12 |
535 |
14 |
女 |
9 |
8 |
109 |
15 |
男 |
16 |
20 |
1992 |
16 |
女 |
7 |
10 |
84 |
17 |
女 |
12 |
3 |
293 |
18 |
女 |
18 |
6 |
317 |
19 |
女 |
19 |
3 |
236 |
20 |
女 |
6 |
8 |
294 |
21 |
女 |
13 |
4 |
199 |
22 |
女 |
9 |
3 |
204 |
23 |
女 |
6 |
7 |
424 |
24 |
- |
- |
16 |
511 |
汇总 |
- |
9.98 |
184 |
11,536 |
Figure 2. Positions of EEG electrodes in the international 10~20 system
图2. 国际10~20 EEG电极位置
2.1.2. 数据预处理
对于波恩大学数据集,为匹配模型输入序列长度,将A组与E组样本均分割为64秒片段并随机打乱;考虑到深度神经网络具备自动提取特征及噪声鲁棒性,未进行归一化等预处理操作,模型性能评估采用5折交叉验证策略,统计准确率、灵敏度、特异性、假阳性率及受试者工作特征曲线下面积(AUROC)的均值,以全面反映模型稳定性。
对于CHB-MIT数据集,首先明确两类生理状态的时间边界:发作期区间为发作起止时间前后各扩展32秒(排除监测初始20分钟内的发作),发作间期区间为连续1小时无发作的记录片段,通过时间戳匹配解决跨文件记录的时间连续性问题,保证区间提取的准确性。鉴于癫痫发作期与发作间期信号在时长上存在显著差异而导致的类别不平衡问题,采用4秒窗口尺度的滑窗技术来分割癫痫发作数据。具体而言,针对时程较短且长度不一的发作期数据,采用动态步长的重叠滑窗进行分割,并结合高斯噪声注入增强数据,同时对发作间期样本随机欠采样,使两类样本比例接近1:1;对于长时程的发作间期数据,则采用无重叠滑窗处理,以此适配两类数据的时序特征差异。模型评估采用与波恩大学数据集一致的交叉验证策略及指标,确保结果可比性。
2.2. 特征提取和降维
2.2.1. 特征提取
为从原始EEG信号中提取能表征癫痫发作模式的量化指标,采用时域统计特征与复杂性熵特征相结合的方法,通过量化信号的振幅特性、分布形态及动态复杂性,为后续分类模型提供判别性输入。特征提取流程针对22通道EEG数据设计,采样率为256 Hz,采用64秒固定窗口分割信号,每个窗口对应一段连续脑电记录,最终生成264维特征向量(22通道 × 12特征)。
特征提取聚焦于EEG信号的振幅分布特性与动态复杂性,前者反映发作期脑电信号的能量异常(如高振幅尖波),后者表征发作前后脑电模式的无序度变化。12类特征按物理意义分为统计特征(7类)与熵特征(5类),所有特征均在单个通道内独立计算,避免跨通道干扰,同时采用数值稳定技术(如加性小量避免对数运算溢出)确保特征值的有效性。具体定义如表3所示:
Table 3. Extracted features and their definitions
表3. 提取的特征及定义
特征
类别 |
特征名称 |
公式 |
物理意义与癫痫检测相关性 |
统计
特征 |
均值(Mean) |
,
为采样点振幅,
为窗口采样数
|
反映信号整体能量水平,发作期因高振幅尖波/棘波增多而显著升高。 |
方差(Variance) |

|
描述信号波动程度,发作期脑电活动剧烈,方差值显著大于发作间期。 |
偏度(Skewness) |
,
为标准差
|
表征信号分布对称性,发作期因高振幅信号占比增加呈右偏(偏度 > 0),间期多接近对称分布(偏度 ≈ 0)。 |
峰度(Kurtosis) |

|
反映分布陡峭程度,发作期因尖波/棘波密集出现呈“尖峰态”(峰度 > 0),间期多为“平峰态”(峰度 ≈ 0)。 |
续表
|
变异系数(CV) |
(
时,则为0) |
消除量纲的相对波动指标,发作期因能量与波动同步增加,CV值可稳定区分发作期与发作间期。 |
平均绝对偏差(MAD) |

|
通过计算所有采样点与均值的绝对差值的算术平均值,有效表征信号的波动程度,且对异常值具有更好的稳健性,适合处理含噪声的EEG数据。 |
均方根振幅(RMSA) |

|
直接量化信号能量强度,发作期因同步放电增强,RMSA值明显升高。 |
熵特征 |
香农熵(Shannon Entropy) |
,
为幅值概率分布,
为离散区间数
|
表征信号无序度,发作期脑电活动同步性增强,无序度降低,
值显著减小。 |
对数能量熵(Log Energy Entropy) |
,E为信号能量 |
增强高能量成分敏感性,发作期因尖波能量集中,
值较间期更低。 |
谱熵(Spectral
Entropy) |
,
为功率谱密度分布
|
频域无序度指标,发作期特征频率(8~13 Hz)能量集中,
值降低。 |
雷尼熵(Renyi
Entropy) |

|
侧重高概率事件贡献,对发作期主导节律(如棘慢波)更敏感,区分度优于香农熵。 |
蔡氏熵(Tsallis
Entropy) |

|
非广延熵模型,适配脑电非线性特性,对发作前后模式转换的捕捉更灵敏,鲁棒性优于传统熵指标。 |
2.2.2. 特征降维
每个样本提取264个特征(每通道12个特征,包括脑电图振幅的均值、方差、偏度、峰度、变异系数、中位数绝对偏差、均方根振幅(RMSA)、香农熵、对数能量熵、谱熵、雷利熵及蔡氏熵)。由于模型输入大小为64,且相关性分析显示各通道特征无强相关性,故采用主成分分析(PCA)结合奇异值分解(SVD)进行线性降维。
PCA的核心是通过正交变换将高维特征映射到低维子空间,其数学过程如下:设原始特征矩阵为
(
为样本数),首先对特征进行中心化处理(减去均值)得到
;随后通过SVD分解将矩阵表示为
,其中
为特征向量矩阵,列向量对应原始特征空间的正交基;最后选取前64个特征向量构成投影矩阵
,将原始特征投影至低维空间:
,其中
即为降维后的特征矩阵,每个样本由64个主成分表示。
通过上述处理,两类数据集均适配模型输入需求,同时保留癫痫相关的关键特征,为后续模型训练与性能验证奠定基础。
2.3. PAMFC-InfoNet模型
本文提出的PAMFC-InfoNet (Parallel Attention-Based Multiscale Feature Correlation-Informer Network)是一种基于双分支平行架构的癫痫检测模型,旨在通过多尺度特征提取与长程时序依赖建模的协同学习,实现对EEG信号中癫痫模式的精准识别。该网络整体结构如图3所示,主要包含AMFC分支、Informer分支及动态特征融合模块三部分,各模块通过互补协作实现特征的全面捕捉。
PAMFC-InfoNet的癫痫检测流程可概括为:
1) 输入单通道短序列EEG数据(形状为[B, 1, L],其中B = 32为批量大小,L = 64为序列长度);
2) AMFC分支通过注意力增强、多尺度卷积与特征间相关性建模,输出局部细微特征向量(32维);
3) Informer分支通过ProbSparse注意力捕捉长程时序依赖,输出全局时序特征向量(32维);
4) 动态加权融合两个分支特征,经分类网络输出检测结果(发作期/发作间期)。
该架构通过双分支平行协作,既保留了卷积网络对局部瞬态模式的敏感性,又发挥了注意力机制对长程时序关联的建模能力;同时,动态融合策略可自适应调整不同样本中两分支的贡献权重,为癫痫检测提供更全面的特征支撑。
Figure 3. Architecture of the PAMFC-InfoNet model
图3. PAMFC-InfoNet模型结构
2.3.1. AMFC分支:多尺度特征相关性特征提取
AMFC (Attention-Based Multiscale Feature Correlation)分支聚焦于EEG信号中局部细微特征(如癫痫发作期的尖波、棘波)与多尺度时序模式的提取,通过注意力机制与深度卷积的结合增强特征判别性,其结构由通道注意力模块(Attention Module)、多尺度卷积模块(Multi Scale Convolutional Module)和特征相关性模块(Feature Correlation Extraction Module)串联组成。
1) 通道注意力模块(Attention Module):针对EEG信号中有效特征与噪声混杂的问题,该模块通过动态加权增强关键通道的特征表达。其设计采用“平均池化 + 最大池化”的双通道信息融合策略:首先对输入特征图([32, 1, 64])分别进行全局平均池化与最大池化,得到通道维度的统计特征;随后通过两层全连接网络(隐藏层维度为输入通道的1/8)与Sigmoid激活函数生成通道权重向量([32, 1, 1]);最终将权重向量与原始输入相乘,实现对重要通道特征的自适应增强。该模块的数学表达为:
其中,
为Sigmoid函数,
为全连接层,
与
分别为平均池化与最大池化操作。
2) 多尺度卷积模块(Multi Scale Convolutional Module):为捕捉EEG信号中不同频率范围的时序模式(如慢波、快波),该模块通过4个串联的深度可分离卷积块实现特征的层级化扩展。每个卷积块采用深度可分离卷积,在减少参数冗余的同时提升对局部模式的敏感性:第1个卷积块将输入通道(1)翻倍至2,后续3个卷积块依次将通道数翻倍(2→4→8→16);所有卷积操作采用kernel_size = 3、stride = 1、padding = 1的参数设置,确保序列长度在特征提取过程中保持不变(始终为64);每个卷积块后接批归一化(BatchNorm1d)与LeakyReLU激活函数(负斜率0.1),增强特征非线性表达能力。模块输出为后3个卷积块的特征拼接(通道数为4 + 8 + 16 = 28),通过多尺度特征融合提升对复杂时序模式的覆盖度。
3) 特征相关性模块(Feature Correlation Extraction Module):该模块通过3个串联的FCEBlock (Feature Correlation Extraction Block)实现通道间关联性与局部时序依赖性的联合建模。每个FCEBlock包含:两层2D卷积(kernel_size = 3, padding = 1),通过扩展维度(将[32, 28, 64]转换为[32, 28, 1, 64])实现“通道–时间”二维特征的交互建模;残差连接设计:当输入与输出通道数不一致时,通过1 × 1卷积调整维度,否则直接传递输入,避免深层网络中的梯度消失问题;批归一化与LeakyReLU激活函数,进一步增强特征鲁棒性。
3个FCEBlock的输出通道均为16,最终通过特征拼接形成[32, 48, 1, 64]的融合特征,经展平后通过全连接层映射为32维特征向量,为后续融合提供局部特征基础。
2.3.2. Informer分支:长程时序依赖建模
Informer分支旨在捕捉EEG信号中长程时序依赖(如癫痫发作前后的脑电活动演变趋势),采用轻量化ProbSparse自注意力机制替代传统Transformer的自注意力,在降低计算复杂度的同时保留对短序列数据的时序建模能力。其结构主要包含维度投影层、ProbSparse注意力编码器和特征压缩层。
维度投影层:针对单通道EEG信号维度较低的问题,该层通过线性投影将输入序列([32, 64, 1])映射至高维特征空间([32, 64, 32]),其中投影维度32 (即特征维度)为后续注意力机制提供足够的特征区分度。与传统Transformer不同,由于EEG信号的非平稳性和随机性,无需引入额外时间戳,仅通过该投影层的token embedding即可满足时序建模需求[19]。
ProbSparse注意力编码器:编码器核心为ProbSparse自注意力机制。其设计基于“注意力概率分布具有稀疏性”的观察:在自注意力计算中,仅少数查询–键(Query-Key)对贡献显著,而多数对的影响可忽略[20]。编码器由1层EncoderLayer组成,通过“注意力抽样”策略降低传统自注意力的计算冗余:对Query和Key进行抽样(样本量为
,其中
为序列长度,factor = 5),仅计算高贡献度的注意力对,将复杂度从
降至
[4];结合1D卷积(kernel_size = 1)与残差连接的前馈网络,增强特征非线性表达,同时通过LayerNorm归一化稳定训练过程。编码器输出为[32, 64, 32]的长程时序特征,有效捕捉序列中隐性的时间关联模式。
特征压缩层:经展平([32, 64 × 32])与全连接层映射,将长程时序特征压缩为32维向量,与AMFC分支的输出维度保持一致,为特征融合奠定基础。
2.3.3. 动态特征融合与分类
为充分发挥双分支的互补性,PAMFC-InfoNet采用动态加权融合策略,根据样本特征分布自适应调整两个分支的贡献权重:首先拼接AMFC分支与Informer分支的32维特征,形成64维联合特征;通过全连接层与Softmax函数生成权重向量([32, 2]),分别对应两个分支的重要性系数;对两个分支的特征进行加权(
,其中
),再通过特征拼接得到融合特征;融合特征经3层全连接网络(中间维度为128→64→32)与Dropout (概率0.5→0.3→0.2)正则化后,通过输出层(num_classes = 2)实现癫痫发作期与发作间期的二分类。
3. 结果
3.1. 实验设置
PAMFC-InfoNet模型在两个公开的EEG数据集上进行了评估:波恩大学脑电图数据集和CHB-MIT头皮脑电图数据集。前者包含单通道EEG信号(正常与癫痫发作状态),后者则包含来自多个患者的头皮EEG信号,涵盖不同的癫痫事件。根据方法部分的描述对数据进行了预处理。模型训练采用Adam优化器,初始学习率为1e−4,批量大小32,权重衰减为1e−5,早停策略(patience = 50)避免过拟合。所有实验在NVIDIA RTX 4060 GPU上完成,框架为PyTorch 3.9。
3.2. 性能评估指标
采用5折交叉验证策略,通过准确率、灵敏度、特异性、假阳性率(FPR)和受试者工作特征曲线下面积(AUROC)对模型的性能进行评估。
准确率(Accuracy):正确分类样本占总样本的比例,反映整体分类能力,计算公式为:
灵敏度(Sensitivity):发作期样本中被正确检测的比例,衡量模型对癫痫发作的捕捉能力,计算公式为:
特异性(Specificity):发作间期/正常样本中被正确识别的比例(TN/(TN + FP)),反映模型减少假阳性的能力,计算公式为:
假阳性计数(FP Count):单位时间内被误判为发作期的样本数,评估临床实用性(越低越好);
受试者工作特征曲线下面积(AUROC):反映模型对两类样本的区分能力(越接近1越好)。
3.3. 交叉验证结果
3.3.1. 波恩大学数据集结果
表4展示了PAMFC-InfoNet在波恩大学数据集上的5折交叉验证结果。模型在各折中表现稳定,平均准确率达99.43%,灵敏度高达100%,表明模型能有效捕捉发作期特征;特异性平均为99.71%,假阳性计数平均仅2.2,说明对正常样本的误判较少;AUROC平均值为99.43%,接近1,验证了模型优异的区分能力。
Table 4. 5-fold cross-validation results of the University of Bonn dataset
表4. 波恩大学数据集5折交叉验证结果
折数 |
准确率(%) |
灵敏度(%) |
特异性(%) |
假阳性计数 |
AUROC (%) |
0 |
99.30 |
100 |
99.72 |
3 |
99.30 |
1 |
99.10 |
100 |
99.47 |
0 |
99.10 |
2 |
99.61 |
100 |
100.00 |
0 |
99.61 |
3 |
99.65 |
100 |
99.92 |
1 |
99.65 |
4 |
99.49 |
100 |
99.42 |
7 |
99.49 |
平均值 |
99.43 |
100 |
99.71 |
2.20 |
99.43 |
3.3.2. CHB-MIT数据集结果
表5呈现了PAMFC-InfoNet在CHB-MIT数据集上患者的验证结果(23例受试者)。模型在复杂多通道数据上仍保持优异性能:平均准确率99.61%,灵敏度99.89% (21例患者达100%),表明即使面对长程记录中的微弱发作信号,模型仍能稳定检测;特异性平均98.73%,假阳性计数平均仅13.43 (最低1.2),满足临床对低误报的需求;AUROC平均值99.62%,验证了模型在真实临床数据中的区分能力。
值得注意的是,对于发作模式复杂的患者(如chb12、chb15),模型仍保持98%以上的准确率,体现了动态加权融合策略对个体差异的适应性。
Table 5. Validation results of patients in the CHB-MIT dataset
表5. CHB-MIT数据集中患者的验证结果
患者编号 |
准确率(%) |
灵敏度(%) |
特异性(%) |
假阳性计数 |
AUROC (%) |
1 |
99.73 |
100 |
98.28 |
18.8 |
99.84 |
2 |
99.92 |
100 |
98.78 |
5.4 |
99.95 |
3 |
99.85 |
100 |
99.07 |
9.6 |
99.91 |
4 |
99.96 |
100 |
98.48 |
11.6 |
99.98 |
5 |
99.84 |
100 |
98.98 |
11 |
99.91 |
6 |
99.74 |
100 |
97.83 |
20.8 |
99.85 |
7 |
99.95 |
100 |
99.15 |
5.4 |
99.97 |
8 |
99.42 |
100 |
98.42 |
24.4 |
99.55 |
9 |
99.96 |
100 |
99.3 |
4.6 |
99.98 |
10 |
99.96 |
100 |
99.79 |
2.6 |
99.98 |
11 |
99.96 |
100 |
99.79 |
2.6 |
99.98 |
12 |
98.44 |
99.34 |
98.43 |
30.6 |
98.44 |
13 |
99.51 |
99.95 |
98.79 |
18.6 |
99.54 |
14 |
99.07 |
99.74 |
97.49 |
20.2 |
98.83 |
15 |
98.51 |
98.82 |
98.8 |
44.2 |
98.46 |
续表
16 |
98.82 |
99.69 |
97.88 |
18.2 |
98.67 |
17 |
99.77 |
100 |
98.98 |
6 |
99.83 |
18 |
99.71 |
100 |
97.92 |
18 |
99.83 |
19 |
99.95 |
100 |
99.65 |
1.2 |
99.94 |
20 |
99.69 |
100 |
98.61 |
13 |
99.81 |
21 |
99.52 |
99.92 |
97.24 |
15.2 |
99.17 |
22 |
99.93 |
100 |
99.41 |
2.8 |
99.95 |
23 |
99.9 |
100 |
99.61 |
4.2 |
99.93 |
平均值 |
99.61 |
99.89 |
98.73 |
13.43 |
99.62 |
3.4. 消融实验
3.4.1. 消融实验方案
为验证PAMFC-InfoNet中核心组件(AMFC分支、Informer分支及动态加权融合策略)的必要性与贡献度,本研究设计了三组消融实验,通过对比原始模型与去除特定组件后的变体模型性能,量化各组件对整体检测效果的影响。实验在波恩大学数据集上进行,采用与原始模型一致的训练配置(Adam优化器、5折交叉验证等),确保结果的可比性,评估指标包括准确率、灵敏度、特异性、假阳性计数及AUROC。基于原始PAMFC-InfoNet架构,设计以下三组消融变体:
1) M-01是移除AMFC分支(仅保留Informer分支)模型,旨在探究AMFC分支对模型性能的贡献。通过移除AMFC分支,仅保留Informer分支来构建模型,观察模型在捕捉长程时序依赖时,缺乏局部特征提取能力的表现。
2) M-02是移除Informer分支(仅保留AMFC分支)模型。与M-01相反,该模型移除Informer分支,仅依靠AMFC分支进行特征提取和分类,以评估AMFC分支在独立工作时的性能,以及长程时序建模缺失对模型的影响。
3) M-03是移除动态加权融合(保留双分支,使用简单拼接)的模型。保留了AMFC分支和Informer分支,但将动态加权融合策略替换为简单的特征拼接。这样可以分析动态加权融合策略在自适应调整两分支特征权重方面的重要性。
3.4.2. 消融实验结果分析
图4直观呈现了原始PAMFC-InfoNet模型与三组消融变体(M-01无AMFC分支、M-02无Informer分支、M-03固定融合)在五大核心性能指标上的对比结果。
结果表明,当去除AMFC分支时(M-01),准确率较原始模型下降0.91% (98.70% vs 99.61%),AUROC显著下降0.92% (98.70% vs 99.62%),灵敏度降低0.18% (99.71% vs 99.89%),假阳性计数增加0.97 (14.4 vs 13.43)。这表明AMFC分支通过多尺度卷积与通道注意力捕捉的局部细微特征(如癫痫发作期的尖波、棘波)对提升模型的整体分类精度至关重要,尤其对发作信号的早期识别贡献显著。其缺失会导致模型对局部瞬态模式的敏感性下降,进而影响检测鲁棒性。
当去除Informer分支时(M-02),准确率较原始模型下降0.34% (99.27% vs 99.61%),AUROC下降0.36% (99.26% vs 99.62%),尽管灵敏度保持100%,但假阳性计数显著降低(6.8 vs 13.43)。这一结果揭示Informer分支的核心作用是建模长程时序依赖(如发作前后脑电活动的演变趋势),其缺失会削弱模型对全局时序模式的捕捉能力,导致AUROC (反映整体区分能力)下降。而假阳性计数的减少可能源于局部特征的过度聚焦,说明单一分支难以兼顾局部与全局特征的平衡。
Figure 4. Comprehensive comparison of performance metrics for model structure ablation experiments
图4. 模型结构消融模型性能指标综合对比
固定融合(M-03)的各项指标均略低于原始模型:准确率下降0.30% (99.31% vs 99.61%),AUROC下降0.31% (99.31% vs 99.62%),假阳性计数增加0.37 (7.8 vs 6.8)。这验证了动态加权融合策略的有效性——通过自适应调整双分支权重,模型能根据样本特征分布(如发作期以局部尖波为主、发作间期以长程平稳模式为主)灵活分配特征贡献度,而固定权重无法适配样本差异,导致性能折损。
图4从左至右、从上至下分别展示了准确率、灵敏度、特异性、假阳性计数及AUROC的量化对比:蓝色柱状图代表原始模型,其他颜色柱状图分别对应三组消融变体。可以清晰观察到,原始模型在准确率、灵敏度及AUROC上均表现最优,而移除任一核心组件后指标均出现不同程度下降,尤其M-01 (无AMFC分支)的性能衰减最为显著,直观验证了AMFC分支、Informer分支及动态加权融合策略对模型性能的协同增益作用,与表6的定量分析结果一致。
3.5. 与现有模型的比较
为全面验证PAMFC-InfoNet的性能优势,本节将其与近年来基于CHB-MIT数据集的主流癫痫检测模型进行对比。
Table 6. Performance of different models on the CHB-MIT dataset
表6. 不同模型在CHB-MIT数据集上的效果
模型 |
发表
年份 |
准确率
Accuracy (%) |
灵敏度Sensitivity (%) |
特异性Specificity (%) |
AUROC |
RS-DA + 1D-CNN [21] |
2021 |
99.54 |
88.14 |
99.62 |
/ |
CNN + Bi-LSTM + Wavelet [22] |
2022 |
97.51 |
97.51 |
/ |
90.82 |
Deep CNN [23] |
2023 |
96.99 |
97.06 |
96.89 |
/ |
Tunable-Q Wavelet Transform + CNN [24] |
2023 |
97.57 |
98.9 |
/ |
/ |
CNN-Reformer [25] |
2024 |
98.09 |
97.57 |
98.11 |
/ |
ConvNeXt + SimAM注意力[26] |
2025 |
98.83 |
96.86 |
97.68 |
99.34 |
CNN + Informer [4] |
2025 |
98.54 |
99.54 |
98.55 |
/ |
本文 |
- |
99.61 |
99.89 |
98.73 |
99.62 |
从表6的对比结果来看,PAMFC-InfoNet在核心性能指标、临床实用性及鲁棒性上均展现出显著优势。在整体性能方面,PAMFC-InfoNet的准确率(99.61%)、灵敏度(99.89%)及AUROC (99.62%)均位列所有对比模型的首位,其中灵敏度较次优模型CNN + Informer (99.54%)提升0.35个百分点,AUROC较ConvNeXt + SimAM注意力模型(99.34%)提升0.28个百分点,表明其在分类准确性与类别区分能力上更具优势。在临床实用性层面,PAMFC-InfoNet的灵敏度达到99.89%,且在23例患者中21例实现100%灵敏度,意味着发作期信号的漏检风险极低,同时特异性维持在98.73%,假阳性计数平均仅13.43,有效平衡了临床场景中“少漏检”与“少误报”的核心需求。
在特征捕捉能力上,传统单分支模型,如Deep CNN、RS-DA + 1D-CNN,受限于单一特征提取范式,难以同时兼顾癫痫脑电的局部尖波/棘波特征与长程时序依赖,导致灵敏度或特异性表现失衡;混合架构模型,如CNN + Bi-LSTM + Wavelet、CNN + Informer,虽尝试结合不同特征提取机制,但缺乏针对样本特征分布差异的自适应融合策略,性能提升有限。而PAMFC-InfoNet通过AMFC分支的多尺度卷积与通道注意力强化局部细微特征捕捉,结合Informer分支的轻量化ProbSparse注意力高效建模长程时序关联,再通过动态加权融合适配不同样本的特征主导模式,实现了局部与全局特征的高效互补。从鲁棒性角度来看,对于CHB-MIT数据集中发作模式复杂的患者(如chb12、chb15),PAMFC-InfoNet仍能保持98%以上的准确率,而部分对比模型未明确报告对复杂病例的适配能力,进一步反映出动态融合策略对个体差异的适应性优势。
4. 讨论
4.1. 模型优点
PAMFC-InfoNet模型的主要优势在于其双分支架构结合动态特征自适应融合,使得模型能够有效地从EEG信号中提取局部和全局特征。AMFC分支通过多尺度卷积和注意力机制增强局部特征提取,而Informer分支则专注于捕捉长程时序依赖。两者的结合使得模型能够超越传统的单分支模型,因为这些模型往往难以同时抓取时序上的长期依赖和局部特征。
4.2. 持续优化与未来工作
尽管模型表现出色,但仍存在一些挑战。一方面,计算复杂度相对较高,尤其是在使用多层卷积和注意力机制的情况下,这在扩展到更大规模数据集或部署于实时应用场景时可能成为性能瓶颈。未来的工作将探讨使用模型压缩技术,例如知识蒸馏,以减少计算开销,同时保持性能。
另一方面,动态融合策略虽实现了样本级的权重自适应,但未充分考虑癫痫发作不同阶段(发作起始、发作高峰、发作终止)的特征差异,对时序动态变化的适配能力仍可优化。模型的后续版本可以包括更复杂的融合机制,甚至加入时序注意力,以进一步优化特征融合策略,提升模型的灵敏度和鲁棒性。
5. 结论
本文提出了一种基于双分支并行架构的癫痫检测模型PAMFC-InfoNet,针对性解决现有方法难以兼顾局部细微特征与长程时序依赖、融合方式僵化的核心问题。该模型通过AMFC分支与Informer分支的协同学习实现特征互补:AMFC分支整合通道注意力与多尺度深度卷积,强化对癫痫尖波、棘波等局部瞬态特征的提取能力;Informer分支采用轻量化ProbSparse注意力机制,在降低计算复杂度的同时高效捕捉脑电信号的长程时序关联;动态加权融合策略则根据样本特征分布自适应调整双分支权重,充分发挥两类特征的互补价值。
实验验证结果表明,PAMFC-InfoNet在波恩大学数据集上实现99.43%的平均准确率、100%的灵敏度及99.43%的AUROC,假阳性计数仅2.2;在更复杂的CHB-MIT多通道数据集上,平均准确率达99.61%,灵敏度为99.89% (21例患者达100%),AUROC为99.62%,即使针对发作模式复杂的患者仍维持98%以上准确率,展现出优异的准确性与鲁棒性。消融实验证实,AMFC分支、Informer分支及动态融合策略均对模型性能有显著贡献,三者协同构成了模型性能突破的核心支撑。
与现有主流模型相比,PAMFC-InfoNet在核心检测指标上均表现更优,且具备无需复杂预处理、推理高效的特点,契合临床实时监测需求。该模型为癫痫自动检测提供了新的有效技术方案,其双分支并行与动态融合设计也为时序信号分析领域提供了架构参考,实现了对癫痫脑电信号中癫痫模式的精准识别。