1. 引言
心血管疾病(Cardiovascular Diseases, CVD)作为全球致死率较高的疾病谱系,其防治已成为全球公共卫生领域亟待解决的关键问题。在我国,CVD防控形势尤为严峻,现患病群体已突破3.3亿[1],且发病率仍保持持续上升趋势,尚未建立有效的流行病学控制机制。CVD涵盖多种病理亚型,其中心律失常(Cardiac Arrhythmia)作为心血管系统电生理活动异常的主要表现形式[2],其病理机制源于心脏起搏传导系统的功能性或结构性障碍,导致心动周期频率与节律发生异常波动[3]。该病症的临床影响存在显著异质性,轻症患者可表现为心前区不适、运动耐量下降等非特异性症状,重症病例则可能诱发急性心力衰竭或心源性猝死等致命性并发症[4]。
在心律失常的复杂分型中,心房颤动(Atrial Fibrillation, AF)作为最具临床挑战性的快速性心律失常类[5],它主要是指心房以极快且不规则的方式进行颤动[6],通常与心脏结构异常或心力衰竭(HF)相关[7]。值得注意的是,阵发性房颤(Paroxysmal, AF)因具有间歇性发作且无症状期较长的临床特征,常导致诊断延迟,这些症状是引起身体健康发生变化(包括缺血性中风和充血性心力衰竭)的重要前兆[8]。因此,房颤检测在心血管疾病的治疗和预防中已变得至关重要。
传统的AF检测方法有较多局限性,主要体现为高端影像设备依赖造成的医疗资源分布不均,以及离散时间点检测难以实现心脏电生理状态的连续动态评估。近年来,光电容积脉搏波(Photoplethysmography, PPG)作为一种基于光电传感原理的无创检测技术,能够通过外周血管容积变化的生物信号采集,实现心血管系统功能的动态监测。该技术的波形形态学特征参数(包括主波幅值、潮波相对高度及降中峡位置等)已被证实与心血管生理指标存在显著相关性,尤其在房颤等心律失常疾病的筛查诊断中展现出重要应用价值[9]。进一步研究表明,通过构建基于PPG信号特征参数的机器学习模型(如支持向量机、深度神经网络等),可有效提升心血管疾病分类识别的敏感性和特异性,为临床辅助诊断提供了新型智能化解决方案[10],在此背景下,开发具有高时效性与高准确性的AF自动识别算法具有重要临床意义。
因此,本文提出一种混合深度学习模型ResGNet,致力于实现基于PPG信号的房颤自动分类。该方法由三个核心模块构成:数据预输入层、并行特征提取层和分类决策层。在特征提取阶段,我们设计了基于改进型ResNet与双向门控循环单元(BiGRU)的并行深度学习架构。其中,残差神经网络通过跳跃连接有效解决了深层网络梯度消失问题,而双向门控循环单元通过前向和后向时序处理,同步捕获PPG信号的局部形态特征与长程时序依赖。通过特征融合层将两种异构特征进行空间–时间维度拼接后,引入挤压–激励(SE)注意力机制模块进行通道权重标定,从而增强关键特征的表示强度。最终,经过多层感知机(MLP)的非线性映射后,采用softmax函数输出多分类任务的概率分布。
2. 数据集和预处理
2.1. 数据集
本文共收集了三种不同心血管疾病信号数据,分别为MIMIC III、MIMIC PERform AF Dataset和Arrhythmia Detection。
MIMIC III (重症监护多参数智能监测III)数据集[11],由贝斯以色列女执事医疗中心和飞利浦医疗保健部门收集,包含波形数据库和临床数据库两部分。波形数据库包含大约30,000名ICU患者的67,830个记录集合,这些记录包括数字化信号,例如ECG、ABP和PPG,采样频率为125 Hz。通过结合这两个数据库,我们可以得到病人的基本信息和波形记录。本文从中获取了30名非AF患者和30名AF患者的PPG波形记录。
MIMIC PERform AF数据集由Charlton等[12]基于MIMIC-III波形数据库的匹配子集构建,包含同步采集的光电容积脉搏波(PPG)、心电图(ECG)及呼吸信号等多模态生理数据。该数据集涵盖35例重症监护成年患者,所有病例均在标准临床监护条件下完成数据采集,其中19例为房颤阳性(AF组),16例为房颤阴性(nonAF组)。
Arrhythmia Detection数据是Liu等[13]从中国医学科学院阜外医院获取。对91例心律失常患者的827个PPG信号片段进行了分类,包含窦性心律(SR)、室性早搏(PVC)、房性早搏(PAC)、室性心动过速(VT)、室上性心动过速(SVT)、心房颤动(AF)。数据经过带通滤波和标准化处理,以确保片段都具有相同的标记。
2.2. 数据预处理
本文对MIMIC III数据集中的PPG信号进行了如下处理:首先,应用四阶巴特沃斯带通滤波器(截止频率0.5 Hz至8 Hz)去除基线漂移和高频噪声[14]。接着,使用Hampel滤波器识别并替换异常值,该过程基于每个样本与其周围6个样本中值的偏差是否超过3倍标准差来决定。为确保信号质量,删除了平峰段和平线段的数据部分,这些特征指示信号饱和或缺失。为了优化计算效率,我们将信号分割成连续的10秒片段。房颤标签根据同步记录的心电图(ECG)由两位专家独立标注。最终,所有信号均进行了标准化处理。
2.3. 基于ResGNet的房颤评估算法
本文采用的ResGNet模型基于ResNet、CNN和RNN的并联方式实现房颤检测。模型主要组成部分由特征提取模块和分类模块组成,模型整体结构如图1所示。特征提取模块提取PPG信号的时空特征,空间特征提取模块为残差网络,由6个残差块组成。时间特征提取模块由四层BiGRU组成,将提取的空间和时间特征进行拼接,经过SE注意力机制后输入到分类模块中,分类模块将学习到的特征进行映射,最后输出层输出每个类别的预测结果。
Figure 1. Structure diagram of the ResGNet model
图1. ResGNet模型结构图
2.3.1. 空间特征提取模块
传统的卷积神经网络一般是通过堆叠一系列卷积和下采样层来制作的,但是当堆叠达到一定程度时就会出现网络退化问题。2016年,He等[15]提出的ResNet网络引入了残余连接的概念,以应对深度网络退化的挑战,残余结构保留了原有的特征,保证了网络的学习更加平滑和稳定,从而增强了准确性和模型泛化能力。
本文在空间特征提取模块中,利用改进的ResNet对PPG信号进行空间特征提取,ResNet的提出是为了应用于图像任务,匹配PPG信号的输入,对原网络进行修改,改进后的ResNet结构如图2所示。PPG信号比图像拥有更低的内在维度,需要加快模型的收敛和减少网络规模,在一维卷积层之后添加一个批量归一化(BN)层,可以加快模型在训练过程中的收敛速度。ReLU是每一层的激活函数,随后添加了一个Dropout层,用于丢弃参数和减轻过拟合,增强模型的泛化能力。Dropout设置为0.5。这种深度残差结构通过跳跃连接实现了梯度流的优化传播,同时多层非线性变换有效提升了PPG波形特征的层次化表征能力。此模块提取的PPG信号的空间特征为后续的时间特征提取提供了丰富的输入。空间特征捕捉到了信号的局部模式,这对于理解PPG信号中的形态变化至关重要。
Figure 2. Improved ResNet model diagram
图2. 改进后的ResNet模型图
2.3.2. 时间特征提取模块
递归神经网络(RNN)在处理序列数据时会产生更好的结果。双向门控递归单元(GRU)是一种特殊的递归神经网络(RNN),能有效解决训练过程中梯度消失和爆炸的问题[16]。GRU通过使用门控机制来控制输入、记忆等,从而预测当前时间步。它包含一个复位门和一个更新门,其中复位门决定新输入信息如何与之前的隐藏状态相结合,其公式如式(1)所示,而更新门定义了保存到当前时间步之前隐藏状态的数量,其公式如式(2)所示[17]。在计算复杂度方面,GRU结构简单,矩阵乘法运算较少,使用大型数据集进行训练时可以节省计算时间。
重置门
决定了如何将新的输入与过去的状态组合起来,计算方式如下:
(1)
其中,
是重置门的权重矩阵。
更新门:
决定了新的状态信息
应该包含多少过去的状态信息
,计算方式如下:
(2)
其中,
是更新门的权重矩阵,
是当前输入,
表示sigmoid函数,它将值映射到(0, 1)区间,用于实现门控功能。
GRU的核心是从过去的历史和当前的输入观测中提取信息。双向GRU由前向和后向RNN层组成,然后在每个时间步连接前向和后向的结果,同时保留过去和未来的序列信息[18]。BiGRU的结构如图3所示,
为当前时间步的输入,
是上一时间步的隐藏状态,GRU的单元结构如小窗口所示。BiGRU背后的基本概念是,当前时刻学习的特征包含过去和未来的信息。这实现了对全局上下文的同时考虑,在这项研究中,采用了隐藏层维数设置为64的2层BiGRU。PPG信号本质上是一个周期性的时间序列,其中包含丰富的时域信息,为了避免复杂的人工特征提取过程,采用BiGRU可以有效地提取时域特征,理解这些形态随时间的变化规律,对于房颤等动态病理状态的检测尤为重要。
Figure 3. Structure diagram of the BiGRU model
图3. BiGRU模型结构图
2.3.3. SE注意力机制
SE注意力机制或称为挤压和激励块(Squeeze and Excitation Block),是由Hu等[19]在2018年提出的。通过自适应地重新校准通道特征响应,SE Block能够提升模型的表现,尤其是在分类任务中。SE注意力机制主要由两个步骤组成:挤压(Squeeze)和激励(Excitation)。挤压是通过全局平均池化(Global Average Pooling)将每个通道的空间信息压缩成一个单独的值,从而获得一个包含所有通道全局信息的特征向量,其公式如式(3)所示。而激励是使用两个全连接层(FC层)来捕获通道之间的依赖关系,并生成通道权重,其公式如式(4)所示。首先,通过第一个FC层降低维度,然后利用ReLU激活函数;接着通过第二个FC层恢复到原始通道数,并应用sigmoid函数得到每个通道的权重,这些权重反映了通道的重要性。
(3)
其中
、
和
分别代表高度、宽度和通道数,
表示第
个通道的统计信息。
(4)
其中,
是对
应用两层全连接(FC)变换的结果。
表示sigmoid函数。
残差连接和BiGRU会提供以前的特征,但是也会引入冗余的特征,为了关注对房颤识别重要的特征,引入SE Block,关注重点特征。本文使用的注意力机制结构首先通过第一个FC层降低维度,然后利用ReLU激活函数;接着通过第二个FC层恢复到原始通道数,并应用sigmoid函数得到每个通道的权重,其模型结构如图4所示,这些权重反映了通道的重要性。
Figure 4. Structure diagram of the attention mechanism model
图4. 注意力机制模型结构图
2.4. 评价指标
在分类问题中,混淆矩阵是评估模型的重要工具,为了验证模型的性能,本研究记录了四个关键指标:真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)结果,通过上述指标评价模型的性能,获得精密度(Pre)、灵敏度(Sen)、特异度(Spe)、F1评分和准确度(Acc),各评价指标的定义和计算公式如下:
Pre:所有预测阳性样本与实际阳性样本的比例。计算公式如公式(5)所示:
(5)
Sen:实际为阳性和预测为阳性的样本比例。其计算公式如公式(6)所示:
(6)
Spe:实际为阴性和预测为阴性的样本比例。计算公式如公式(7)所示:
(7)
F1得分:模型查准率和查全率的加权平均值,计算公式如公式(8)所示:
(8)
Acc:正确预测数量占总样本量的比例,计算公式如公式(9)所示:
(9)
3. 结果与分析
本实验在一台8G内存的NVIDIA GeForce GPU显卡评估,选择Pytorch作为搭建网络模型的深度学习框架,将数据集按照8:2的比例划分为训练集和测试集,放入ResGNet网络模型中进行训练分类,并使用5折交叉验证方法[20]对训练结果进行验证,最终实验结果显示该模型在三种数据集准确率分别达到99.34%、98.91%和96.51%,该模型训练过程中的准确率曲线和Loss值曲线分别如图5和图6所示。从图中可以看出,ResGNet网络模型在分类效果上表现出较佳的性能。
Figure 5. ResGNet model accuracy curve
图5. ResGNet模型准确率曲线图
Figure 6. ResGNet model loss curve
图6. ResGNet模型损失曲线图
为直观呈现模型在多源数据集上的分类效能,本研究采用混淆矩阵对三组异构数据的分类结果进行可视化表征,混淆矩阵如图7所示。混淆矩阵的主对角线元素定量表征了各类别样本被正确识别的绝对数量,其非对角线元素则反映模型在类别间产生的混淆分布。通过归一化处理的颜色映射机制,矩阵热力图以色度梯度直观映射分类正确率的相对强弱关系。为进一步量化评估ResGNet模型的综合性能,本文选取了准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数四项核心评价指标,其分析结果如表1所示。实验数据表明,ResGNet在保持较高的主对角线数值密度的同时,展现出显著优化的非对角线元素分布特征,这与其在量化指标上的优势表现相互印证。
Figure 7. Confusion matrix plots for three datasets
图7. 三种数据集混淆矩阵图
Table 1. ResGNet model on four metrics across three datasets
表1. ResGNet模型在三种数据集的四种指标
数据集 |
Pre |
Sen |
Spe |
F1 |
Acc |
MIMIC III |
0.993 |
0.994 |
0.993 |
0.994 |
99.34% |
MIMIC PERform AF |
0.982 |
0.998 |
0.979 |
0.990 |
98.91% |
Arrhythmia Detection |
0.959 |
0.937 |
0.979 |
0.948 |
96.51% |
此外我们还对Arrhythmia Detection数据集的6种心律失常进行分类实验,测试的总体准确率为91.93%,精确度为0.997,F1分数达到了0.99,混淆矩阵如图8所示。该数据集的准确率有所下降,原因是数据集中的6个类别都属于心律失常疾病,由于疾病所属类别一样,这导致不同疾病的PPG信号差异较小,波形特征相对不明显,而且多数心律失常患者往往还患有其他心血管疾病,一种心率失常的发生可能引发连锁反应。除了信号之间更小的差异外,类不平衡也是造成结果下降的原因,SR和AF两类疾病的信号数量远多于其他几类,模型可能难以学到足够的关于少数类的有效特征表示,生成偏向于多数类的决策边界,使得少数类样本更容易被错误分类。但本方法的结果对比数据创造者85%的准确率已有很大的提升。
Figure 8. Confusion matrix plot of the Arrhythmia Detection dataset
图8. Arrhythmia Detection数据集的混淆矩阵图
为系统评估ResGNet模型的综合性能优势,本研究构建了多维度比较框架,选取具有代表性的经典深度学习模型(包括AlexNet、VGG16、ResNet18及ResNet_BiGRU)作为基准参照体系。实验设计采用高复杂度的心律失常检测数据集(Arrhythmia Detection Dataset)作为测试基准,该数据集因其类别分布的非均衡性、特征维度的异构性以及噪声干扰的显著性而被广泛视为评估模型鲁棒性的有效载体。图9展示了五类模型在测试集上的分类准确率对比曲线,其中横轴表征迭代训练周期,纵轴映射分类准确率的动态演化过程。在此基础上,本文进一步通过四项核心指标对模型性能进行量化评估,其详细数据对比结果如表2所示。实验结果表明,ResGNet在保持较高初始收敛速度的同时,最终的准确率也高于其他模型,展现出较佳的模型分类性能。
Figure 9. Comparison of the accuracy of the five models
图9. 五种模型准确率对比图
Table 2. Comparison of the scores of different model metrics
表2. 不同模型指标得分对比
Models |
Pre (%) |
Sen (%) |
Spe (%) |
F1 (%) |
Acc (%) |
AlexNet |
69.89 |
65.23 |
95.11 |
65.84 |
80.02 |
VGG19 |
80.76 |
77.97 |
97.15 |
78.41 |
87.52 |
ResNet18 |
80.91 |
81.56 |
97.66 |
80.69 |
88.78 |
ResNet_BiGRU |
85.63 |
87.19 |
98.54 |
82.67 |
89.10 |
Our (ResGNet) |
99.71 |
98.27 |
99.93 |
98.99 |
91.93 |
在对比实验中,AlexNet模型的表现最差,Acc仅有80.02%,与AlexNet相比,VGG19是一个深度更深的模型,使用小卷积核代替大卷积核,减少了参数,提高了分类精度,因此,VGG19在所有评价指标上都高于AlexNet,随着模型深度的增加,VGG会出现梯度消失的问题。为了解决梯度消失的问题,ResNet18引入了残差结构,进一步增加了模型的深度,提高了精度,因此ResNet18比VGG 19表现得更好。ResNet_BiGRU网络增加了GRU网络,可以结合过去和未来的信息来增强模型的表现。总体而言,在相同数据量的情况下,本文提出的ResGNet模型性能有更优越的表现。为了更直观对模型进行评估,本文将五种模型的评价指标以可视化形式展现,如图10所示,可以清晰看出ResGNet模型表现出较佳性能。
Figure 10. Visualization of five model evaluation indicators
图10. 五种模型评价指标可视化图
除了对比试验,我们还对所提出的模型进行消融实验,证明所提出模块的有效性。一共设计了以下3个消融实验来证明我们提出模型的有效性。
(1) 仅包含ResNet和SE-Attention。
(2) 仅包含BiGRU和SE-Attention。
(3) 仅保留Resnet和BiGRU的并联结构。
Table 3. Comparison of ablation experimental index scores
表3. 消融实验指标得分对比
Models |
Pre (%) |
Sen (%) |
Spe (%) |
F1 (%) |
Acc (%) |
(1) |
83.99 |
84.18 |
98.34 |
83.47 |
89.94 |
(2) |
82.43 |
83.71 |
95.76 |
80.17 |
87.09 |
(3) |
86.67 |
92.50 |
97.93 |
95.52 |
89.72 |
Ours |
99.71 |
98.27 |
99.93 |
98.99 |
91.93 |
从表3所示的消融实验结果可以看出,不同模块组合对模型性能有明显影响。首先,模型(1)仅包含ResNet和SE-Attention,表现出不错的特征提取能力,其准确率为89.94%,说明卷积网络配合注意力机制能够较好地捕捉局部空间信息和关键特征。模型(2)则仅包含BiGRU和SE-Attention,准确率为87.09%,整体性能略逊于模型(1),说明在缺少空间特征提取的情况下,单靠时序建模难以达到最优效果。相比之下,模型(3)保留了ResNet与BiGRU的并联结构但去除了SE-Attention,准确率为89.72%,虽然接近模型(1),但灵敏度有明显提高,达到了92.50%,说明双分支结构对时序和空间特征的融合具有重要作用。最终的融合模型Ours在引入ResNet、BiGRU和SE-Attention的同时实现最优表现,准确率达到91.93%,F1分数高达98.99%,表明三者结合具有显著的协同效应,不仅提升了分类的精确性和敏感性,同时也改善了模型的稳定性与泛化能力。因此,该消融实验充分验证了所提模型结构在时空特征融合与关键信息提取方面的有效性与优势。
4. 总结
本文提出了一种创新的用于AF分类的模型——ResGNet。该模型融合了残差卷积模块、双向GRU模块和SE注意力增强模块,以全面优化分类性能。残差卷积模块在多层次特征提取、梯度消失缓解、局部病理特征捕捉和跨层信息融合方面发挥了关键作用,通过跳跃连接实现了深层网络的稳定训练。双向GRU模块通过时序依赖建模、长程上下文关联捕捉、动态心电信号特征强化和双向信息流协同,进一步增强了信号的表征能力,有效捕获了PPG信号中的时序演变规律。而SE注意力增强模块则通过通道权重自适应校准、关键特征通道强化、噪声干扰抑制和多尺度特征融合,优化了对AF的预测能力。
为验证所提模型的有效性,本研究在提取制作的数据集和两个公开数据集上进行实验。这些结果显示,本文模型在分类准确性上具有显著优势,尤其是在F1值指标上超越了其他模型,充分展示了其卓越的分类性能。在Arrhythmia Detection数据集中,模型性能有所下降,除了调整模型的超参数之外,解决类不平衡问题也很重要,将数据进行扩展,以便模型学习到均衡的特征。
在未来的研究中,我们计划纳入更多的心血管疾病,细化不同疾病的微小差别,进一步提升疾病筛选的广度和准确度。此外还计划将程序移植到可穿戴设备中,以实现更为便捷的健康监管。