1. 引言
人类大约三分之一的时间都被用来睡觉。睡眠对人类的健康来说是极其重要的。与睡眠有关的疾病,如睡眠呼吸暂停、失眠、阵发性发作性睡病,严重影响人类的生活质量。最近的研究表明,睡眠/昼夜节律紊乱可能是阿尔茨海默病和帕金森病等神经退行性疾病的重要标志,睡眠病理的治疗可以改善患者的生活质量 [1]。
根据美国睡眠医学会(American Academy of Sleep Medicine, AASM)的睡眠分期标准 [2],人类睡眠是一个动态过程,可分为清醒期(Awake, W),快速眼动期(rapid eye movement, REM)和非快速眼动期(non-rapid eye movement, NREM)三个主要期。通常,睡眠专家使用多导睡眠图(Polysomnographic, PSG)进行睡眠阶段分期的临床诊断。PSG包含一组信号,例如脑电图(Electroencephalogram, EEG),肌电图(Electromyogram, EMG),心电图(Electrocardiogram, ECG)和眼电图(Electrooculogram, EOG)等。这些信号是通过连接到身体不同部位的传感器记录下来的。PSG录音一般分为20秒或30秒的样本,睡眠专家或医生将根据美国睡眠医学会睡眠分期标准,把这些样本分为不同的睡眠期,该过程被称为睡眠阶段评分或睡眠分期。
睡眠多导图是睡眠质量的简单表示,可用于诊断睡眠障碍。此外,睡眠分期的质量取决于医师的经验和疲劳程度,睡眠专家分期的准确度通常不到90% [3] [4],且人工标记PSG数据需要耗费大量的时间,因此迫切需要自动睡眠分期算法。
在传统统计学习方法中,有许多研究者一直试图开发一种基于EEG、EOG和EMG等多种信号 [5] [6] [7],或单通道脑电图 [8] [9] 的自动化睡眠阶段分期的方法。这些方法首先从每个记录样本时期提取时域、频域和时频域特征。在多个信号的情况下,把来自一个时期的所有特征连接成一个特征向量。然后,这些特征用于训练分类器被用于识别单个样本的睡眠阶段分期。由于受试者和记录硬件之间的非均衡异质性,这些网络是根据研究所使用数据集的特征而进行手工设计的,我们认为这些方法并不具有广泛的应用价值。
近年来,深度学习已经被用于睡眠阶段分期,深度学习利用多层线性和非线性处理单元学习来自输入数据的分层表示或特征。其中,卷积神经网络被用于短脑电时间序列数据,例如脑计算机接口 [10] [11],癫痫发作检测 [12],驾驶员的认知表现 [13] 和眼动追踪 [14] 以及睡眠分期 [15] [16]。CNN已经在其他领域用于原始连续信号,从图像识别开始 [17] [18],到许多其他领域,如自然语言处理 [19],推荐系统 [20] 和其他监督模式识别任务。
一般来说,神经网络模型的发展源于双重目标:第一,更好地理解神经系统;第二,尝试构建生物功能启发的信息处理系统。虽然在某些领域计算机能够比人脑执行处理的更有效,但计算机无法与大脑相提并论。现阶段大多数网络结构并没有提供任何可以被用于建模系统的信息 [21],它没有考虑原始系统的物理组织。神经网络的一个优点是它表现为非线性黑箱,几乎可以建模和描述任何非线性动态。就传统统计学而言,神经网络常常被认为是不可识别的模型,在某种意义上可以获得具有不同拓扑和参数的各种网络。与传统的数据分析方法相比,它们在解决现实问题方面具有很强的竞争力。
作为深度学习的一种 [17],CNN是一种可训练的多层非线性系统,旨在从图像中提取和分类高维模式。CNN本质上是具有特殊拓扑结构的多层感知器(Multi-Layer Perceptron, MLP),它包含多个隐藏层 [10]。CNN已经成功应用于原始EEG数据 [22],对象识别 [23] 和手写字符识别 [17],如分析视觉图像 [24],语音识别和预测人流量等。CNN具有共享权重架构和转换不变性的特征。CNN由输入和输出层以及多个隐藏层组成。隐藏层可以是卷积层、池化层或全连接层。与其他传统算法相比,CNN使用相对较少的预处理。这意味着CNN网络可以学习传统算法中人工设计的滤波器。其主要优点便是可以代替先验知识和人工设计特征工程。
循环神经网络(Recurrent Neural Networks, RNN)让神经网络有了记忆,对于序列化的数据,循环神经网络能达到更好的效果。由于RNN容易出现梯度爆炸,不易训练的缺点,RNN发展出了许多变种,其中长短期记忆网络(Long Short-Term Memory, LSTM)网络是一种循环神经网络特殊的类型,可以学习长期依赖信息。LSTM由Hochreiter & Schmidhuber (1997)提出,并在近期被Alex Graves进行了改良和推广。
在 [25] 中,Längkvist等人提出了第一个基于深度学习的睡眠分期系统;在 [26] 中,Ronan Collobert提出了一种端到端深度学习方法,它采用多变量睡眠信号(即EEG,EOG和EMG)进行时间睡眠阶段分期。随着可穿戴设备的快速发展和EEG信号采集设备的发展,例如,Supratak等 [16] 提出DeepSleepNet,该模型基于原始睡眠EEG信号,包含两个不同的CNN来提取时不变特征,一个双向长短期记忆(Long Short-Term Memory, LSTM)用于序列残差学习 [27]。然而这些工作都忽略了睡眠专家的分期过程,睡眠专家是通过经验和AASM规则从整体上观测多个通道EEG信号进行睡眠阶段分期。
在本文中,我们介绍了一种使用深度监督卷积神经网络(CNN)对原始信号样本进行的睡眠分期的方法。实验目标是利用深度学习的特征提取功能代替手动特征提取工作。这项工作的主要贡献如下:1) 构建了一个基于卷积神经网络的睡眠评分系统;2) 网络端到端训练,并在原始脑电图上学习特征检测;3) 系统在大型数据集上进行评估,保证了训练的模型能够得到良好的推广应用。
2. 数据与方法
此次实验所用的数据是通过Alice Sleepware G3软件添加Alice5设备进行采集的。Alice Sleepware G3软件是飞利浦公司专门为Alice系列多导睡眠检测仪设计的软件。Alice Sleepware G3软件可以直接对釆集的各种指标数据进行展示,之后对采集到的数据每30 s应用—次的睡眠自动分期。然后专家依据Alice Sleepware G3编辑界面观察各个通道的生理信号,对错误的分期进行排查,并对分错的进行手动标记矫正,分期结果以专家手工校正为准,最终得到睡眠结构图。
2.1. 数据及预处理
本文采用的数据集来自于福建省某睡眠中心医院以及公开的Physionet Sleep-EDFx数据库 [28],睡眠中心医院使用飞利浦Alice 5多导睡眠监测仪来进行实验。实验前对来睡眠监测中心的患者进行简单编号并要求每一名患者填写问卷调查。问卷主要内容包括患者身高、体重、颈围、血压和心率以及医嘱现病史、既往病史、家族史、用药情况等。数据是通过Alice Sleepware G3软件添加Alice5设备进行采集。随机挑选114名患者的数据,这些患者没有服用任何睡眠相关的药物。我们对这些患者使用Alice5设备以200 Hz采样率进行一整夜的睡眠采用。经统计患者的睡眠时间为8~10小时。需要说明的是,福建省某睡眠中心医院所有的数据都采集自有睡眠障碍的患者。

Figure 1. The characteristics of EEG waveform example
图1. EEG波形特征示例
图1展示了本次实验使用的两种不同期EEG波形示例,分别为公开数据以及睡眠中心医院数据集。根据Amaud Sors的研究表明,“可用的EEG通道是对称的,因此它们具有相当的性能” [29]。然而这个工作忽略了睡眠专家的分期过程,睡眠专家通过经验和AASM规则,从整体上观测多个通道EEG信号进行睡眠阶段分期。因此,在下文中也采用EEG-F3-A2,EEG-C3-A2,EEG-O1-A2通道,以及眼电信号采用EOG-left与EOG-Right等多个通道来执行自动睡眠阶段分期任务。每个受试者的整个EEG信号被分成30秒的样本数据(每个样本包含6000个数据点)。每个时期被标记为W,N1,N2,N3,REM和未分期(未记录的时期在每次记录的开始或结束时),由睡眠专家进行分期。在本研究中,占比较少的REM和未分期的时期已经被删除。
某些特殊的睡眠样本例如含有12个小时的清醒期样本以及睡眠时长达到25小时的样本等,没有被包含到实验数据中,同时,通过专业睡眠专家的筛选,极少数患者被排除在外,因为它们可能是异常值。从图2可以明显看出不同期的数据分布不平衡,因此,我们对N1期的数据做了数据增强,提取全部N1期数据拼接成总长度为81 h的数据,然后去除数据前10 s,再重新以30 s逐一切割,从而减少数据不平衡带来的误差。因为这样错位10 s的数据,既可以实现数据增强,又可以实现数据的多样性。从以上工作来看没有对EEG信号本身进行额外的预处理。
2.2. 网络结构
对于CNN架构的选择尝试了两种结构,一种是是现有的主流EEG分期模型,这类模型是使用单通道EEG数据进行分期的结构;另外一种是本文提出的新分期模型,使用多通道EEG与EOG进行分期,下文将主要以此模型的结果进行分析和讨论。
2.2.1. 基于单通道EEG的模型A
首先介绍基于单通道EEG的模型结构:这一部分,我们构建了基于卷积神经网络与循环神经网络的自动睡眠阶段分期模型A。
为了更好的模拟睡眠专家的分期过程,CNN的输入包括分类的时期未处理的EEG信号与EOG信号,以一个数字矩阵作为输入。模型训练好之后,如果当前要预测的样本信号为不确定的情况下,模型中表现为该期的分期概率值小于等于0.25,偶尔会引用下一个和前一个样本的分期结果。
图3给出了该网络结构的基本视图,展示了基于EEG信号的卷积神经网络的自动睡眠阶段分期模型。该模型的输入是一个30 s的采样率为200 Hz的EEG信号,每个信号包含30 × 200个数据,表示为1 × 6000的矩阵。其中1代表采用1个通道的数据,6000代表一个通道的数据量。实验采用F3-A2通道的EEG,每个EEG样本信号按顺序由输入层,Cov1,dropout,Cov2,Pool1,Cov3,dropout,Pool2,FC1,dropout,FC2,dropout和输出也即属于每个睡眠期的概率组成。需要说明的是,为了加快网络的训练,测试阶段采用8个人的样本数据。当网络准确率达到75%时,找到了合适的参数区间后采用39人数据样本,总的期数达到41,000。

Figure 3. Architecture of Model-B based on single channel dataset
图3. 基于单通道EEG模型B的网络结构
2.2.2. 基于多通道EEG与EOG的模型B
以下是基于多通道EEG与EOG的模型结构:在这一部分中,我们构建了基于卷积神经网络的自动睡眠阶段分期模型B。
模型B采用4个二维卷积层,激活函数采用线性整流函数(Rectified Linear Unit, ReLU),每个二维卷积层紧接着采用了dropout避免过拟合的方法,都以20%的几率使得神经元会被关闭或丢弃。每个卷积层后都接一个最大池化层。紧接着是两个全连接层,第一个全连接层有4096个单元,另一个全连接层有1500个单元,这两个全连接层也采用了dropout避免过拟合的方法,都以50%的几率使得神经元会被关闭/丢弃。最后是一个大小为5的全连接层,激活函数采用Relu,卷积层的激活函数都用的是Relu,负斜率为0。
图4展示了基于EEG信号的卷积神经网络的自动睡眠阶段分期模型,网络的输入为一个30 s的采样率为200 Hz的EEG信号,它以5 × 6000的矩阵形式表示。其中5代表采用了5个通道的数据,模型B采用F3-A2,C3-A2,O1-A2通道的EEG以及Left EOG,Right EOG,每个EEG样本信号按顺序由输入层,Cov,dropout,Pool交替搭建,直到FC1与FC2和输出。测试阶段采用8个人的样本数据,当网络准确率达到75%时,找到了合适的参数区间采用114人数据样本,图2显示了各个期的数量分布。

Figure 4. Architecture of Model-B based on multi-channel dataset
图4. 基于多通道数据模型B的体系结构
2.3. 模型评估与优化
本文的前半部分,详细介绍了本研究中使用的数据结构和模型设计。表1显示了本研究中使用的样本数。为了评估模型的性能,实验使用了K-fold交叉验证方法 [30],K设置为5,也即5折交叉验证。我们将所有类型的睡眠期EEG信号以及EOG数据划分为测试集和训练集。在本文中,K被设置为5,具体来说,随机选择所有数据集的20%作为测试集,其余作为每个训练期间的训练集。一般使用反向传播算法就可以直接得到梯度,但是对于模型B,此优化方法结果并不是很好。为了优化,用了Adam [31] 优化方法。模型B还采用了随机梯度下降Stochastic Gradient Descent (SGD),SGD因为更新比较频繁,会造成损失函数有剧烈的震荡,最终停留在局部最小或者Saddle Point,也即鞍点处。所以模型B采用Adamwith Momentum梯度更新方法,引入moment可以避免落入局部最优解最终可以加快收敛的同时减小震荡。
在固定长度的时间序列上使用CNN时,卷积部分的输出大小直接与输入大小、卷积层数和它们的步幅有关。如果最后一个卷积层的输出太大,则绝多大数权重将位于全连接层中。我们试验了6~12层,步长为2~10,还尝试了7号,5号和3号大小的卷积核,最终选择了3号和5号卷积核,尽管5到7之间的性能差异很小。经过各种功能配置的测试,模型B保留了前四层的128个特征图和256个特征图,以及最后两层卷积的512个特征图。最后,在网络架构中,使用3号和5号卷积核组合是一个很好的折衷。除此之外,还采用批训练的方法来加快训练过程。实验过程中尝试了16、64、128、256批次的训练。结果显示,当批次为128时效果最好。
最后要说明的是,本实验的代码使用python (Python 3.6.6)语言和Pytorch (Pytorch 0.4.1)深度学习框架。为了加速模型的训练,模型在Pytorch中实施,并在Nvidia GTX1060的GPU上进行模拟训练。

Table 1. The specific params of our CNN model based on multi-channel data
表1. 基于多通道数据的卷积神经网络模型参数
3. 结果
我们使用召回(Recall, REC),准确率(Precision,PRE)和F1值(F1-Score,F1)以及总体准确度(accuracy, ACC)来评估模型A与模型B的分类表现。其中准确率PRE表示被模型预测为正例的样本中实际也是正例的比例;召回率REC,又称查全率,是一种覆盖面的衡量标准,表示样本中的正例有多少被预测正确。其中指数MF1指的是每个睡眠期的所有F1的平均值。ACC表示正确数量的睡眠阶段时期分类与所有睡眠阶段时期的比例。REC,PRE,F1值,ACC与MF1的计算方法分别如下:
(1)
(2)
(3)
(4)
其中方程3.3中的 是每个类中被预测为正确的数量,F1c是某一类的F1分数,C是睡眠分期的数量,N是所有的30秒样本数量。TP是真阳性,FN是假阴性和FP是假阳性。
3.1. 基于单通道EEG的模型结果
在单通道模型中,时长为30秒的EEG信号样本总数是41,000,实验使用5折交叉验证方法来评估模型的性能。因此,取出总样本的20%作为测试集,这些样本没有参与模型的训练,只作为测试集。在下面的内容中,表2显示模型在每个实验中的测试集的平均性能。
表2显示了使用模型A从睡眠期的单通道EEG信号的实验获得的混淆矩阵。该实验的总体准确度ACC为79.92%。在表2中,每行和每列分别表示由睡眠专家判断并通过模型A预测的30秒EEG信号和EOG信号的睡眠分期的数量。

Table 2. Confusion matrix obtained from experiment on single channel EEG signals using our model
表2. 使用基于单通道EEG的模型获得的混淆矩阵
为了评估模型A的性能,模型结果与几种现有方法的结果进行比较。需要说明的是这些方法都是采用Fpz-Cz通道EEG数据。我们应用这些现有方法,因为它们的结果也基于模型A在本研究中使用的数据集,即福建省某睡眠中心医院数据集,表3列出了比较结果。根据表3,对于相同数据集,模型A达到了最佳性能参考的准确性。

Table 3. Accuracy comparison matrix with other method
表3. 与其他方法的精度比较矩阵
模型A比其他的单通道模型具有更好的性能,尽管它们都具有良好的性能,图5显示出了由睡眠专家分期的其中一位受试者一整夜的多导睡眠图的比较,即睡眠专家分期结果与模型A的结果对比。可以看出模型A是最优的,相对来说,对于福建省某睡眠中心医院数据集,模型2的分期结果是最差的。

Figure 5. The comparison of hypnogram scored by sleep experts, and our Model-A, and other models
图5. 睡眠专家分期的睡眠结构图和我们提出的模型A的结果比较
从表3来看,基于公开数据集模型1与模型2具有很好的性能,而当我们应用这两个模型测试于福建省某医院睡眠中心数据集时,发现模型A优于这两个模型,说明这些模型的泛化能力还是不足,依旧有很大的提升空间。反观模型A应用于福建省某医院睡眠中心数据集时却有更好的表现,相对来说有很强泛化能力。分析原因不乏有模型1与模型2本身是以健康人群的数据为训练数据,而模型A是以福建省某医院睡眠中心数据为训练数据,是采集自有睡眠障碍患者的数据集,具有很大的多样性,直观上可以从图5看出。接下来我们将主要对多通道模型B的结果进行分析与讨论。
3.2. 基于多通道EEG与EOG的模型结果
由图2可见,睡眠期30秒EEG信号样本的总数是130130,实验使用5折交叉验证来评估模型的性能。因此,取出总样本的20%作为测试集,这些样本没有参与模型B的训练,只作为测试集。下面的内容将显示模型B在每个实验中的测试集的平均性能。表4显示了使用模型B在多通道EEG和EOG信号的实验获得的混淆矩阵。总体上来看,该实验的总体准确度ACC为81.93%。

Table 4. Confusion matrix obtained from experiment on multi-channel EEG signals using our proposed model
表4. 使用基于多通道信号的CNN模型获得的混淆矩阵
正如表4所示,模型B的ACC达到了更高的值,表明模型B具有良好的性能。实验中最显著的结果是W,N2和N3的睡眠期具有优异的分类性能。例如,W期分类的准确率接近92%,N2和N3期接近77%。模型B在期REM上的表现略差,但其REC仍然超过76%。可以看出,N1期具有最差的分类性能,因为N1期主要被错误地分类为W期和N2期。从各个期的特征波来看,原因可能是背景EEG波与三个睡眠期非常相似。另一个原因可能是缺乏N1期的样本,平均每一个人的整夜睡眠中,仅有大约70个30秒的EEG信号属于N1期,五个期的分布不均可能导致使用CNN模型的N1期的分类结果差。因此,我们对N1期的数据做了数据增强,提取全部N1期数据拼接成总长度为81 h的数据,然后去除数据前10 s,再重新以30 s逐一切割,从而减少数据不平衡带来的误差。因为这样错位10 s的数据,既可以实现数据增强,又可以实现数据的多样性。从以上工作来看,没有对EEG信号本身进行额外的预处理。

Table 5. Accuracy comparison matrix with other method
表5. 与其他方法的精度比较矩阵
为了评估模型B的性能,我们与几种现有方法进行了比较。因为它们的结果也基于模型B在本研究中使用的数据集,即福建省某医院睡眠中心的数据集。表5列出了比较结果,由表5可见,模型B达到了最佳性能,并且有着优于模型3与模型4的分期准确率。可以将这两个模型应用于更多可用数据集,并将结果与这些模型进行比较,以显示模型B的泛化能力。从结果中可以看出,我们的多通道EEG和EOG模型在福建省某医院睡眠中心数据集是优于现有的多通道模型方法。由于模型使用的数据是有睡眠障碍患者的数据,这说明模型B泛化能力显然高于公开数据集的模型。
虽然模型3与模型4都具有良好的性能,模型B比模型3与模型4具有更好的性能,图6显示出了由睡眠专家分期的代表性样本的一整夜的多导睡眠图PSG的比较,即睡眠专家分期结果与模型B的结果对比。从不同模型的分期结果来看,模型B有着显著的优势。模型B与原标签基本一致,错误的部分大多数为清醒期与N1期,N3期与N4期的错误分类其次。

Figure 6. The comparison of hypnogram scored by sleep experts, and our Model-B and other models
图6. 睡眠专家分期的睡眠结构图和我们提出的模型B以及文献方法结果比较
4. 结论
这项研究表明,使用多通道EEG和EOG,使用卷积神经网络对睡眠阶段分期进行分类是可行的,在自动睡眠分期的研究中不应该忽略EOG数据,我们的系统性能与中级睡眠人类分期专家的性能结果相当。训练是端到端的,无需任何专业知识选择或任何信号预处理是一个优势。因为神经网络可以自主学习各个期的特征,最适合分类任务的功能。
从卷积网络的特征来看,卷积层已经能够学习出优秀的过滤器。另一个优点是该方法更易于适应另一种应用或者类似的医学序列数据。关于睡眠专家产生的误差,我们注意到误差主要对应于睡眠周期中连续的期。例如,N3期最常与N2期混淆,几乎从不与N1混淆。类似的,N1期虽然被称为人类医师分歧最小的期,但它们会被误分为Wake,N2或REM,因为这些期都可以包含类似于N1期的特征。
作为睡眠阶段分期的数据集,从图2可以看出我们的数据集的类别分布是不平衡的,需要进一步研究以解决类别不平衡问题。集成学习 [35] 或人工平衡 [36] 是比较合适的。
表3与表5分别显示了近期单通道和多通道睡眠图睡眠分期研究的一些特征和性能指标。睡眠分期的研究是具有挑战性的,因为它们并非都使用相同的数据库、样本数量和分期规则,并且它们并非都以相同的方式平衡类别。例如,Physionet Sleep-EDFx数据库 [28] 有比任何其他睡眠阶段更多的清醒期,因为此数据库保留了夜晚前后数小时的清醒期的记录。
在本文中,我们提出了一种基于深度卷积神经网络的多通道EEG信号的自动睡眠分期的方法。将CNN应用于脑电信号以及眼电信号的分类,可以把EEG时间序列信号和EOG时间序列信号转换为有意义的数据矩阵,类似于图的CNN可以处理的格式。睡眠分期结果表明,我们提出的方法比其他现有方法获得更好的睡眠阶段分期性能,并且对不同类型人群的30秒EEG信号和EOG信号睡眠分期数据具有更好的适应性,避免了设计和提取分类器过程的不准确性和复杂性,可用于自动睡眠阶段分期的EEG信号的特征。
随着睡眠数据的累积,我们的模型性能将得到进一步提升。应该指出的是,人类专家通常不会仅使用一个通道进行睡眠分期。例如,在AASM指南中推荐至少三个通道,并且通常是非EEG标记,例如EOG、EMG或运动,其帮助神经生理学家区分N1期或REM期。在现存的大多数的例子中,虽然使用单个通道对轻便携式设备很有意义,但它同时限制了模型性能 [26]。未来将继续改进基于CNN的自动睡眠阶段分期方法,并将进一步与RNN结合,实现对同一个样本不同期之间的时序信息的学习。
此外,我们的方法还为分析其他非线性和非平稳时间序列数据提供了一个思路方法。此模型原则上适用于使用CNN分类器的其他医学领域,我们将探索使用其他医疗时序数据,来处理相应的疾病检测和健康分析问题,例如用于肺音分类 [37] 和心音分类 [38]。
基金项目
国家自然科学基金资助项目(批准号:11874310和11675134),国家111项目(批准号:b16029)。
NOTES
*通讯作者。