1. 概述
信息化时代,如何安全、准确地进行个人身份鉴定,对保护信息系统安全和个人隐私非常重要。传统的身份认证,如密码、钥匙、门禁卡等由于容易伪造、丢失和冒用,越来越难以满足实际应用需求。近年来,基于人体特征的生物识别技术,因其使用便捷、安全性能高等优点,已经成为人们进行身份识别与认证时的首选技术 [1]。2020年,全球生物识别市场规模增长至233亿美元,复合年均增速为15.7%,生物识别技术的广泛应用,有效解决了人们无法记忆、使用安全密码的问题。但指纹、人脸等常见的生物识别技术无法满足一些特殊场合的身份识别应用 [2]。例如:手指残疾、无指纹人群、老年人指纹不明显等群体无法使用指纹进行身份识别。人脸识别技术也难以应用在需要穿着密封服、戴面罩、弱光等特殊场合的识别场景。因此,近年来基于心电信号的个人身份识别技术因其必须活体采集、信号难以伪造、可以无接触式采集等优势,使其能在一定程度上弥补其他生物识别技术的缺陷而得到广泛研究。
但是,由于研究缺乏长时间、不同时间跨度的人体心电数据资源,使得国内外普遍缺少对人体长时间、不同时间跨度的心电信号是否能够稳定进行身份识别进行研究。目前,国际上公认ECG标准数据库有三个,分别是美国麻省理工学院提供的MIT-BIH数据库,美国心脏学会的AHA数据库和欧洲ST-T心电数据库。其中,MIT数据库自1999年,在美国国家研究资源中心和国家健康研究院的支持下,MIT数据库的所有数据都可以通过Internet免费下载和使用,近年来应用比较广泛。但是,该数据库建立时其被采集对象单一,多为年迈老人,且采集时间较短,无法进行对人体长时间跨度的ECG是否能够稳定进行身份识别的研究。文献 [3] [4] 虽然采用不同心电识别算法,都能达到90%以上的识别准确率,但是,其实验数据均来源于MIT-BIH数据库,未能包含人体不同时间间隔的心电数据,因此,实验结果的稳定性没有得到验证。
2. 心电信号不同时间跨度的身份识别准确性研究
2.1. 实验数据库的构建
研究心电信号身份识别的稳定性,需要构建一个采集群体稳定的心电数据库。团队根据采集对象的年龄、性别和身体状况等因素确定了一支由高校学生、教师和社会志愿者组成的心电数据采集对象库。历时三年,建立了一个拥有多时段、最长时间跨度三年的,多个用户心电数据库。该库包含每位采集对象的首次、一个月后、三个月后、六月后和三年后五个时间段的心电信号数据,每个时间段分为运动前和运动后两个不同状态分别采集时长达15分钟的数据。
数据采集使用迈瑞心电监护仪N12,设备采集频率为500 Hz每秒,采集部位为RA、RL、LA和LL,将各个电极置于人体指定部位,心脏内部产生的电刺激脉冲使心室、心房的肌肉细胞舒张和收缩产生电位差,通过记录两电极间的电位差在计算机中得到心电信号数据并存入数据库中。每次心电信号采集前,会详细记录被采集者的基本信息,主要包括被采集者的年龄、性别、身高等,以及采集时间、当天气温、天气状况和被采集者的心情、身体状态等辅助信息。目前,心电数据库已累计采集有效心电信号数量约12万秒。
2.2. 心电信号身份识别算法
一个典型心电波形,由P波、QRS波群、T波和U波组成,如图1所示。其时域特征包括R波峰值、QT间期、ST段、PR间期等参数,反映心脏在不同阶段的收缩与舒张状态。个体心脏位置、大小、构造、年龄、性别、胸腔结构等诸多因素使得波形振幅的不同从而导致了ECG数据差异性的产生。同时,心电信号在采集时易受到干扰,同一个体的身体特征可能发生细微改变,因此,在进行身份识别前,应该将采集到的ECG数据进行降噪、滤波、归一化等处理。
心电信号身份识别的方法主要有神经网络法、统计模式分类、结构分析分类法等。近年来,随着人工智能技术的发展,国内外众多的专家和学者更加倾向采用人工神经网络对心电信号进行识别,现有研究成果表明,其识别率显著高于其他识别分类方法。常见的神经网络算法主要有深度置信神经网络(DBN)、卷积神经网络(CNN)、长短期记忆神经网络(LSTM)等。本文通过准确率、精确率、召回率以及F1值等评估指标深入比较了以上三种适用于心电信号的算法,最终选取卷积神经网络(CNN)算法搭建识别模型。
卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,具有表征学习,可以进行监督学习和非监督学习。其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征。其结构包括输入层、隐含层和输出层。本文以心电信号截取的一个心拍作为输入数据,隐含层包括卷积层、池化层、全连接层等,其作用在于提取输入数据中的特征,提取特征后即可在输出层输出相应的分类。根据心电数据特点,我们对卷积神经网络模型结构进行了优化,搭建了如图2所示的心电信号识别模型结构图。
Figure 2. Optimized convolutional neural network structure
图2. 优化后的卷积神经网络结构
本文设计的CNN由一层输入层、六层卷积层(C1、C2、C3、C4、C5、C6)、三个池化层(S1、S2、S3)、一层全局池化层、一层全连接层一层输出层构成,其中卷积层利用卷积核对所输入的心拍进行特征提取,池化层用于对所输入数据进行降维,防止过拟合的发生 [5]。输入层维数是500*1,C1卷积层和C2卷积层都使用一个1*10卷积核,C1输出形状为491 × 100 (491 × 100 = (500 – 10 + 1) × 100)的特征面,C2输出形状为482 × 100的特征面。对提取的特征心拍采用ReLU函数进行激活,ReLU函数如公式1所示;S1池化层采用3*1池化核,输出形状为160 × 100 (160 × 100 = 482 ÷ 3 × 100)的特征面;C3卷积层和C4卷积层使用一个1*10卷积核,C3输出形状为151 × 160的特征面,C4输出形状为142 × 160的特征面,对提取的特征心拍采用ReLU函数进行激活;S2池化层采用3*1池化核,输出形状为47 × 160的特征面;C5卷积层核C6卷积层使用一个1*10卷积核,C5输出形状为38 × 160的特征面,C6输出形状为29 × 160的特征面,最后建立全局池化层和全连接层,将每位参与测试人员的前70%心拍数作为训练组分批次送入CNN进行学习训练。
(1)
公式(1)中,x表示输入数据,在区间(−∞, 0)上函数值为0,使CNN部分神经元输出为0,因此CNN具有稀疏性,防止了过拟合现象,ReLU函数计算简单,减小了计算量,具有仿生物学、更加有效率的梯度下降以及反向传播和简化计算过程等优势,能更好地对ECG信号特征进行提取,将其映射到非线性空间。
全连接层所采用的激活函数是softmax函数,softmax函数将输入映射为0~1之间的实数,并且归一化保证和为1,因此多分类的概率之和即为1。
本文选取的损失函数为分类交叉熵函数(categorical_crossentropy),其损失函数表达式为:
(2)
其中n是样本数,m是分类数。实验证明,采用分类交叉熵函数作为损失函数,对于采用softmax作为输出层的激活函数的心电信号识别的多分类问题,能够取得较好的识别准确率。
心电信号识别使用卷积网络算法,采用原始心拍波形数据作为输入,可以有效从大量样本中学习到相应地特征,避免了在特征提取过程中特征丢失的问题。该网络通过简单的非线性模型从原始图像中提取出更加抽象的特征,并且在整个过程中只需少量的人工参与。网络具有局部感知和权值共享两个特点,局部感知使每个神经元只对图像的局部像素进行感知,然后,在更高层将这些局部的信息进行合并,从而得到图像的全部表征信息。权值共享网络结构则使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量 [6]。
3. 实验分析及结论
表1记录了志愿者采集当日、一月后、三月后、六月后四个时间段,不同性别下心电识别平均准确率的变化情况。从该表可以看出,健康青年男性的识别准确率和稳定性略高于女性,且在采集后的一个月内,识别准确率只存在微小降低,仍符合将心电识别应用于身份识别的条件。但随着时间的不断推移,识别准确率逐渐降低。我们认为,这可能与人体心跳的节奏、强度会随时间出现一定程度变化导致。为了保障心电信号身份识别准确率,应在一定时间间隔后对个人心电信号重新采样,持续增加新的训练数据来保证心电识别的准确率。以目前实验结果分析,我们建议间隔时间为一个月。
表1数据还显示出,基于相同训练数据量的情况下,女性识别准确率低于男性。为此,在实际应用时,应适当加大女性的训练数据量,以确保达到与男性相同的识别准确率。
Table 1. Average recognition rates under different time span s
表1. 不同时间跨度情况下平均识别率
本文利用卷积神经网络算法,对健康青年群体的首次、一个月后、三个月后、六个月后四个不同时段,长时间跨度心电信号,在个人身份识别中的稳定性进行了一些有意义的研究工作。研究发现,健康青年人群的心电信号在较长时间跨度下能够保持一定的稳定性,但随着时间的推移,其识别准确率呈现降低的趋势。根据研究结果可知,使用心电信号进行身份识别的系统,有必要在识别准确率开始下降的拐点前,及时再次采集个人心电数据,并对原有心电特征库进行迭代更新,以确保识别系统的稳定性与可靠性。
4. 研究展望
由于缺少长时间跨度的心电信号数据库,目前,国内外基于心电信号的身份识别研究成果绝大多数未能证明其成果的稳定性。本文通过对比人体不同时间间隔采集的心电信号在进行识别时准确率的变化,证明了心电信号在一定时间间隔中的识别稳定性。并提出了通过定期更新迭代人体识别数据,使心电识别准确率稳定保证在97%的方法。但是,本文的研究仍处于基础阶段,下一步将从以下两个方面进行持续研究:
1) 目前,我们构架的长时间间隔心电数据库中所采集的数据均来自于年青、健康的大学生群体,没有涵盖儿童、中老年人群,数据采集对象的来源还应该进一步多样化。另外,各类常见疾病,如流感、肝炎、肺炎等愈后,人体心电识别准确率是否会发生变化等问题的研究,还需要构建常见病症愈后心电数据库。
2) 在对长时间跨度的心电识别准确率的研究方面,目前本文只使用了单一时间跨度作为训练模型的数据,其他时间跨度的数据通过该模型生成结果。后续进行的稳定性研究,应将两个时间段的部分数据作为训练数据进行模型构建,例如,采集当日与一月后的数据,通过观察结果,进一步了解心电识别稳定性的规律,寻找保持稳定性的方法。
在心电信号身份识别技术不断取得成果的今天,人体心电信号稳定性问题将直接影响到其应用价值。心电信号稳定性问题的研究,不仅需要科研人员投入大量时间和精力,更需要大量志愿者能够长期、稳定地提供心电数据。人体心电信号稳定性研究的深入,既是确认心电身份识别可行性的有效措施,也是生物识别技术在心电领域的有益探索。同时,我们也应该认识到,人体心电信号稳定性问题的研究虽然在一定程度上验证了心电身份识别的可行性,但更长的时间跨度仍然是人体心电信号稳定性问题中不可忽视的问题,人体心电信号稳定性课题仍有许多亟待解决的问题需要持续研究。
基金项目
项目编号:本文获得国家级大学生创新创业训练计划资助(编号:202111058003)。