1. 引言
肌电假肢是通过人体自身的表面肌电(Surface Electromyography, sEMG)信号控制机械装置进行相应运动的一种假肢 [1] 。随着算法和微处理器的发展,研究者们提出了基于sEMG信号模式识别的假肢控制方法,以便于实现快速且直观的假肢控制。该方法可极大程度地利用肌电信号中蕴含的信息,例如肌肉收缩的持续时间、肌肉运动时产生的sEMG信号幅值大小等,实现多自由度假肢运动控制,不仅可以提升肢体残疾人群的生活质量,更对他们回归社会起到了推动作用。
当前基于sEMG信号的肌电假肢模式识别算法可分为两大类:基于经典分类器的模式识别算法以及基于深度学习的模式识别算法。基于传统机器学习的sEMG模式识别中,手工提取的特征对于识别效果起到十分重要的影响。而对于未处理的原始sEMG信号,传统机器学习方法因其无法有效地对抽象、高维的数据进行分类训练,具有一定的局限性,较难取得很高的分类精度。随着人工智能技术的发展,深度学习在运动模式识别和图像分类等领域取得了良好的成绩。深度学习具有强大的学习能力,因其具有可自主从输入样本中学习不同抽象层级特征的功能,可以规避传统机器学习中复杂的特征提取部分,从而实现端到端的sEMG模式识别。
卷积神经网络(CNN)和循环神经网络(RNN)是目前流行的两种深度学习算法模型,在表面肌电图模式检测中得到了广泛的应用。一些团队提出了基于CNN架构的网络模型 [2] [3] [4] [5] [6] 角度改进CNN的分类性能,包括从原始sEMG信号生成瞬时肌电图像 [3] 、延时的sEMG频谱图作为输入 [4] 、使用多流分解阶段以及融合阶段对CNN模型进行训练 [5] 、基于CNN的特征提取方法(CNNFeat) [6] 等。RNN模型是一种可以通过动态地改变内部状态来处理时序信息的神经网络模型 [7] ,一些团队提出了基于RNN的分类模型 [8] [9] [10] [11] [12] ,研究结果表明RNN模型在延时问题上有可靠的表现。另外,作为RNN的改进模型,LSTM可以解决其存在的梯度消失以及长期依赖的问题 [11] 。还有一些团队提出了CNN-RNN复合神经网络结构 [13] [14] [15] [16] ,可以同时对sEMG灰度图像的空间信息和时序信息进行捕获,结果表明深度体系结构可以提高分类的准确性和鲁棒性。
综上所述,目前的研究大多集中在复杂情况下的准确性,虽然准确性是模式识别算法的主要研究方向,但实时性能也是模式识别算法能否应用于上肢假肢的重要因素之一。因此,我们希望提出一种模式识别方法,能够在实时分类性能方面取得突破,以期为上肢假肢肌电控制提供可行的实时识别方案。CNN能够将特征提取和分类相结合,基于原始数据学习最优特征和分类器参数。1D-CNN可以有效地训练数据集中有限的一维数据,具有更好的实时性能,而RNN在处理时间问题方面具有可靠的性能。两者都能在保持一定精度的基础上提高模型的实时性能。因此,我们结合1D-CNN和RNN的优势,提出了一种基于表面肌电信号的一维卷积循环神经网络分类模型(1D-CNN-RNN)。
2. 基于1D-CNN-RNN的动作分类模型
2.1. 卷积神经网络(CNN)与循环神经网络(RNN)
CNN专用于处理如时间序列数据和图像数据这种具有类似网格结构数据,是深度学习领域具有革命性意义的模型,在诸多应用领域都有优异的表现。CNN模型包括卷积层、池化层和全连接层,一般地,需要多个CNN框架组合形成最后的模型。卷积层使用卷积核,配合步幅对上一层的输入提取局部连接的信息,并将其传递给下一层,从而实现前一层的权值和后一层的权值共享,是CNN极其重要的组成部分。这一结构使得CNN可检测到平移不变的特征,随着神经网络深度的增加,卷积层提取的特征逐渐变得更加详细。因此,基于这一特点,CNN取代了手工特征提取,实现端到端的模式识别,显著减少了训练时长,并降低了模型构建过程中的复杂度。
RNN是一类用于处理序列数据的反向传播神经网络模型,可通过循环连接进行内部状态的更改。这一特点使得RNN处理如语音、文本等时间依赖信号时表现优异。RNN结构单元随时间展开后,当前隐含层状态与上一时刻的输入和隐藏层权重有关,当要求实现长期记忆时,RNN当前隐含层状态的求解与前n次有关,如式1所示。
(1)
其中x为输入向量,s为隐藏层数值,U属于输入层至隐藏层的权重矩阵,W为隐藏层上一时刻的值作为该时刻输入的权重矩阵。当n增大,模型计算量将指数增长,从而使得模型训练的时间显著延长。且处理长时间问题时,数据在遍历RNN时每个步长都会丢失一些信息,因此梯度消失造成的较远信息对该时刻产生的影响非常小,从而导致RNN的状态几乎没有最初输入的痕迹 [17] 。因此传统RNN模型不适用于长期记忆计算。
而LSTM作为RNN的变体对于解决这一问题具有很大的优势,LSTM单元主要包括主要层和三个门控制器(输入门、遗忘门和输出门)。主要层用于分析当前输入向量与短期状态,将最重要的部分存储于长期状态中。遗忘门控制删除部分长期状态,输入门控制添加部分长期状态,输出门控制当前时间步长读取部分长期状态 [18] 。LSTM计算公式如式2~式4所示,其中向量ht为短期状态,ct为长期状态;i,g,f,o分别表示输入门、主要层、遗忘门和输出门;每层与输入向量xt连接的权重矩阵是W;b为偏置量;
表示向量对应元素相乘。
(2)
(3)
(4)
2.2. 构建一维卷积循环神经网络(1D-CNN-RNN)
本研究设计的一维卷积循环神经网络模型(1D-CNN-RNN)如图1所示。该神经网络模型包括四个模块:模块一包括两层64个一维卷积层单元,通过非线性激活函数ReLU提取特征;批量归一化层(Batch Normalization, BN),主要作用是将上一层激活值规范化;以及一个窗长为2的最大池化层(Max Pooling, MP)。与模块一类似,模块二包括两层128个以ReLU为激活函数的一维卷积层单元、BN层、窗长为2的MP层和dropout率为0.2的Dropout层;模块三由两层以tanh为激活函数的LSTM单元和两层Dropout层(dropout率分别为0.2,0.5)组成;模块四则包含了全连接层(Dense层)、Flatten层和Softmax层,通过前面模块提取出的数据特征经Dense层进行连接,然后通过Flatten层展平,最后的Softmax层进行分类,输出结果。
Figure 1. Schematic diagram of 1D-CNN-RNN
图1. 一维卷积循环神经网络模型示意图
该架构的基本思想是将CNN和RNN组合,充分利用CNN在特征提取和多维时序信号处理方面的优势,并添加LSTM结构,以克服CNN在时延方面的缺点。1D-CNN-RNN参数状况如表1所示。
Table 1. Parameter of 1D-CNN-RNN
表1. 1D-CNN-RNN参数
3. 实验与结果分析
3.1. 实验方案
实验的整体流程图如图2所示。本研究使用无线gForce肌电臂环(上海傲意信息科技有限公司)记录数据,臂环由八个肌电传感器组成,采样频率为1000 Hz。gForce臂环戴在受试者右前臂上方,并置于肘部折痕和尺骨鹰嘴突的远端两到三厘米处,覆盖桡侧腕伸肌、指伸肌、尺侧腕伸肌和指浅屈肌等肌肉的主收缩区。实验过程中,受试者根据引导视频进行相应的手腕运动,并以中等力度保持肌肉收缩。当引导视频中显示为恢复自然状态,受试者上肢回到放松状态。
Figure 2. Online experimental design scheme
图2. 实验设计方案
本研究设计了包括了手指和腕部的基本运动,以及日常生活中常用的手势的20种前臂运动模式,如图3所示。
实验采集受试者20种前臂运动模式下的sEMG信号,各运动重复十次,每次动作持续3秒,放松3秒后重复该动作,不同动作之间休息5分钟。采集完23名受试者的数据后,对数据进行预处理,以64 ms窗长、64 ms步长的滑动窗口提取处理好的数据并生成数据集,将该数据集作为本文设计的1D-CNN-RNN模型与对照组模型(!D-CNN和LSTM)的输入,计算相应的评价指标,用于验证本文设计的1D-CNN-RNN的分类性能。每个模型训练时使用的超参数均一致,训练轮次Epoch = 30,批量batch size均为128,优化器使用Adam,设置初始学习率为0.001,采用交叉熵损失函数作为模型的损失函数。
Figure 3. Forearm movement pattern information
图3. 前臂运动模式信息
在线实验过程中,受试者根据引导视频进行相应手腕动作,各动作重复20次,每次持续3秒,放松3秒后继续下一个动作,不同动作之间休息3分钟。实验操作人员实时记录系统显示的对应动作的识别结果。实验结束后统计结果正确次数与总次数的比例,以及实时模式识别的平均时延。
3.2. 离线实验结果分析
首先对23名受试者的测试数据基于1D-CNN,LSTM和1D-CNN-RNN三种模型的识别结果进行比较,各项性能评价指标如表2所示。分类性能方面,1D-CNN进行了连续多层的卷积操作,提取的特征可分性较强,虽训练耗时较后两种模型而言最短,但测试集分类准确率(85.43%)和损失值(0.4446)远没有满足模式识别系统准确率的要求。LSTM模型相较于1D-CNN模型分类准确率有显著提高,但训练耗时最长,为后者的3.33倍。而相较于单独的1D-CNN或LSTM模型,1D-CNN-RNN对20种运动模式的分类性能表现更好:测试集准确率达到了98.88%;训练与测试的损失值最小;其训练耗时是LSTM模型的41%;召回率为98.88%,精确率为98.96%,F1值为0.9896,在三类模型中均为最高。
Table 2. Pattern recognition results of three neural network models
表2. 三种神经网络模型的模式识别结果
进一步通过混淆矩阵对三种模型的识别性能进行分析,如图4所示。1D-CNN模型的分类中,动作7、10、14和15的识别准确率均未达到80%。LSTM模型对四指伸展(动作11)的识别效果最差,更倾向于将其识别成拇指侧向内收(动作12)和五指伸展(动作14)。对于相似动作之间的识别,1D-CNN-RNN模型具有更好地识别性能,20种运动模式识别准确率均达到了97%及以上。
Figure 4. Confusion matrix for pattern recognition of three models
图4. 三种模型模式识别混淆矩阵
综上所述,在相同的信号预处理和神经网络超参数设置下,1D-CNN-RNN模型的模式识别性能最好,LSTM模型居中,1D-CNN模型最差。与LSTM模型相比,使用1D-CNN-RNN神经网络模型的优势在于LSTM单元之前的卷积层降低了其输入的维度,减少了计算量,进一步提高了效率。1D-CNN-RNN模型中设计的批量归一化对于卷积层的特征提取有积极作用,添加的dropout层可防止过拟合,从而使得模型结构较为稳定。
3.3. 在线实验结果分析
十名在线识别实验的受试者的离线训练结果如表3所示。由表可知,所有受试者离线识别率均达到了98%以上,且召回率和精确率维持较高水平且基本稳定。该结果与1D-CNN-RNN离线识别结果较为一致,进一步证明了使用新增受试者数据对已有的神经网络模型进行训练的方案可行,且大量缩短了离线训练的时间,提高了效率。
Table 3. The results of each evaluation index of neural network training set
表3. 神经网络训练集各评价指标结果
十名受试者20种运动模式实时识别的结果如图5、图6所示。由图5可知,十名受试者的各动作的平均准确率为91% ± 5%,其中,休息、伸食指和中指、五指抓、四指捏、四指伸展、握拳、五指伸展、五指捏、腕外旋、腕屈曲和腕伸展等动作模式的实时识别率均达到了90%以上。这些动作的特征明显,肌肉发力方式不易混淆,因此取得了较好的识别效果。而伸拇指、捏食指、三指捏和拇指侧向内收并未得到十分准确的识别。这可能是由于以上动作均包括拇指的相关运动,拇指的相关运动涉及到的手部肌肉较多,因此sEMG信号相似程度较高且强度较大,其余手指运动的细节信号容易被淹没,导致这些动作会产生错误识别。由此得出结论:当sEMG信号提供的有效区分信息不足时,易导致运动模式识别错误。
Figure 5. Identification accuracy of each action in online experiment (error bar represents standard deviation)
图5. 在线识别中各动作的识别准确率(误差棒表示标准差)
Figure 6. Identification accuracy of each subject in online experiment (S1-S10 is subject number, error bar represents standard deviation)
图6. 在线识别中各受试者的识别准确率(S1-S10为受试者编号,误差棒表示标准差)
进一步对不同受试者组内的识别进行分析,如图6所示。1号受试者的平均识别率最低,仅79%,分析发现,可能是由于其惯用手为左手,而在线实验模型是基于以离线识别实验的右手数据以及她本人的左手数据训练出来的。而随着受试者增多,实时识别的准确率呈上升趋势,后续左利手受试者(3号和7号受试者)的动作识别准确率也显著大于1号受试者,表明随着模型训练数据的增加,1D-CNN-RNN识别准确率得到进一步提升。
另外,在线实验还测试了模型在实时识别中的时间延迟,1D-CNN-RNN在实验过程中的平均时间延迟为153 ms,实验平台为Intel (R) Core (TM) i5-10500 CPU @ 3.10 GHz,说明1D-CNN-RNN的实时识别性能较为优秀。
4. 结论
为实现快速且准确的手、腕部多运动模式识别,本研究提出了一种基于sEMG信号的1D-CNN-RNN模型,并分别开展了离线和在线实时识别性能研究。离线模式识别中,发现1D-CNN-RNN模型的各项评价指标均显著高于常用的1D-CNN和LSTM两种模型,其准确率可达98.96%,对相似动作的识别效果更好。在线模式识别的结果表明,该1D-CNN-RNN模型在多数动作的识别准确率上表现优异,平均识别准确率可达到91%,且具有很好的时间延迟,相较以往文献中报道的在线实时识别延时性能具有显著优势,人体无明显延迟感的时间范围为0~300 ms [19] ,而本研究中平均时延仅为153 ms,因此,有望实现肌电假肢的运动模式的低延迟实时识别。
基金项目
国家重点研发计划项目(No. 2020YFC2007902),国家自然科学基金项目(No. 61903255)。
NOTES
*通讯作者。