1. 引言
现代科技突飞猛进给人们生活带来巨大便利,各种机器设备的出现将人们从繁重的手工劳动中解放出来,转变为与鼠标键盘、触摸屏等人机间的轻松交互。然而,这种交互方式仍需要进行特定的学习和练习,理想的人机互动模式应当是一种更自然、更具有直觉性的手段。毫无疑问,“所想即所得”一直是人们心中最理想的交互方式。
无论怎样的人机交互方式,都离不开我们大脑的“指挥”。通过大脑这个神经中枢,可以使人产生不同的感觉、控制多种多样的运动以及实现其他的高级脑功能。探索大脑的奥秘、解析大脑的各种活动,对于人类社会的发展具有重大意义。脑–机接口是一个在大脑和外界之间传递信息的通讯系统,它通过解码神经活动的相关信号,使大脑在不依赖外周神经与肌肉组织的情况下与外界进行交流 [1] 。
典型的BCI系统主要包括信号采集、信号处理和控制指令输出三个部分。首先使用脑电信号采集仪器,通过放置在头皮表面的多个电极将微弱的大脑皮层信号收集起来,并将其传输至下级计算机进行后续的处理。因为脑源信号十分微弱,并伴有大量的背景噪声,所以需要对脑源信号进行特征提取、滤波、去噪等处理。当脑电信号可以被准确区分出特征时,便可按需求进行指令判别,将信号处理结果聚类成相应的控制指令,发送至目标设备,完成经由脑电信号直接控制外部设备的功能。这样一个通过采集、放大、分析大脑信号,并将其聚类为相应的控制指令,继而实现由大脑信号直接控制外部设备的系统,涉及脑科学、生物医学、计算机科学与技术、信息工程技术、心理学等多个研究领域,学科交叉特点十分鲜明,所以脑–机接口技术具有非常广阔的应用前景和十分重要的科学意义。
本文所研究的脑控音乐播放系统,旨在将“所想即所得”变成现实。不仅让脑–机接口应用在高端科研领域,而且将其带入日常生活场景中。不仅实现用脑电信号控制音乐播放的功能,还要让音乐播放这个简单的操作变得流畅、准确、灵敏度高。同时针对脑电信号提取、识别等环节存在的信号采集不稳定、信号分类不准确等问题进行深入的研究。
2. 相关工作
1973年,脑–机接口的概念被Jacques Vidal等人首次提出 [2] ,并将基于稳态视觉诱发电位控制脑–机接口系统的原理写入了个人学术论著里 [3] [4] 。但是直到1999年第一届脑–机接口世界会议召开,才明确给出脑–机接口的概念与定义 [5] ,脑–机接口技术才逐渐走进大众的视野。
目前,国际上对于BCI的分类主要有两个标准,一是依据检测脑电信号传感器放置的方式,分为需要进行有创手术、人为破坏脑结构的侵入式BCI和采用无创外部电极采集信号的非侵入式BCI;另外一个分类标准是依据脑–机交互过程中人类主观心理活动参与程度,分为主动式、被动式和反应式BCI系统。
2002年,第一个SSVEP-BCI系统由清华大学的高小榕教授等人提出 [6] [7] 。该系统通过匹配分析EEG信号和变换到频域上的刺激频率,筛选出频域特征最相似的频率,从而确定EEG信号和其对应的刺激频率。2012年,Hochberg等人进行了一次植入式脑–机接口实验,实验对象是两名四肢瘫痪病人。在该实验中,这两名四肢瘫痪病人最终成功利用侵入式BCI系统自主操控机械臂完成三维抓握动作。基于此,我们似乎可以观测大脑的活动,预测人类的意图。然而当前所有种类的脑–机接口研究均不高效。以当前科学界对于脑–机接口技术的研究水平,最多只能做到让瘫痪病人通过BCI系统来操控机械臂完成一些简单的动作,且动作并不会和想象的一样规范、流畅 [8] 。这与科学界的所期望的“所想及所得”的目标相比,还有很大差距。
综上,本文将设计并研发一个基于脑–机接口的音乐播放系统,该系统由脑电采集模块、信号处理模块及音乐播放平台三部分组成。该系统通过稳态视觉诱发电位(SSVEP)刺激人脑产生的不同脑电信号来驱动播放器执行不同的音乐播放器指令,实现控制指令的远程传送,使该音乐播放系统具有脑电控制、无按键触发、状态反馈等功能。本文剩余章节组织结构如下:第三节主要介绍SSVEP信号的采集;第四节介绍脑电信号的处理;第五节介绍系统的搭建与测试;最后对文章进行总结,并对未来的脑–机接口发展进行展望。
3. 稳态视觉诱发电位(SSVEP)信号采集
3.1. SSVEP概述
当人的眼睛接收到来自外界的刺激时,会令大脑产生不同的神经活动,从而在脑电信号中表现出不同的信号成分,这叫做视觉诱发电位(Visual Evoked Potential, VEP)。无论是VEP的产生,还是表现在脑电信号中的信号成分波动,都不是一个瞬时的动作,而是一个持续的过程,因而被称为VEP的时程。
当视觉刺激以某一较高的频率(一般应大于6 Hz)固定闪烁时,VEP的时程远大于视觉刺激的出现间隔,因此VEP会在时间轴上发生混叠,从而使脑电信号在刺激频率处及刺激频率的倍频处产生明显的波峰,此时的VEP称为稳态视觉诱发电位。
如图1所示,以10 Hz的固定闪烁刺激频率采集人脑SSVEP信号后,并对采集到的脑电信号进行傅里叶变换,可以清晰地看到,在10 Hz、20 Hz、30 Hz处,信号幅度明显增大。SSVEP是一种频率敏感信号,通常会在刺激频率频谱的二倍频、三倍频处观察到信号幅值的显著变化。
SSVEP的基本原理是给人类视网膜一个固定频率的闪烁刺激,从而诱发其大脑皮层枕叶部位产生一定的响应,从而得到不同的脑电信号。因为SSVEP的信号产生时间更快,传导速率也较高,所以相比于其他形式的脑-机接口系统,基于SSVEP的BCI系统具有更高的精度和更高的信息传输速率的优点。此外,SSVEP还是唯一的一种无需对被试者提前进行训练的脑–机接口范式,而且SSVEP范式中需要的EEG通道更少。
本文采用美国NeuroScan公司生产的64导数字化脑电图仪SynAmps2记录实验数据,如图2所示,同时使用SCAN软件与MATLAB之间进行通信,以便实现脑电数据的实时传输、实时处理等工作。
如图3、4所示,64个小方块分别对应脑电帽上的64个电极。随着脑电膏注入电极孔,可在屏幕上观察到方块区域由粉红色跳变成其他的颜色。一般来说,当电极阻抗指示方块的颜色变成绿色或蓝色,说明电极与头皮之间的阻抗下降到了一个可用的范围,此时采集到的脑电信号可以作为有效信号。最理想的情况是变为黑色,此时电极与头皮间的阻抗降至5 kOhms以下,实验效果较好。

Figure 1. FFT results of SSVEP signals
图1. SSVEP信号的FFT结果

Figure 2. SynAmps 2 EEG amplifier
图2. SynAmps2脑电放大器

Figure 3. NeuroScan electrode cap
图3. NeuroScan电极帽图片

Figure 4. Impedance interface of software SCAN
图4. SCAN软件的阻抗界面
3.2. 离线SSVEP视觉刺激界面设计与实现
信号采集过程中,编写的视觉刺激界面需要考虑到计算机显示器自身存在的刷新频率的影响。当屏幕刷新率为60 Hz时,大于6 Hz能诱发出SSVEP的频率可以选择6 Hz、7.5 Hz、10 Hz、12 Hz等。又因为SSVEP信号的处理主要基于倍频处的特征,且其节律的同化主要出现在基频和2倍频处,所以在视觉刺激频率的选择中应避免同时出现7 Hz与14 Hz等这样的倍数关系 [8] 。
采集频率从6 Hz开始,以1 Hz为步长对被试者进行数据采样,每一轮采集60秒的信号,共计采样10组。每轮刺激后,可得到一段60秒长的EEG脑电数据,随后更换刺激频率,重复当前的操作。
实验采集到的原始脑电信号,通过EEG-lab对脑电信号进行初步处理,将有用的数据提取出来,便于对脑电信号进行后续的处理,如图5所示。
SSVEP信号是一种频率特异性的信号,因此,在频域提取特征也是一种有效的方式。所以在将微弱的脑电数据量化后,我们对采集到的特征信号进行FFT处理。则在SSVEP信号的频谱图上,刺激频率及其倍频谐波处信号幅值会发生显著的增加,该处会有明显的尖峰出现。这个规律可以作为后续脑电信号分类的特征。
如图6所示,这是两名实验者8 Hz的SSVEP脑电信号结果。对于A和B两名不同的被试者来说,同样的8 Hz刺激频率,却有着截然不同的个体结果。
A被试者的8 Hz SSVEP信号并不理想,该频率下有较大的噪声干扰,特征频率没有明显的区分度,所有的频率都混叠在一起,无法通过滤波等方法确认出特征频率。因此该频率应在A被试者的刺激信号中首先排除。

Figure 5. EEG data processed by EEG-lab
图5. EEG-lab处理后的脑电数据

Figure 6. Sensitive frequency time domain and spectrum diagram
图6. 敏感频率时域图及频谱图
而对于B来说,可以很明显的看出其脑电信号在8 Hz、16 Hz、24 Hz处均有明显的幅值增大现象,则该频率便可作为一个特征刺激频率,用来诱发B被试者SSVEP脑电信号。
因为本文的音乐播放器需要有至少四个基本功能,每一个功能需要对应一个不同的刺激频率,所以在实验前,需要对每一位被试者采集并确认至少四个敏感频率。
当确认好被试者的4个敏感刺激频率后,即可开始正式的离线数据采集工作。如图7所示为脑电信号采集时的64导脑电信号的实时波动情况。
4. 脑电信号处理
脑电信号处理的主要目的,是针对不同种类的脑电信号设计有效的信号处理方法,从而识别不同任务模式下的脑电信号,并最终将其转化为计算机可以识别的控制指令。脑–机接口中的脑电信号处理部分主要由预处理、特征提取和模式分类三个部分组成,如图8所示。
脑电信号预处理主要用来去掉噪声,以提高脑电信号的信噪比,从而使其信号特征更明显,便于特征提取和特征分类的进行。脑电信号预处理过程通常包括:

Figure 7. EEG real-time acquisition page
图7. 脑电信号实时采集页面
1) 滤波:通过带通滤波或独立分量分析的方法对初始脑电信号分别进行基于频率和空间分布滤波,从而提高脑电信号的信噪比;
2) 下采样:由于采集到的原始脑电信号包含很多无用的信息,且其数据精度远远超出实际需求,因此需要对初始数据进行降维处理,以减少后续的数据处理量;
3) 去除伪迹:去除眼电、心电、肌电等伪迹或外界噪声干扰。
特征提取是利用数学方法,通过频域变换等方式将杂乱无章的脑电信号提取出明显的、可观察的特征,并能用数学形式表达出来,因为SSVEP是一种诱发脑电,在接受刺激后,脑电信号表现在出现与刺激频率相对应的谐波,因此,可以提取这种时域特征。现在常用到的时域特征提取算法是典型相关分析(canonical correlation analysis, CCA)。
模式分类这一环节根据提取出的脑电特征对信号进行判断,聚类成相应的指令,识别出被试者的意图。
本文离线数据分类利用CCA算法对SSVEP信号进行频率识别。CCA是一种多变量统计方法,应用于一些有潜在相关性的两组数据。CCA将普通相关性的比较范围扩展到两组变量。在CCA方法中,首先需要找到两组线性组合,并将其称为规范变量,值得注意的是,需要使两个规范变量之间的相关性最大。然后再找到第二对线性组合,它与第一对规范变量不相关,但具有次高的相关性。构造规范变量的过程一直持续到规范变量对的数量等于较小集合中变量的数量。下列这些系数描述了这两组的相关关系。
假设存在两组数据,分别为
和
,其中m、n分别为X、Y的维度。现在对X、Y进行如下线性变换:
(1)
(2)
X和Y的线性组合叫做典型变量。CCA的目的就是求出能够最大化U和V之间的相关系数
,其中
为:
(3)
其中:
(4)
(5)
(6)
于是优化目标可以写作:
(7)
当我们将CCA应用于SSVEP脑电领域时,可以将预处理后得到的脑电信号作为X,然后根据刺激频率构建参考向量Y,其构建方法为:
(8)
该式中,T是采样点数,S是采样频率。构造的参考变量组包括刺激频率f及其2倍频、3倍频处的标准正余弦函数。分别计算参考变量组和各个待测变量组的相关系数矩阵,频率识别的范式为:
(9)
式中,
表示识别出的SSVEP信号的频率,
为待测信号与参考变量组
的CCA相关系数。根据这个原理,可以将脑电信号进行模式分类。
在系统进行CCA处理后,对每个时间窗口内的数据结果进行统计,将频次最高的结果判别为最终结果。如果有两个频率出现的频次相同,则将这次的CCA数据视为无效数据,直接丢弃,CCA结果示例如图9所示。
5. 基于BCI的音乐播放系统搭建与测试
最初设计的BCI音乐播放系统需要由三台电脑共同实现,计算机A需要单独显示SSVEP视觉刺激界面,用以诱发SSVEP信号;经脑电信号采集放大系统处理后,传入装有scan软件的第二台计算机B;计算机B通过IP协议与计算机C进行实时通信,将原始脑电数据发送给计算机C进行后续处理。计算机C将收到的数据进行预处以及CCA处理后,得出最终结果,并驱动音乐播放器执行相关指令。该系统的示意如图10:

Figure 10. Architecture of BCI music player system
图10. BCI音乐播放系统
在基本功能可以实现的前提下,为了缩小设备体积,尝试将SSVEP刺激界面与音乐播放平台相结合。在Psytoolbox-3中修改刺激界面的大小,同时再将GUI界面调整至合适大小,即可将两个功能同时在一个显示器中呈现出来。
在该界面中,刺激方块共有四个,其中,位于上方的方块对应“播放”功能,位于下方的方块对应“暂停”功能,左右两个方块分别对应“上一首”和“下一首”功能。
使用本系统时,首先需要确认被试者的4个敏感刺激频率,然后更改SSVEP刺激界面中的方块闪烁频率,使之与敏感频率保持一致,然后让被试者带上脑电帽。想要播放音乐,被试者可盯住刺激界面上方的白块,听到“为您播放”的语音提示,并且“播放状态”一栏中显示“正在播放”的字样,表示操作成功,系统会开始播放当前装载的音乐曲目。其他功能的操作和效果同上。刺激界面与音乐播放融合后的界面如图11所示。
本文选取了5名被试者进行测试,5名被试者的年龄均在22~23岁之间,4名男性,1名女性,其中5人均为近视,经框架眼镜矫正后可达到1.0的视力。5名被试者无其他可能会干扰实验正常进行的疾病。

Figure 11. Integrated interface of stimulation and music playing
图11. 将刺激界面与音乐播放融合后的界面展示
测试过程中,首先对每一位被试者均进行了一次预实验,以确定4个SSVEP信号敏感刺激频率。预实验后,开始进行每人30个指令的固定动作测试和5 min的自由体验。在指定动作测试中,由实验员向被试者发出下一个动作指令,被试者通过注视屏幕上的刺激闪烁区块来执行相应指令。另有实验助理记录从实验员发出指令到播放器相应指令的时间。
值得注意的是,在正式进行系统的在线调试时,一般会让被试者盯着屏幕的空白处,采集一个“休息频率”,同时可将这个“休息频率”对应成音乐播放器的“播放”功能,以确保音乐播放器的正常使用。即当被试者无需对音乐播放器发布指令时,可以盯住屏幕的空白处,此时音乐播放器会正常播放,而不会跳转到其它状态。但在实验准确率的测试中,本文并没有进行空频率的设置,每一次指令的发出都会引起音乐播放器状态的改变,不会产生一直播放的结果,以此更好地确保试验准确率。
实验结果如表1所示:

Table 1. Statistics of experimental results
表1. 实验结果统计
从实验结果中可以看到,被试者C的正确率最高,达到了86.7%,被试者A的正确率最低,为76.7%,系统的平均响应时间约为3.858秒。因为在CCA处理脑电信号的过程中,国际上普遍认为需采集大于2秒的信号段才能得出较为准确的结果。因此,平均81.34%的准确率和3.858秒的延迟是一个较为理想的结果。另外,本系统具有很好的鲁棒性,能够基本实现预期目标,完成设计功能,符合设计标准。
6. 总结
本文根据脑–机接口范式以及脑电信号处理方法,研发了一款基于稳态视觉诱发电位的BCI音乐播放系统,是脑机接口在日常应用中的又一个较为成功的尝试。BCI作为一种全新的人机交互方式,为人类提供了控制设备与外界进行交流的全新思路,即直接通过脑电信号来传递思想、表达情绪,完全摆脱了语言和动作的束缚。随着不同领域与脑–机接口技术的融合实例越来越多,借助人脑和机器混合完成各种工作,为更多的问题提供了新的解决思路。
基金项目
北京市自然科学基金(4172016, 4152054);北京市教委科研计划一般项目(KM201710011006)。