1. 引言
微表情是一种非常短暂、微妙和不自觉的面部表情,通常发生在一个人有意或无意地隐藏自己真实情绪时。微表情通常持续时间非常短,在0.5秒以内(Oh et al., 2018)。微表情检测和识别在国家安全、自杀干预和犯罪侦察等领域中发挥了重要作用(Dong et al., 2022)。微表情的检测和识别依赖于数据库,所以了解数据库的特征以及各数据库的适用性对于理解和运用已有研究成果有重要意义。
根据微表情采集方法的不同将微表情分为摆拍微表情、自发微表情以及非实验室拍摄的微表情(Li et al., 2019)。USF-HD数据库和Polikovsky’s数据库属于摆拍数据库。MEWIEW数据库为非实验室拍摄的微表情数据库。目前自发数据库目前是应用最多的数据库。根据自发微表情数据库的发表时间的顺序依次列举分别是York DDT数据库、SMIC数据库、CASME数据库、CASMEII数据库、CAS(ME)2数据库、SAMM数据库以及SMIC-Long数据库。不同的微表情采集方式有其相对性的优缺点。USF-HD数据库和Polikovsky’s数据库的样本获取方式是在实验室环境下让参与者模仿出的微表情,属于非自发的微表情目前已经不属于主流的微表情数据库,研究意义不大。York DDT数据库虽然是自发的微表情数据库但是混合了头部和面部的非情绪性的动作,此外York DDT数据库主要是利用微表情检测提高测谎的隐蔽性和精确度。SMIC数据库是第一个自发微表情识别系统(Pfister et al., 2011
近几年,微表情研究得到了广泛的关注和快速发展,但是现有高质量的微表情数据库屈指可数。本文旨在利用CiteSpace热点分析梳理已有数据库的特征和适用场景。
2. 研究方法与数据来源
2.1. 研究方法
本研究主要采用文献计量分析软件CiteSpace5.8R3实施对相关文献的可视化分析。该软件由陈超美教授开发,通过知识图谱直观展示出某学科领域的,准确识别其中的高频发文作者、研究机构和热点关键词等关键信息。其在科学研究领域已经获得了较多的应用,是较为成熟的大数据综述研究工具。
2.2. 数据来源
文献资料来源以web of science核心合集数据库为数据检索平台,对2022年3月1日以前所有年限的文献进行检索,在web of science核心合集数据库中以TOPIC:(micro-expression) OR TOPIC:(facial micro-expressions) OR TOPIC:(subtle emotions) AND TOPIC:(database) AND TOPIC:(recognition) AND TOPIC:(spotting)检索式进行检索,限定发表语种为英文,主题为微表情数据库的所有研究性文献,如期刊论文、会议论文、会议摘要、短期调查、综述等,而后导出所有参考文献,记录内容为全记录与引用的参考文献,文件格式选取纯文本。利用CiteSpace5.8R3的去重功能,保留的最终数据为416篇文献。
3. 研究结果分析与讨论
3.1. 微表情数据库信息化研究的地区分布特征
利用CiteSpace可视化工具对2009~2022年微表情研究的主要学者、地区和科机构进行合作网络分析;以年为单位划分为14个时间分区,将每年内发表论文篇数前50名的作者、地区和科研机构作为数据来源,采用最小生成树算法,阈值设置为8,字节尺寸设置为3最终生成可视化的知识图谱(图1所示)。从研究成果产出区域看,中国对微表情数据库的研究做出了重要贡献,遥遥领先于其他国家。2009~2022年有117篇涉及微表情研究的文章源自中国,主要研究机构包括中科院(22篇)、奥鲁大学(22篇)、中国科学院大学(11篇)、东南大学(10篇)、温州大学(7篇)、清华大学(6篇)、马来西亚多媒体大学(5篇)、山东大学(5篇)。另外,近14年来从事微表情研究的主要高产国家还有芬兰、英国、马来西亚、澳大利亚等。
结合研究机构与产出作者来看,近14年来文章产出取得较高成就的学者当属中科院的傅小兰和王甦菁、奥鲁大学的赵国英,他们都是中国人且合作密切。

Figure 1. Map of scholars, regions and research institutions
图1. 学者、地区和科研机构分布图
3.2. 微表情研究文献共被引分析
基于图2的文献共现,梳理出2009~2022年国际微表情研究的前10篇最高频共被引文献(表1)并对其进行解读,总结出微表情研究发展历程中的一些特点。

Table 1. The first 10 high-frequency co-cited articles
表1. 前10篇高频共被引文献
进一步分析表1中的相关研究,可以发现目前微表情的研究主要致力于建立更高质量的微表情数据库和提高微表情识别的能力。序号1、5、10都是关于自发微表情数据库的文章。这三个数据库是目前应用比较多的数据库。其他序号都是关于微表情识别的文章。序号为2的文章提出了时间内插模型这一微表情识别方法,是第一个微表情自动识别系统(Pfister et al., 2011)。序号为4的文章提出了时空局部二值模式与积分投影(STLBP-IP)这一方法,以提高LBP-TOP对微表情识别的能力(Huang et al., 2015)。序号为3的文章提出了一种光流驱动的方法来对齐微表情视频片段的所有帧,采用具有MDMO特征的SVM分类器进行来提高微表情识别的精确度(Liu et al., 2016)。序号为7的文章提出了双加权有向光流(Bi-WOOF)这一特征提取算法来提高微表情识别的准确性,并在CASMEII和SMIC-HS,分别实现了61%和62%的识别率(Liong et al., 2018)。序号为8的文章引入了尖端框架网络光流特征(Off-ApexNet)这一特征提取方法来识别微表情,且识别率高达74.60% (Liong et al., 2019)。序号为9的文章提出了基于深度递归卷积网络的方法来提高微表情识别能力(Xia et al., 2020a)。计算机学科和心理学是参与微表情研究的两个主要学科。来自芬兰奥卢大学机器视觉研究中心的副教授赵国英与在中国科学院心理研究认知心理学的傅晓兰博士合作密切,说明了微表情的研究离不开这两个学科的交流与合作。
3.3. 微表情研究关键词共现分析
图3为关键词共现图,图中十字架的大小表示关键词出现的次数,节点类型选择Keywords,算法选择Minemum Spanning Tree。

Figure 3. Statistics on the emergence of prominent words from 2009 to 2022
图3. 2009~2022年突现词情况统计
图4为自2009年起微表情研究热点,排名前三的关键词及出现频次。从图3中可以看出情绪识别和微表情识别节点最大,即该关键词引用频率最高,是微表情研究的热点。总的来说,微表情研究的文章数量有限,微表情的自动检测和识别研究是近十年兴起的。

Figure 4. Study the keyword co-occurrence map
图4. 研究关键词共现图谱

Figure 5. Study keywords clustering maps
图5. 研究关键词聚类图谱
根据图5所示的微表情文献的关键词聚类图分析出目前微表情的研究方向。分别是微表情的预处理技术、长视频中的微表情识别、高效的微表情识别、以及微表情动作单元识别。这些都离不开微表情数据的建立和应用。基于心理学的知识背景提出问题,在结合计算机技术解决问题并应用是目前微表情研究的主流。
例如,Hu等人(2022)假设对他人的生活困境提出建议时表现出的愤怒应该是自杀风险的一个重要预测因素,人们会隐藏愤怒表情但是微表情却难以隐藏,通过微表情识别可以揭示隐藏的愤怒,从而预测自杀。这样就可以应用“建议范式”预测自杀,应用于咨询与临床诊断评估做参考。
3.4. 微表情研究已有数据库比较
通过CiteSpace分析后,进一步挖掘有关文献,代表性的微表情研究数据库见图6 (为了防止图片过于长,分为图6(a)和图6(b))。下面将从不同数据库的制作和编码进行比较。制作包括参与者、实验设备和环境以及实验方案。
(a)
(b)
Figure 6. The currently commonly used micro-expression database
图6. 目前常用的微表情数据库
3.4.1. 参与者
参与者主要包括参与者数量、微表情样本数量、性别分布、年龄范围、社会背景以及所包含的人种数量。人与人之间的面部外观因年龄、文化、种族、化妆品、眼镜等的不同而不同,因此面部表情的检测是一项具有挑战性的任务。除了个人属性之外,由于姿势、遮挡、光照引起的变化在面部表情的无控制环境中普遍存在,这导致了高的组内可变性。因此,对具有大范围类内变异的大规模数据集有着巨大的需求(Gnana Praveen et al., 2021)。但Ekman和Fries (1976)对面部表情进行了跨文化研究,发现无论文化如何,共有六种基本普遍的面部表情,即愤怒、厌恶、恐惧、快乐、悲伤和惊讶。
由图6(a)和图6(b)可知,除了SAMM和SMIC数据库之外,其他的数据库几乎只包含一个人种。SAMM数据库是迄今包含人种数最多的微表情数据库,参与者包括17个英国白人、3名华人、2名阿拉伯人、2名马拉西亚人和各1名非洲人、非裔加勒比人、英国黑人、英国/阿拉伯白人、印度人、尼泊尔人、巴基斯坦人和西班牙人共13个种族。在微表情采集的过程中,不是每个参与者都可以引出微表情,再加之微表情的编码耗时耗力,所以参与者的数量和微表情的样本都相对较少。
大多数微表情数据库包含不到50个参与者即使是最大的数据库CASMEII也不超过247个微表情样本。在性别比例上,只有CASMEII、SAMM和CAS(ME)2做到了大致平衡,SMIC、CASME和MEVIEW数据库中男性参与者比女性多得多,York DDT中女性参与者的数量几乎是男性参与者的两倍。此外,在参与者年龄分布和社会背景上,他们几乎都来自于大学内的学生群体,平均年龄相对较低,所以所产生的微表情样本不具有很高的代表性。一个好的数据库还应该包含儿童和老年人的样本以及尽可能多的种族群体,这样样本的多样性和代表性才有保障,更利于微表情的识别和检测,从而使微表情的应用更为广泛。例如,徐振国等人创建的学习表情数据库,该数据库包含中国的所有学生群体,年龄范围在9~25,种族也不仅限于汉族,还有少数的中国少数名族参与者,对学习情感识别具有积极意义(徐振国等,2021)。未来建议除了扩大微表情数据库的年龄范围和种族群体之外,也要多关注特殊的群体例如自闭症儿童群体、抑郁症群体以及各种精神疾病群体,从而造福更多的社会群体。此外,2020年赵国英等人提出的复合数据库MEGC2019 (由现有的SMIC、CASMEII和SAMM数据集组成)在现实应用中,可以获得多场景的微表情样本,并由各种专业专家进行标记,可以收集更多的样本,实现更大的多样性(Xia et al., 2020b)。未来提高这类数据库的建设离不开国际合作解决跨数据库识别问题。
3.4.2. 实验环境和设备
设备主要包括两个特征,分别是视频的分辨率和帧率。帧数和分辨率都能影响视频容量大小,帧率影响的是流畅度,分辨率影响的是清晰度。SMIC数据库中为了提高多样性使用了普通相机、近红外相机以及高速相机。高速相机的帧率为100 fps,较高的清晰度有助于揭示微小的面部动作变化,有利于特征提取和进一步更好的分类即更有利于实验室研究微表情。而红外相机和普通相机的加入是因为与100 fps数据下的采样版本相比,25 fps数据产生的数据类似于标准网络摄像头,包括它们的限制,例如运动模糊,这更有利于SMIC数据库应用到日常生活中(Li et al., 2013)。CASMEII、SAMM以及Polikovsky’s数据库中使用的高速相机的帧率达到200 fps,是目前分辨率最高的微表情数据库。
实验环境也就是微表情的采集的环境,除了MEWIEW数据库几乎都是在严格控制的实验室环境下录制的。实验环境主要包括摄像机数量、背景、照明条件和面部遮挡这四个特征。除了SMIC数据库有三个摄像头,大多数微表情数据库只有一个摄像头并且要求参与者直面镜头并尽可能保持不动。在照明条件上,照明系统几乎都是以交流电为电源,交流电的周期为50 HZ,而对于高速相机来说,拍摄帧率高达200 fps,在慢速剪辑的过程中,生成的图像上会有闪烁,不利于后续微表情的编码。SAMM数据库使用了直流电和两个包含LED阵列的灯以避免闪烁且灯光周围放置了光漫射器,以使参与者脸上的光线变得柔和均匀(Davison et al., 2018)。CASME数据库中使用了两种不同的环境配置和摄像机采集微表情以增加视觉的变异性。A类环境中使用的是自然光,B类环境中使用的是两个LED灯(Yan et al., 2013)。背景通常为白色或灰色。关于遮挡,几乎所有的数据库都包含戴眼镜的参与者,但是参与者都要求拍摄过程中尽可能让头部和身体保持不动。在MEVIEW数据库中,内容大多来自扑克游戏和电视采访的非实验室环境中,其场景和灯光可能会有所改变,视频中的人是自由移动的因此会有多余的身体和头部运动,给微表情的识别带来了一定的难度(Husak et al., 2017)。
3.4.3. 实验方案
实验方案包含三个特征,分别是微表情的采集方法、实验程序以及诱发微情绪的方法。
微表情的采集方法主要分为三类,分别是摆拍型、自发型以及野生型。本文提到的摆拍型微表情数据库有USF-HD和Polikovsky’s数据库。在USF-HD中,研究人员展示了一些包含微表情的示例视频。然后要求参与者以任何顺序模仿它们,并避免平面外头部运动(Shreve et al., 2011)。摆拍微表情是指参与者通过模仿情绪有目的地表达面部运动。但是微表情是无意识的,不应该通过模仿来诱导产生(Pfister et al., 2011)。自发型微表情是由情绪影响自然产生的。Ekman (2009)认为,微表情出现在人们说谎或者试图隐瞒真实感受的时候,尤其是当被识破的后果会非常严重的时候。因此,用于获得自发微表情的实验设计必须满足以下两个条件:
1) 用于引发参与者情绪的刺激必须足够强,使得大多数参与者将感受到情绪并在他们的脸上表现出来。
2) 必须有足够的压力来激励参与者隐瞒自己的真实感受。
所以在带有惩罚威胁和高度情绪化视频片段的审讯室环境,是一个高风险的环境,在这种情况下,经历了高度情绪化唤醒的参与者会受到激励,抑制自己的面部表情。这是诱导微表情的理想条件。野生型微表情是指微表情的采集不受参与者和实验室采集条件的限制。MEVIEW包含从因特网下载的31个扑克游戏和电视采访视频片段。由于压力和隐藏情绪的需要,扑克游戏可以帮助诱发微表情。在SMIC中,参与者被要求单独呆在一个类似于审讯室的房间里,研究人员则在另外一个房间用电脑监控。参与者观看一些具有情绪效价的短片,并被要求认真观看且尽可能保持头部不动,并尽可能保持一张扑克脸隐藏自己的情绪,在看完一个短片之后填写问卷。参与者事先被告知研究人员将在另一个房间监控并猜测你正在看的短片是哪一个,如果被猜中,就会被惩罚填一个包括500个问题的无聊的问卷。该数据库通过让参与者保持中立面孔观看具有情绪效价的短片以及一定的惩罚机制来诱发微表情的产生。
在CASME中,参与者被要求仔细观看屏幕并保持中立面孔,每观看完一集短片就会被要求在录像中观察自己的面部动作,指出是否产生了不属于微表情的面部动作。参与者事先被告知实验的目的是测试他们控制情绪的能力并以此来预测社交成功,且此次实验的报酬与表现相关,如果在录制过程中出现任何的面部表情,会扣除五元人民币。该数据库是通过增强参与者隐藏情绪的动机来诱发微表情的产生。2014年,该团队接着发布了CASMEII,与CASME不同的是,该数据库引出了两种类型的微表情,研究人员要求一半的参与者在观看短片时保持中立面孔,而另一半参与者只是在意识到有面部表情时才去抑制面部动作。根据微表情的修饰方式,微表情可以分为三类:类型一是模拟表情即微表情不伴随真实表情。类型二是中性表情即当一个真实的表情被压抑,脸保持中性的时候。类型三是掩饰表情即当一个真实的表情被伪造的表情完全掩盖时。类型二的微表情是不可观察到的,类型三的微表情可能被伪造的表情完全遮盖(Shreve et al., 2011)。
CASMEII中添加的微表情类型正是类型三。2017年,该团队发布的CAS(ME)2与CASMEII相比,增加了参与者观看录像之后进行陈述内心感受的自我报告这一环节。
在SAMM中,实验由七种试图诱导参与者情绪的刺激组成,参与者事先被告知要抑制自己的情绪从而引出微表情,并向最能隐藏自己情绪的参与者提供了50英镑的奖励。每个参与者在实验前都完成了一份问卷,这样刺激就可以根据每个人的情况进行调整,以增加情绪唤醒的机会。与SMIC一样,研究人员和参与者不在一个房间内,研究人员通过电脑监控参与者,每一个刺激都会被展示出来,参与者在每一个刺激之后都会被问及他们是否愿意继续,这确保了参与者能够完全抵消他们所感受到的任何情绪。此外该数据库通过让参与者保持中立面孔观看具有个性化情绪效价的视频短片并给予奖励来诱导微表情的产生。
3.4.5. 编码
编码包含两个特征,一是微表情运动单元标签(AUs),二是微表情的情绪分类(情绪标签)。微表情的标注除了SAMM有三个编码员其他的微表情数据库均有两个编码员完成。
AUs是单个肌肉或肌肉群的基本动作。AUs根据人脸动作编码系统(FACS)编码产生,常用于描述情感表达的场景中。理论上,不同的AUs组合就可以描述大部分表情(李冰,2021)。
本文提到的数据库中,USF-HD和SMIC数据库没有用AUs进行标记。面部动作用AUs进行标记,会增加编码的客观性。
情绪标签用于微表情识别,本文提到的数据库中除了Polikovsky’s和York DDT外,其他的微表情数据库都有情绪标签。SMIC中,把情绪分为三类,分别是正样本、负样本以及惊讶。CAS(ME)2中,把情绪分为四类,分别是积极、消极、惊讶以及其他。惊讶属于中性词,该情绪很难归于积极或者消极中。其他是指具有模糊情感意义的微表情或难以归为六种典型面部微表情。Ekman将情绪分为六类,分别是快乐、悲伤、愤怒、恐惧、厌恶和惊奇。值得一提的是,SAMM数据库中通过在实验的最后用幻灯片播放参与者本人的照片来引出惊讶。为了使情绪标签更加客观,CAS(ME)2以及SAMM中都加入了参与者自我陈述这一环节,在编码中只有当编码员和参与者自我陈述一致时,面部动作样本才会纳入微表情数据库中。此外,几乎所有的微表情数据库在采集过程中都要求参与者尽可能保持头部和身体的不动,这是为了除去微表情之外的其他的面部动作,以增加微表情识别和检测的精确性。在CASME中,有要求参与者观看自己的录像并指出不属于微表情的面部动作就是为了减少后续编码工作的时间。
4. 研究展望与不足
微表情检测的任务是区分微表情片段和非微表情片段,属于两类任务。微表情识别的任务是区分积极的、消极的以及惊讶的微表情,属于三类任务。York DDT、Polikovsky’s以及USF-HD数据库主要用于微表情的检测和测谎。中科院的傅小兰团队带领研发的CASME主要用于微表情的识别而CAS(ME)2主要用于微表情的检测,CASMEII可用于二者,微表情识别准确率高达70%。SAMM数据库只用于微表情的识别。SMIC数据库用于微表情的识别和检测,识别准确率高达81.69%,2020年发表的SMIC-Long用于微表情的检测。
微表情数据库由于文化背景和个人经历的不同,同一人对同一视频会有不同的反应。这个因素使自发微表情的标记成为一项困难的任务。例如观看咀嚼虫子的视频,部分观看者会引发恐惧情绪,另一部分观看者可能觉得很有趣。微表情数据库通常在严格控制的实验室环境中创建,未来应该进一步探索和研究在各种情况下微表情的变化,预测会有越来越多的野生微表情数据库的诞生。此外,微表情数据库如果能够包含来自不同文化背景的不同年龄组参与者的面部表情,将会更有帮助,从而使微表情检测和识别更加实用。另外对儿童来说,隐藏他们真实的情感是一项困难的任务,所以微表情功能可能与成人不同。因此,应该考虑从儿童身上采集的微表情样本。
当前,微表情识别的研究大多集中在识别一种基本情绪上,但人类情感多半是复杂的,不能用单一的情绪去表达,所以复合微表情的识别渐渐得到人们的关注。一个好的微表情数据库应该包括不同面部表情的动作单元的相关信息,扩大情绪类型的多样性以及更好地对微表情进行分类。
致谢
非常感谢我的同门宋芳娇和邹佳琪对我的帮助,以及朱冬梅导师对我孜孜不倦的教诲!
NOTES
*通讯作者。