1. 研究背景
1.1. 技术背景
21世纪以来,随着计算机和人工智能及其相关技术的迅速发展,人类对计算机的认识和要求也越来越高。人们不仅希望计算机可以像人类那样,会听会说会看,还迫切地希望计算机可以更好地理解和表达一些属于人类自身的想法,更加智能化,从而帮助人们更快速便捷地完成工作 [1]。面部表情是最有力、最自然的非语言情感交流方法,因而识别面部表情能够使得人机交互的模式更加人性化。目前,人脸表情识别技术已经在刑事侦查、医疗系统、电子商务等领域得到了广泛的应用 [2]。
近年来随着互联网行业的不断发展,将教育与互联网相结合成为当下我国教育亟需研究的部分,教育机构虽然层出不穷,但对学生课堂上进行学习监控的机构却是屈指可数,如何提升学生在课堂上的学习效率,防止因开小差、走神等问题造成影响同样不容忽视。白茹研究和设计了基于视频流媒体的人脸识别课堂监控系统,在接收课堂实时状况的同时利用Adaboost算法进行人脸识别,进而完成对学生的课堂监督 [3];陈志钦围绕当下高校智慧课堂教学行为监控与分析系统存在的问题进行分析探讨,并提出相应对策 [4];雷晓钰通过设计课堂监控管理系统,将录播与监控管理理念相融合,从而促进师生共同进步 [5]。
此次研究的创新之处在于结合人脸识别技术构建新型学生学习状态监控系统,利用计算机提取学生的面部表情特征并对其进行识别分析并分类,依照学生的心理思维对面部表情进行相应的分析理解和综合处理,以辅助教师教学工作,构建长效教学监控机制。
1.2. 教育背景
党的十九大报告提出“建设教育强国是中华民族伟大复兴的基础工程,必须把教育事业放在优先位置,加快教育现代化,办好人民满意的教育” [6]。教育是国家发展的基石,教育事关民族兴旺、人民福祉和国家未来。而教学是教育的基本途径,课堂是教学的主阵地,课堂学习效率又是教学的生命,因此课堂学习效率对教学来说是至关重要的。
数字经济时代背景下,公众对学习的个性化需求不断增加,时间碎片化问题也逐渐增多,在线教育的发展前景空前广阔。在线教育凭借其在时间、空间上特有优势可以满足不同群体的学习要求,为促进我国教育平衡,弥补教育短板,开启全民化学习时代做出了独有贡献,其存在也丰富了现有的教育模式,但相对于线下课堂,在线学习无法对学生的学习情况实时监督,导致学习效果无法得到保证是其弊端所在 [7]。
纵观线下传统教学课堂,现有的学习状态系统或多或少存在一些问题,一是监控指标体系设置不合理,主要体现在结构单一、僵化等,不利于不同种类课程的人才培养;二是重视监而轻视控,在学生课堂学习状态的相关信息收集完毕后并未能及时予以反馈,如此一来既不利于学生改进学习方式,也阻碍了教师的教学进度;三是发挥效用不强,学习监控系统同教学效果之间的联系尚不明确,在年终考评中发挥作用差强人意。如果能够通过对学习面部表情的识别分析得到学生学习状态的科学且多方位的分析,以能够帮助老师找到更加有效的课堂教学方式,就能做到针对性地提高学生在课堂中的学习效率。
学校作为教学的主体,在现代化教学的背景下,必须充分发挥主观能动性,明确影响到监控效果的各类面部表情特征因素,本文综合分析建立学生学习状态监控系统,化被动为主动,实现课堂教学效率全面提升。学习状态监控系统的功能分为包含视频采集、图像处理、表情分析、视频调取在内的多个功能模块,运用改进的AlexNet网络、AAM算法定位、跟踪人脸特征点、支持向量机分类器等技术,对学生上课过程中的表情进行有效识别,从而实现集中监控,实现课堂教学的规范化管理,为当下学习状态监控系统填补空白。
2. 设计制作
2.1. 设计思路
本系统的主要使用场景为教学场所。摄像头对准学生的面部,系统接受器——摄像头采集学生的面部图像,借助WI-FI传输到处理器——Visual Studio,在进行数据分析后判断此时学生的听讲状态,并通过可视化页面反馈给老师。
表情识别的设计思路如图1所示。
2.2 系统结构单元
系统架构如图2所示。
1) 识别模块:通过摄像头对被监测者面部特征进行监控识别,当识别特征与系统设定相匹配时,向处理器模块发送信号,再向反馈模块发送相应命令。
2) 监测模块:此模块由多个小模块组成,对人体及周围环境各项指标进行监测,并通过无线模块和短信模块将数据发送至教师。
3) 反馈模块:接受处理器获得的传感器信息在信息交互显示屏上显示或以语音播报的形式反馈给教师。
4) 处理器模块:用于接收摄像头与传感器的数据,处理后发送给显示模块与执行机构。
2.3. 核心技术
根据学生眼睛、眉毛、嘴巴等特征的变化来研究分析学生学习状态,并以此为基础设计研发了基于表情识别技术的学生学习状态监测系统。该系统基本的工作流程是:首先通过摄像头获取学生课堂学习视频图像,然后进行图像预处理、人脸识别,定位眼睛、眉毛、嘴巴等特征点位置,并设计算法计算相应表情状态变化的特征参数值,最后通过参数变化分类与监测学生的学习状态,并将其归类为专心、困惑和疲劳三种状态。本文的主要研究内容与工作包括:
2.2.1. 采用改进的AlexNet网络进行人脸识别
在AlexNet算法提出之前,传统的图像分类方法错误率高的问题始终存在。该算法作为图像领域重要的里程碑,通过应用深度学习网络,使得错误率得以降至16.4%。其具体优点在于:① 通过选用ReLU函数解决了梯度消失的问题;② 选用Dropout以及重叠最大池化层,防止模型过拟合;③ 局部相应归一化,增强系统模型泛化能力;④ 双GPU加速简化网络结构。
采用改进的AlexNet网络进行人脸识别,分别对网络结构中的卷积层和全连接层进行优化处理,目的是为了提高算法识别的精准度以及缩短人脸识别的时间,以满足学习状态检测系统实时性高的要求 [8]。
2.2.2. 采用AAM算法定位和跟踪人脸特征点
主动外观模型(即AAM)有活动轮廓模型基础上所提出的ASM模型衍生而来,唯一区别在于前者结合纹理与形状信息描述模型 [9],适用于人脸特征识别,而后者仅考虑目标局部形状信息。
AAM模型是对象的表观模型,是建立在对象的形状模型之上。基于AAM的人脸特征点提取算法先根据人工标记的数据集训练构建表观模型,再以训练的模型与目标图像作差取平方和来建立能量损失函数模型,以能量值的大小来作为拟合程度的评价指标。在拟合的过程中,通过拟合算法来改变模型参数,参数改变引起形状控制点改变,使模型实例与目标图像完成拟合 [10]。
AAM算法的提出是人脸特征点定位领域的一个重要里程碑。AAM模型方法首先对拟建模对象采集一定的样本图像,通过对样本图像提取有效的形状信息和纹理信息进行训练建立对应的子模型,最后将形状和纹理的模型进行有效的融合建立能够反映目标对象形状和纹理整体变化的统计模型。
人脸中主要特征点的位置包括眉毛的形状、眼睛、耳朵、下巴、鼻子以及上下嘴唇的轮廓等,本文使用AAM算法构建人脸的AAM模型,定位和跟踪了人脸部68个关键位置的特征点来描述人脸部的形态。采用P80标准的PERCLOS方法和眨眼频率判断学生的疲劳程度,结合嘴巴的高宽比和嘴角弧度的变化,判断学生的学习状态 [10]。
在AAM模型中目标对象形状和纹理模型的建立过程都可以概括为样本的数据采集,对采集到的样本数据进行标准化处理以及统计分布建模三部部分。
处理流程如图3所示。
对人脸面部进行建模的第一步是选择合适且足量的训练样本集。为了能够让后续建立的形状模型能够更好的对目标图像的形状进行搜索拟合,这里我们制定了一定的样本采集规格。人脸样本图像中关键特征点的选取规格及标记顺序人脸中主要特征点的位置包括眉毛的形状、眼睛、耳朵、下巴、鼻子以及上下嘴唇的轮廓等地方,对于采集到的每一个人脸样本图需要记录下选取的68个面部关键特征点的坐标数据,并将这些数据保存在文本文件中用于后续的模型训练中。这里可以采用MATLAB里面的ginput函数或其他工具来获取样本图像中关键特征点的坐标数据,人脸样本图像特征点标定前后的对比。
2.2.3. 使用支持向量机分类器识别并分类学生的学习状态
对计算得到的嘴巴高宽比、嘴巴弧度值、PERCLOS值、眨眼频率、眼睛高宽比等参数进行归一化处理,作为特征输入向量,使用支持向量机分类器识别并分类对学生学习状态,并对结果进行监测。
在临界位置函数点处指示的面部图像的情况下,形状矢量可以由形状矢量形成,并且可以描述面部的原始图像。用
来表示形状向量,则有:
这里
,
的分别表示第k个特征点对应的横坐标值和纵坐标值。
标有关键位置特征点的面部图像是由于样本大小,方向角度和绝对位置之间的差异,并且不能使用直接面部形状统计建模,如果未加工的图像样本直接用于形状建模,则它无法有效地反映人脸变化规则的模型。这里我们需要通过对采集到的人脸样本进行旋转、平移以及缩放等操作来对所有人脸样本图像进行形状的归一化处理,一般选用普鲁克斯分析(Procrustes Analysis)方法来对上式中的形状向量进行归一化操作。普鲁克斯分析方法的主要思想是使得建模对象的所有形状样本到平均形状的距离的叠加值最小化,即使得
的值最小。
运用普鲁克斯分析法对人脸的所有形状向量进行归一化具体的步骤如下:
1) 将所有的人脸形状向量
进行平移、旋转及缩放操作对齐到第一个形状向
量;
2) 经过第一步的变换,计算对齐后的新的平均人脸形状向量
;
3) 将所有的形状向量
对齐到新的平均人脸形状向量
;
4) 重复2) 3) 步的步骤直到平均人脸形状向量
收敛为止(即两次计算的得到平均人脸形状向量
变化不大)。
动作表情判断如图4所示。
3. 作品演示
操作流程
连接好装置并安装好程序,启动程序后,初始化参数。
1) 电源开启,系统参数初始化;
2) 开启摄像头;
3) 加载Dilb数据库;
4) 系统是否检测到服务对象,若是,执行步骤5);若否,则延迟5秒语音提醒:当前无人听课;
5) 读取人脸面部表情特征点,显示人脸数量;
6) 检测服务对象是否嘴角上扬,若是,返回微笑数据;若否,则执行步骤7);
7) 检测服务对象是否张嘴,若是,执行步骤8);若否,则执行步骤9);
8) 检测服务对象是否睁大眼睛,若是,执行步骤10);若否,返回震惊数据;
9) 检测服务对象是否皱眉,若是,返回迷惑数据,并且语音提醒:有同学困惑;若否,则执行步骤11);
11) 检测服务对象是否闭眼,若是则返回困乏数据,并且语音提醒:有同学犯困;若否,返回自然数据;
12) 按s键截图保存;
13) 按q键退出软件。
4. 应用前景
现人工智能逐渐运用、渗透到各个领域,其中的表情识别技术作为人工智能研究的新突破,有助于进一步察觉被识别对象的心理情绪,帮助计算机加深对人脸表情的识别和理解,受到了许多消费者与国内外科学研究人员的青睐,具有较高的研究价值与应用前景。基于此,针对教师难以及时了解学生的课堂学习状态、在线学习无法对学生的学习情况实时监督等社会问题,本团队借助表情识别技术开发了本系统。
本系统利用Visual Studio软件,通过Wi-Fi传输数据,较好的兼容性和较低的使用门槛使得本产品可用于不同线下教学场所与线上教学平台。