1. 研究背景、目的及意义
1.1. 研究背景
在《中国教育现代化2035》中,十大战略任务的第8项任务为“加快信息化时代教育变革”。该任务强调,应充分利用现代信息技术,丰富并创新课程形式,推动教学模式的革新。同时,利用现代技术加快推动人才培养模式改革,实现规模化教育与个性化培养的有机结合。在“互联网+”时代背景下,在线学习已成为学生学习的主要辅助方式。学习过程中的情感状态是反映学习者学习状态的重要数据,面部识别技术可应用于采集与分析学习者的情感状态。学习状态识别是教育技术领域的重要研究方向,有效表征真实学习环境中学习者的学习状态已成为当前研究的热点。
1.2. 研究目的
学生课堂状态的分析对于教学质量的评价具有重要意义。然而,当前教学研究通常采用课后测试来评估课程教学效果,难以反映学生在课堂上的实时学习状态。虽然依托网络平台建设、在线问答的方式在一定程度上能够实时评估教学效果,但仍需通过评分系统来反映学生的课堂参与情况,缺乏即时性。随着人工智能技术的快速发展,国内外大学已开始尝试利用行为分析等技术,识别学生在线上课堂中的行为、表情和微动作。然而,在线下课程教学中,由于学生人数众多、数据分析难度较大以及对摄像系统要求较高等限制,行为分析技术的应用并不广泛。因此,应用人工智能进行面部识别和表情分析相较于简单的行为分析具有更大的优势。
1.3. 面部表情识别在现代课堂的重要性
通过德国慕尼黑大学人格与教育心理学教授Reinhard Pekrun的学业情绪理论可以得知,情绪与学生的学业成绩密切相关。在Pekrun的团队研究中[1],积极情绪通过增强学习动机、提升注意力和灵活的学习策略促进成绩,而消极情绪会分散注意力并降低学习效率,目前对于学业情绪对学业成绩的影响已经有了非常丰富的研究,而识别学生课堂上情绪还需要更多前沿技术的支撑,传统情绪检测技术缺乏及时性和准确性,本系统能够实时识别学生面部表情,精准获取学生课堂情绪,量化分析课堂中的积极高唤醒情绪和低唤醒消极情绪,帮助教师动态调整教学策略。
1.4. 研究思路和方法
本研究立足教育信息化快速发展与人工智能政策利好的双重背景,将人工智能技术与教育场景深度融合,针对课堂情感反馈机制和学生情感分析系统进行研究[2]。YOLO作为一种单目标检测技术,相较于R-CNN系列和DETR系列等主流的目标检测技术,在实时性和检测效率上更为出色,更适应现代化课堂的高要求,快节奏;因此,我们选取YOLO作为我们项目研究的核心算法开发面部表情识别与反馈系统。本文通过几何变换、色彩空间扰动、噪声注入等操作对数据集进行数据增强,模拟课堂环境中人脸表情的动态变化(如头部姿态偏移、光照不均、摄像头噪声等),增强了泛化能力,调高了环境鲁棒性。
2. 核心算法与改进
2.1. YOLOv12算法
纽约大学、北京中国科学院大学和布法罗大学团队联合推出的YOLOv12目标检测算法,创新性地提出了一种新的以注意力机制为中心的框架,该框架如图1,在保持高速推理的同时,充分利用了注意力机制的性能优势,打破了传统YOLO系列利用卷积神经网络(CNN)进行局部特征提取的处理方法[3]。
基于注意力的架构相对于基于cnn的架构拥有着多次计算的复杂性带来的低效性,导致系统需要更多的计算运算,为此,YOLOv12提出了一个简单有效的区域注意力模块以解决以上问题,在推理精度取得了巨大突破,极大地提高了运算效率。
此外,为了解决大规模注意力模型带来的优化挑战,YOLOv12提出了残差高效层聚合网络(R-ELAN),该模型首先通过引入带有缩放因子的残差连接结构,有效地稳定了训练过程中梯度在网络中的传播;其次,R-ELAN重新设计了特征聚合方法,利用过渡层将多通道特征压缩成单特征图,再通过级联操作形成计算效率更高的瓶颈结构,这种设计既节省了计算资源,又维持了模型的特征表达能力。
最后,YOLOv12引入了FlashAttention来解决了内存访问问题,使模型更加简洁。
Figure 1. Grid architecture diagram of YOLOv12
图1. YOLOv12的网格结构图
2.2. YOLOv12-MCAM改进模块
Figure 2. Improved backbone diagram
图2. 改进后的backbone
MCAM (Multi-dimensional Collaborative Attention Mechanis多维协作注意力机制)是一种计算机视觉领域中提升目标检测模型(如YOLO系列)在密集场景和小目标检测性能的核心模块[4] [5]。在本项目的改进中,在YOLOv12的Backbone (如CSPDarknet)中,将MCAM模块与A2C2f相结合,如图2,通过通道、高度、宽度三向协同建模[6],动态增强关键特征。同时MCA可显著提升多尺度目标检测精度(如小物体识别)。
传统卷积神经网络通过局部感受野逐层提取特征,缺乏动态聚焦关键区域的能力;同时,传统注意力机制(如SE、CBAM)仅关注通道或空间单一维度,难以在复杂场景(如遮挡、小目标、背景干扰)中动态协调多维度特征。为此,YOLO12改进模块设计使用了多维协作注意力机制(MCAM),引入了动态门控,通过输入特征方差动态调整卷积核大小,有效抑制背景噪声,使模型更聚焦于目标主体;同时,多维度协同定位再通过元素级乘法融合,降低背景误检率,提高抗背景干扰能力[7]。
MCAM的核心在于打破传统注意力机制对通道与空间维度的割裂式处理,显著提升了复杂场景下的目标检测鲁棒性。核心结构由三个并行的注意力分支(通道、高度、宽度)和一个动态聚合模块组成[8],整体结构如图3。
Figure 3. Multi-dimensional Collaborative Attention Module
图3. 多维协作注意模块
输入特征图:
进行处理,通过三个独立分支分别增强通道(C)、高度(H)、宽度(W)维度的注意力。通道分支中保留原始特征,高度分支和宽度分支分别沿宽度轴和高度轴旋转特征后,在每个分支内进行以下步骤处理:
1) 压缩变换(Squeeze Transformation):通过全局平均池化(AvgPool)和标准差池化(StdPool),通过可学习参数α,β动态加权融合两种统计量。
在数学上,这个过程可以表示如下:
(1)
其中
作为输入特征图,α和β是两个大于0且小于1的可训练浮点参数,可以通过随机梯度下降(SGD)进行优化,初始值为0.5。
2) 激励变换(Excitation Transformation):通过输入特征的维度决定自适应核的大小,进行核大小的卷积操作避免高计算开销。该阶段中参数等于核大小K,K由当前注意力分支处理的特征维度(DIM)决定,公式为:
(2)
3) 集成(Integration):三个分支的输出通过加权平均结合,以增强特征的判别能力。从形式上讲,该过程概括如下。
(3)
动态模块中的动态门控融合使用轻量级一维卷积(1 × 1 Conv)和Sigmoid函数,将MCA模块插入在1 × 1降维卷积后,优化通道信息,自适应融合三个维度的注意力权重,公式如下:
(4)
其中,σ为Sigmoid函数,||表示拼接操作。
基于上述的想法,YOLOv12的核心改进为提升多尺度目标检测性能,运用了跨尺度特征聚合,将通道、高度、宽度分支的输出特征按元素取平均值。综合三个维度的注意力结果,聚合后形成判别性更强的特征表达,动态增强关键特征,又由于YOLOv12-MCAM的轻量化设计采用分组卷积和动态门控压缩,控制MCAM的额外计算量,在动态捕捉关键特征的同时保持计算效率和YOLO系列本身的实时性优势,并显著提升了模型对多尺度目标与小物体的检测能力和效率[9]。
2.3. YOLOv12-DASM改进模块
DSAM (Dual-domain Strip Attention Mechanism, DSAM)同样是一种计算机视觉领域中的注意力机制模块。旨在通过空间域和频率域的高效特征聚合,解决传统图像恢复方法的局限性。DSAM通过双域双向注意力和多尺度学习,以低计算成本增强特征表示能力,提升图像恢复效果[10]。
DSAM模块主要包含俩部分核心单元:
1) 空间条带注意力(Spatial Strip Attention, SSA)是一种多尺度自相似性注意力机制,通过卷积分支生成注意力权重,捕捉空间上下文信息,采用不同条带尺寸(如K = 7、K = 11)处理水平和垂直方向,隐式扩大感受野。
2) 频率条带注意力(Frequency Strip Attention, FSA)利用带状平均池化将输入特征分离为低频和高频成分,对不同频段施加轻量级可学习的注意力参数进行调制,选择性增强有用频率信息,多尺度并行处理,减少清晰与退化图像的频域差异[11]。然后创新性地使用高效双域融合,将空间域与频率域互补,共同提升退化区域的恢复精度[12],DSAM结构如图4。
多核注意力模块的输出是经过选择的特征,在输入特征后,模块的分支结构按不同的卷积核关注不同区域(例如k = 11为11 × 11卷积核,比k = 7覆盖更大局部范围;Global为全局注意力),并行提取多尺度空间特征(FSA)。模块会对提取的特征进行降维或升维,调整通道数,减少计算量,将多分支输出统一到相同通道维度进行特征分割,沿水平/垂直条带划分空间区域(SSA),最后沿通道维度拼接两条支路的输出,保留多尺度空间信息。
基于DSAM在图像恢复的高性能,以及传统图像恢复(CNN、Transformer等)在不同情况下的不足,研究者将YOLOv12与head中的C3K2相结合,如图5,通过SSA捕捉图像的局部细节和全局上下文;通过FSA获取图像的频谱特征和高频细节,在小目标、多尺度、遮挡、噪声等复杂环境下都可以使用[13]。双域特征建模与实时性的优势使面部表情识别与反馈系统在复杂课堂环境下的鲁棒性显著提升,能够优秀的实现实时多目标检测能力,并低延迟地进行反馈。
Figure 4. DSAM architecture diagram
图4. DSAM结构图
Figure 5. Improved head
图5. 改进后的head
在特殊场景下,双域注意力机制的增强使系统对细微表情的识别更加敏感,情绪分类准确率得到有效提升,甚至通过频域特征优化,能够减少不同人种(如东亚学生与欧美学生)面部特征的识别偏差。
2.4. YOLOv12-ATFL改进模型
YOLOv12中传统的交叉熵损失在课堂场景中目标检测中存在着类别极度不平衡与难易样本梯度冲突的问题(例如学生中性表情占比通常远大于关键情绪),而课堂情景中经常会出现局部遮挡与光照干扰等问题。为解决这些问题,YOLOv12-ATFL在YOLOv12基础上引入了自适应阈值焦点损失(Adaptive Threshold Focal Loss, ATFL)改进模型[14],在提升目标检测和分割任务中的模型性能上有明显效果,尤其是在类别不平衡的情况下。
ATFl的设计源自焦点损失(Focal Loss),是一种针对类别极度不平衡问题的损失函数,其核心创新在于[15]:
1) 自适应权重机制:根据预测概率动态调整损失权重,强化模型对关键目标的关注;
2) 动态阈值解耦:通过自适应阈值区分难易样本,避免易样本(如背景)主导梯度更新。
ATFL在交叉熵损失(Cross Entropy, CE)的基础上引入了动态调制因子,其数学表达式为[16]:
(5)
(6)
其中:
p是模型对真实类别的预测概率;
α是类别权重,根据样本分布自适应调整;
γ是焦点参数,动态适应不同难度样本;
τ是自适应阈值,根据实际情况调整。
动态阈值解耦通过设定自适应阈值τ (默认0.5)将p < τ的样本判定为“难样本”,增强其损失权重;对易样本(p ≥ τ)降低权重,抑制其干扰。
在与YOLOv12架构的集成中,阈值τ可根据训练数据分布自动调整,避免模型被大量中性表情主导训练,例如,在低光照教室中,模型会降低阈值以捕捉更微弱的情绪信号;而在高分辨率摄像头场景中,则提高阈值以过滤噪声干扰,从而提升对关键情绪的识别敏感度。同时ATFL根据预测概率p动态调整损失权重,强化模型对低置信度区域(如遮挡下的眼部特征)的特征提取能力,与YOLOv12的区域注意力机制协同工作,提升局部特征捕捉精度。
总的来说,ATFL的引入使YOLOv12在教育场景中实现了“精准检测–动态适应–高效部署”的高效闭环优化。
3. 实验结果与分析
3.1. 实验环境:
GPU: RTX 4090(24GB) * 1。
CPU: 16 vCPU Intel(R) Xeon(R) Platinum 8352V CPU @ 2.10GHz。
内存: 120 GB。
3.2. 泛化实验
下表1为YOLOv12和其他Faster R-CNN算法及YOLO同系列算法在VOC数据集上的表现。
Table 1. Performance of different algorithms on the dataset
表1. 不同算法在数据集上的表现
Model |
Epoches |
Map@0.5/% |
YOLOv12 |
100 |
0.763 |
YOLOv11 |
100 |
0.761 |
YOLOv8 |
100 |
0.750 |
Faster R-CNN |
100 |
0.725 |
由上表可知,YOLOv12在VOC公共数据集上表现得比其他算法更为优越,具有泛化性。
3.3. 数据集准备
本文数据集采用AffectNet数据集、FER2013数据集和网上一些公共图片,将它们重新标注成“惊喜”、“自然”、“愤怒”、“悲伤”、“快乐”、“灾难”6种表情状态,并进行数据增强。其中训练集共16,759张、验证集共4504张,共计21,263张,示例如图6。
Figure 6. Experimental dataset
图6. 实验的数据集
3.4. 消融实验
下表2为训练100轮后在验证集上的结果。
在验证集中,YOLOv12m + MCAM精度提升了0.4%;YOLOv12m + DSAM提升了1.5%,尺寸增大了1.01%;YOLOv12m_ATFL提升了6.2%;YOLOv12m_(MCAM & DSAM)提升了1.3%,尺寸减小了1.29%;YOLO_(ATFL + MCAM)提升了1.7%,尺寸减小了1.02%;YOLO_(ATFL + DSAM)提升了0.1%,尺寸减小了1.02%;YOLOv12m_(ATFL + MCAM & DSAM)提升了0.5%,尺寸减小了1.29%。
Table 2. Training results
表2. 训练结果
YOLOv12m |
Map@0.5/% |
Map@0.5:095/% |
Recall/% |
Size/MB |
原型 |
90.7 |
78.6 |
83.3 |
38.9 |
+MCAM |
91.1 |
78.8 |
83.3 |
38.9 |
+DSAM |
92.2 |
80.2 |
84.6 |
39.3 |
YOLO_ATFL |
96.9 |
86 |
90.9 |
38.9 |
+(MCAM&DSAM) |
92.0 |
79.7 |
83.6 |
38.4 |
YOLO_ATFL + MCAM |
92.4 |
80.3 |
85.8 |
38.5 |
YOLO_ATFL + DSAM |
90.8 |
78.6 |
82.6 |
38.5 |
YOLO_ATFL + (MCAM&DSAM) |
91.3 |
87.7 |
84.2 |
38.4 |
4. 基于YOLOv12的课堂表情识别系统
4.1. 系统概述
本文设计了一个面部表情识别与反馈系统(主界面如图7),该系统基于现代课堂教学需求而设计,通过实时监测与分析学生面部表情,通过训练得到的表情检测模型,可将表情识别结果实时反馈为学习状态记录于系统中,并生成详细的课堂检测报告,为教师提供全面、客观的教学参考。教师可依据系统反馈,灵活调整教学方法,针对性地提供更易被学生接受的教学内容,以提升教学效果。
Figure 7. System main interface
图7. 系统主页面
4.2. 系统结构
本系统有以下功能,结构如图8。
Figure 8. System architecture
图8. 系统结构
1) 实时视频检测:实时检测学生的表情,并将表情转换成质量分数显现出来。
2) 课堂质量曲线:将质量分数通过连续曲线表现出来。
3) 分心预警:当质量分数低下时发出警告。
4) 课堂建议:根据目前学生情况生成建议。
5) 历史查询:每次的检测结果会保存下来。
系统开发了一个登录界面,可通过数据库储存注册信息,方便下一次登录,如图9。
Figure 9. Login interface
图9. 登录界面
本文提出的基于卷积神经网络的眼界课堂反馈系统采用典型的监控软件布局,并包含三大核心功能区,分别是视频显示区、数据分析区和控制交互区,如图10。
Figure 10. System architecture
图10. 系统结构
1) 视频流显示模块作为系统的核心组件,采用OpenCV与Tkinter双引擎驱动并在此基础上,底层采用双线程架构分离视频采集与界面渲染,直观又高效实时捕捉学生上课情绪和用于计算专注度的底层数据。
2) 专注度计算模块负责整合学生表情与眼口部状态的实时检测数据,通过多维度加权计算生成课堂质量评分,是直观体现学生课堂专注程度与情绪关联的重要支撑逻辑。
3) 数据可视化模块以主界面的实时课堂质量评分变化趋势的动态折线图形和结束界面的情绪占比饼图、情绪波动轴图谱三个具体图像来进行数据可视化,直观地将学生的课堂状态表示出来,并且动态的图像既能持续跟踪学生专注度变化,进而区分不同教学阶段下的学生专注状态。
5. 结语
本文以课堂教学场景下的学生表情识别和检测问题为研究对象,开发了一种基于YOLOv12检测算法的课堂表情检测和反馈系统。通过引入MCAM和DASM模块,显著增强了模型对密集场景和小目标特征的动态捕捉能力,有效解决了在复杂课堂环境下的干扰问题。ATFL损失函数的自适应阈值解耦机制,进一步平衡了类别不平衡问题使关键情绪识别得到明显提升。实验表明,改进后的算法在计算效率与检测精度间达到了更优平衡,为教育场景的情感计算提供了兼具实时性与鲁棒性的技术框架。后续可进一步探索多模态情感融合与跨场景迁移学习的扩展应用。
基金项目
2024年景德镇陶瓷大学省级大学生创新创业训练计划项目《时频双域注意力融合的YOLOv12课堂微表情识别研究》(S202410408020)