1. 引言
随着智慧教育与智能交互技术的发展,课堂教学正逐渐从传统的板书和口头讲解模式,转向基于人机交互的多模态信息交流方式[1]。手势识别作为其中的重要交互手段,能够实现教师与教学设备之间的自然沟通,为课堂互动与教育信息化提供新型支持。然而,现有基于射频识别(Radio Frequency Identification, RFID) [2]的手势识别方法仍存在局限:一是细粒度手势,特别是汉字书写类手势,相似汉字的信号波形高度相似,传统方法难以实现有效区分;二是跨场景识别性能不稳定,受多径效应和环境噪声干扰较大;三是部分模型计算复杂度高,限制了其在实时性要求较高场景中的应用。
针对上述问题,本研究提出一种改进AlexNet融合注意力机制的细粒度汉字手势识别方法,并引入双天线与标签矩阵融合方案以增强信号采集完整性,结合马尔可夫转移场(Markov Transition Field, MTF)映射强化时序特征表达[3],同时在轻量化卷积神经网络中嵌入注意力模块[4],以实现关键特征的高效建模。实验结果显示,该方法在不同场景与用户条件下均保持较高识别准确率,验证了其鲁棒性与泛化能力。本研究不仅在细粒度手势识别方法上具有创新价值,更在智能人机交互应用中展现了实际意义[5]。通过实现对教师书写与指令类手势的精准识别,可促进课堂人机交互效率的提升[6],为智慧教育建设提供技术支持,并为教育信息化与教学质量提升开辟新的路径。
2. 手势信号特征转换与增强
细粒度汉字手势的识别对特征提取能力提出了更高要求。卷积神经网络在图像特征建模方面具有显著优势,但直接处理一维时序信号存在适配性不足的问题。为充分发挥深度学习模型在细粒度特征提取中的能力,本研究采用马尔可夫转移场将采集到的RFID手势相位序列映射为二维特征图像[7]。该方法不仅将稀疏的时序信息转化为直观的空间特征,还为卷积神经网络提供丰富的语义输入,有助于提升模型学习效率与识别精度。
MTF映射能够在二维图像中保留原始信号的时序结构,同时捕捉不同信号点之间的动态转移模式。在生成转移概率矩阵的过程中,随机噪声得到平滑处理,从而增强了模型在不同场景和环境条件下的鲁棒性。该特征增强策略为后续轻量化卷积神经网络的高精度识别提供了稳定的输入基础。在实验中,选取了6个常见汉字作为细粒度手势实验对象。采集的手势相位信号经MTF映射后生成二维特征图像,图像清晰呈现了不同手势之间的时序模式差异,验证了所提方法在复杂手势特征表达与可视化方面的有效性。通过一维信号向二维图像的映射,系统能够更准确地捕捉手势动作细节,实现对复杂汉字手势的高精度识别,为智慧课堂的人机交互应用提供可靠的技术支持。
图1展示了经MTF转换后的6个汉字手势特征图,分别对应“大”“人”“不”“口”“日”和“中”。其图像生成过程包括以下步骤:
Figure 1. Feature images generated by the Markov Transition Field
图1. 马尔可夫转移场生成的特征图像
(1) 时间序列分箱
设原始相位序列为
(1)
将其归一化并划分为K个分位箱,记为
,保证每个分位箱中包含的数据点数量大致相同。
(2) 构造转移矩阵
基于相邻点的转移关系,得到一阶马尔可夫转移矩阵
,如式(2)所示:
(2)
(3) 生成马尔可夫转移场
结合时序信息,将转移概率映射到二维矩阵
,如式(3)所示:
(3)
(4) 图像化与输入网络
最终得到的矩阵M编码为特征图,作为卷积神经网络的输入数据,用于后续训练与分类。
3. 轻量型AlexNet识别模型设计
3.1. SE注意力模块
在对模型进行轻量化改进以降低计算复杂度的过程中,往往会导致识别精度下降。为在保持轻量化的同时提升模型的判别能力,引入Squeeze-and-Excitation (SE)注意力机制[8],如图2所示。该机制通过模拟人类视觉的选择性关注过程,在特征提取阶段动态调整通道权重,从而抑制冗余信息并突出关键手势特征,实现对细粒度特征的高效建模。
SE模块由“Squeeze”和“Excitation”两个阶段构成:前者通过全局平均池化提取每个通道的全局信息,其计算过程如式(4)所示:
(4)
其中:
为通道c的全局平均池化值,H和W分别代表特征图的高度和宽度,
为通道c在位置
的像素值。在“Excitation”阶段,SE模块通过两层全连接网络自适应生成通道权重如式(5)所示:
(5)
其中:s为所有通道的全局池化向量,W1与W2分别为降维与升维的权重矩阵,
表示ReLU激活函数,
()表示Sigmoid函数,z为最终得到的通道权重向量。最后对特征图进行加权重标定如式(6)所示:
(6)
其中:
为重标定后的通道特征,
为原始通道特征,
为对应的权重。将SE注意力模块嵌入至轻量化后的模型中,不仅缓解了轻量化带来的精度损失,还显著增强了模型在跨场景手势识别中的鲁棒性与泛化能力,为轻量级细粒度汉字手势识别提供了有效解决方案。
Figure 2. Structure of the SE attention mechanism
图2. SE注意力机制结构图
3.2. AlexNet网络模型的优化
传统AlexNet网络由8层组成,包括5个卷积层与3个全连接层[9]。该模型依托ReLU激活函数与并行计算架构,在大规模图像识别中表现突出。然而,该结构的3层全连接层引入了大量参数,容易导致模型过拟合[10],并显著增加存储与计算负担;加之较深的层次结构,需要消耗更多内存来存储权重和激活值,从而限制了其在实时交互场景中的应用。为克服这些不足并提升模型适配性,本文在原始AlexNet基础上设计了轻量化改进模型C-AlexNet。
Figure 3. The C-AlexNet network model
图3. C-AlexNet网络模型
3.3. 模型优化后的网络结构
基于上述改进策略,C-AlexNet的整体网络结构由卷积层、池化层、注意力模块和分类层构成,形成轻量化且高效的识别框架。优化后的网络结构如图4所示,网络前端以多层卷积与池化操作实现对输入手势图像的特征提取,同时在卷积层后嵌入注意力机制以强化关键特征表达,末端通过全局平均池化与 Softmax分类器完成最终识别。该结构在保持特征表达能力的同时显著降低了参数规模与运算量,使模型兼具准确性与实时性,适用于资源受限的交互式应用场景。
本研究将经特征映射得到的手势图像输入卷积神经网络,以充分利用其在细粒度特征自动提取方面的优势,实现汉字手势识别。卷积层的核心计算过程可表示为
(7)
其中:W为卷积核,X0为输入特征图,B为偏置项。卷积操作能够从局部区域中提取关键特征,ReLU激活函数进一步增强了网络对非线性关系的建模能力,同时有效缓解梯度消失,加速收敛。经过池化操作后得到的特征图输入后续卷积层,逐层提取细粒度特征。卷积层提取到的汉字手势特征可表示为
(8)
其中:
表示卷积核提取运算,X为预处理后的手势相位图像,
为卷积层参数集合。在完成特征提取后,利用Softmax分类器将输出向量映射为各类别的概率分布,如式(9)所示:
(9)
其中:
是输入向量的第i个分量,C为手势类别总数,
表示样本属于第i个类别的概率。通过该归一化函数,模型能够完成多类别手势的判别与分类。
Figure 4. Parameters of the C-AlexNet network
图4. C-AlexNet网络参数
3.4. 模型总体架构设计
本研究构建的汉字手势识别系统基于轻量级卷积神经网络,整体流程如图5所示,主要由信号采集、数据预处理、特征转换与手势识别4个模块构成。首先,在信号采集阶段,系统采用2 × 2标签矩阵与双天线组合布局,有效扩大了手势信号的覆盖范围,并缓解了标签间的电磁干扰问题。双天线的引入为相似手势提供补充特征信息,从而增强了数据的区分度。随后,在数据预处理阶段,依次进行静态反射消除、相位解缠绕、Savitzky-Golay滤波与归一化处理,以降低环境噪声、校正信号连续性并提升跨场景的稳定性,同时利用数据增强策略扩充不足类别,保证模型的均衡学习能力。
在特征信息转换阶段,采用马尔可夫转移场将预处理后的相位序列映射为二维特征图像。该方法通过刻画数据点之间的转移概率,保留了时序依赖与空间分布信息,从而避免一维信号直接建模带来的特征稀疏问题,并强化了细粒度特征表达。最后,在手势识别阶段,引入改进的C-AlexNet轻量级卷积神经网络对特征图像进行分类。该模型在降低参数规模与训练开销的同时提升了识别的鲁棒性和实时性。
Figure 5. Design of the system network model
图5. 系统网络模型设计
综上,本研究通过多模块协同设计,在数据采集、预处理、特征转换和模型优化等方面实现了有机融合。实验结果表明,该系统在多场景及新用户条件下均表现出优异的识别精度与泛化性能,为基于RFID的细粒度汉字手势识别提供了一种高效且可扩展的解决方案。
4. 实验验证
4.1. 实验部署环境
本实验所采用的硬件设施主要由4部分组成,如图6所示。具体包括:工作频率为920.875 MHz的Impinj Speedway R420型RFID读写器、一副圆极化UHF天线、4个尺寸为5 cm × 5 cm的UHF无源标签,以及一台搭载Intel i5-1135G7处理器的笔记本电脑。上述设备共同构建了实验所需的射频识别采集平台。
实验软件运行在一台配备2.4 GHz CPU和32 GB内存的计算机上,主要用于数据采集与后续处理。计算机通过以太网与RFID读写器连接,通信协议采用低级阅读器协议(Low-Level Reader Protocol, LLRP)。在实现层面,RFID数据的采集与预处理模块由C语言编写,而卷积神经网络模型的构建与训练则基于Python实现。
Figure 6. Experimental equipment
图6. 实验器材
4.2. 实验数据集与场景
为构建覆盖性较强的数据集并验证所提模型在多场景条件下的适应性,本研究共招募20名志愿者参与实验。每位志愿者在3个典型场景中分别完成6种汉字手势的书写动作,每个手势重复55次。为进一步提升实验的真实性与鲁棒性,采集过程中额外引入人为噪声以模拟复杂环境干扰。经统计,3个场景共获得59,400组有效样本,其中70% (41,580组)作为训练集,其余30% (17,820组)用于测试集。在实验环境布置上,均采用2 × 2标签矩阵与双天线组合,以保证信号覆盖完整性与采集一致性。具体而言,场景1设于约10 m × 8 m的会议室,室内存在金属柜与圆形会议桌,具备较强多径反射特性;场景2位于4 m × 18 m的走廊,环境空旷无遮挡,主要用于评估低干扰条件下的系统性能;场景3则布置在8 m × 12 m的教室,室内分布有桌椅及杂物,可有效模拟真实教学环境的复杂干扰。在所有场景中,受试者均站立于天线与标签的布设区域中央完成指定汉字手势,所得数据被输入至后续模型训练与验证流程。
4.3. 评价指标
为全面评估所提模型在细粒度汉字手势识别中的性能,本研究采用混淆矩阵、准确率(Accuracy, ACC)与F1-score作为主要评价指标。这些指标在分类任务中被广泛应用,能够从整体表现与局部特性两个层面刻画模型的识别能力。混淆矩阵通过矩阵形式直观展示预测结果与真实类别的对应关系,不仅能揭示模型整体分类正确性,还能反映具体的误分类模式。准确率用于衡量模型在所有类别上的综合识别水平,是评价整体性能的核心指标。而F1-score则在精确率(Precision)与召回率(Recall)之间取得平衡,尤其适用于样本分布存在不均衡的场景,能够更准确地反映模型对不同类别的区分能力。评价指标的数学定义如下:
(10)
(11)
其中:TP (True Positive)表示模型正确预测为正类的样本数量,TN (True Negative)表示正确预测为负类的样本数量,FP (False Positive)表示将负类错误判定为正类的样本数量,FN (False Negative)则表示将正类误判为负类的样本数量。通过结合上述指标,可以对识别模型在整体精度与类别区分能力两个方面进行全面、客观的评价。
4.4. 实验结果
为全面评估所提出模型的识别性能,本研究将3个实验场景下采集的数据按70%训练、30%测试进行划分,并采用10折交叉验证策略提升泛化能力。具体操作为将训练集均分为10个子集,每次选取1个子集作为验证集,其余9个子集用于训练,循环10次并取平均结果。实验结果如图7所示,系统整体识别准确率达到98.88%,表现出优异的稳定性。在细粒度汉字手势识别中,即便“口”和“日”笔画相似,系统识别精度仍保持在98%以上,进一步验证了模型在复杂手势区分上的鲁棒性与应用潜力。
Figure 7. Confusion matrix of overall system performance
图7. 系统整体性能混淆矩阵
在空中绘制手势缺乏坐标参考,不同用户在速度和尺寸上存在差异,因此系统需要具备较强鲁棒性。实验邀请6名志愿者完成6个汉字手势动作,每个手势重复55次。
Table 1. Recognition performance of different users
表1. 不同用户的识别性能
用户 |
测试 |
ACC/% |
F1-Score/% |
用户1 |
99.02 |
97.17 |
用户2 |
97.17 |
97.33 |
用户3 |
96.56 |
96.33 |
用户4 |
98.15 |
97.67 |
用户5 |
96.88 |
97.00 |
用户6 |
97.18 |
97.16 |
测试结果见表1,系统整体识别精度为97.49%,6名志愿者的精度分别为99.02%、97.17%、96.56%、98.15%、96.88%和97.18%,尽管存在个体差异,系统整体仍保持较高识别水平。F1-Score测试进一步表明,6位用户的平均F1-Score达到97.11%,验证了系统在多用户条件下的稳定性和高性能,为智慧课堂的人机交互应用提供可靠支持。
为验证系统在不同环境下的跨域识别能力,选取会议室、走廊和教室3个场景进行测试,其中走廊多径效应最小,教室多径效应最高。5名志愿者在3个场景中完成6个汉字手势,每个手势书写80次,并将采集数据用于训练与测试。实验结果见表2,系统在不同环境下的平均识别准确率达到97.74%,会议室、走廊和教室的平均准确率分别为98.17%、98.96%和96.08%。尽管教室环境下多径和噪声干扰最大,识别率仍保持在96%以上,充分表明系统在跨场景手势识别中具有良好的鲁棒性和泛化能力。
Table 2. Recognition performance in different scenarios
表2. 不同场景的识别性能
场景 |
测试 |
ACC/% |
F1-Score/% |
会议室 |
98.17 |
97.17 |
走廊 |
98.96 |
98.16 |
教室 |
96.08 |
96.00 |
Table 3. Recognition performance under different interferences
表3. 不同干扰下的识别性能
噪声情景 |
测试 |
ACC/% |
F1-Score/% |
基线环境 |
98.00 |
97.88 |
静态干扰 |
97.17 |
96.93 |
动态干扰 |
96.16 |
96.04 |
环境噪声可能导致手势相位信号的衰减与失真,从而影响系统识别性能。为评估系统的抗干扰能力,本实验设计了3种噪声情景模拟真实环境条件:情景1为基线实验,用户在正常环境下完成手势动作;情景2在手指与标签之间放置金属障碍物以引入静态干扰;情景3邀请4名志愿者在用户周围随机走动产生动态噪声。每位用户在各情景下完成6个汉字手势,每个汉字60次,共360次。实验结果见表3,系统在基线情景中识别率最高达到98%,在动态噪声情景下仍能保持在96%以上,表明系统在复杂噪声条件下仍能稳定识别,具备良好的抗干扰性能。
为评估系统在复杂汉字手势识别中的性能,本研究在原有6个汉字的基础上,新增12个笔画复杂、结构多样的汉字,以模拟实际应用中可能出现的复杂手势场景。数据集按照70%训练集、30%测试集划分,并采用10折交叉验证以防止过拟合,保证实验结果可靠性。实验结果如图8所示,系统在新增复杂汉字上的平均识别精度仍达98.31%,表明改进的轻量化模型在处理笔画繁复、交叉封闭特征丰富的手势任务时仍保持稳定、准确的识别能力。
Figure 8. Confusion matrix of common complex Chinese characters
图8. 常见复杂汉字的混淆矩阵
为进一步验证所提系统在跨域识别中的优势,本研究将其与3种最新手势识别方法进行对比,分别为Wi-AM、ANN-to-SNN和Wi-Learner,对比结果见表4。Wi-AM基于元学习框架,在域内和跨域场景的平均识别准确率分别为90.40%和86.76%;ANN-to-SNN利用脉冲神经网络(SNN),在域内和跨域的平均识别率分别为97.67%和93.63%;Wi-Learner通过新型元学习器实现少样本快速适应,域内与跨域准确率分别为93.20%和94.90%。相比之下,本系统在域内和跨域场景的平均识别率分别达到98.88%和97.74%,显著优于其他模型,充分体现了其在细粒度汉字手势识别中的鲁棒性与跨场景泛化能力。
Table 4. Comparison with other models
表4. 与其他模型的比较
模型 |
域内准确率/% |
跨域准确率/% |
Wi-AM |
90.40 |
86.76 |
ANN-to-SNN |
97.67 |
93.63 |
Wi-Learner |
93.20 |
94.90 |
本模型 |
98.88 |
97.74 |
5. 结论
本文提出了一种改进AlexNet并融合SE注意力机制的轻量化细粒度汉字手势识别方法,通过标签矩阵与双天线增强信号采集完整性,并结合马尔可夫转移场映射实现时序特征强化。实验结果显示,系统在多场景、多用户条件下均具有优异性能:整体识别准确率达到98.88%,跨用户与跨场景平均准确率分别为97.49%和97.74%;即便在笔画相似或复杂汉字手势上,识别精度仍保持在98%以上。在环境噪声、金属干扰及动态干扰条件下,识别率仍超96%,表明模型在保证高精度识别的同时具有良好的鲁棒性和跨场景泛化能力。该方法实现了从信号采集、特征增强到轻量化卷积神经网络训练的全流程优化,为智慧课堂的手势交互提供了高效可靠的解决方案。未来,可进一步探索多模态传感融合及自适应学习策略,以增强系统对复杂交互场景和新型手势的适应性。
基金项目
本项目受新疆维吾尔自治区自然科学基金(2022D01C54)、新疆大学博士科研启动基金(202212120001)的项目资助。
NOTES
*通讯作者。