基于弯曲敏感石墨烯应变传感器和衍射深度神经网络的小数据手势识别
Small-Data Gesture Recognition Using Bending-Sensitive Graphene Strain Sensors and Diffractive Deep Neural Networks
DOI: 10.12677/mos.2025.145374, PDF, HTML, XML,   
作者: 李 瑾, 刘子辰, 陈 希*:上海理工大学智能科技学院,上海;上海理工大学光子芯片研究院,上海
关键词: 手势识别小数据应变传感器衍射深度神经网络激光还原氧化石墨烯Gesture Recognition Small-Data Strain Sensor Diffractive Deep Neural Network Laser-Reduced Graphene Oxide
摘要: 人工智能识别手势在认知神经科学和机械臂技术领域有着广泛的应用。最近,摄像头和应变传感器被用于收集不同手势的图片和随时间变化的响应数据,这些数据被输入人工神经网络进行识别。大量的输入数据会造成算力的浪费、大量的能源消耗和明显的时间延迟。文章介绍了一种基于弯曲敏感石墨烯应变传感器和衍射深度神经网络(Diffraction Deep Neural Network, D2NN)的手势识别方法。应变传感器是通过激光划线技术在氧化石墨烯(Graphene Oxide, GO)薄膜上制备的,在弯曲角度调节下表现出可调的电流响应。10个应变传感器位于手指关节处,用于捕捉不同手势下的电流响应,并将其转换为10像素图像,作为衍射深度神经网络的输入。在3次迭代内,识别0~9数字手势的仿真准确率可达到100%。输入数据量仅为10个,远低于已报道的手势识别设备。石墨烯应变传感器与光学神经形态计算的结合,为实现低成本、高效率、高准确度的人机交互铺平了道路。
Abstract: Artificial intelligence recognition of gestures shows a wide range of applications in cognitive neuroscience and robotic arm technology. Cameras and strain sensors have recently been used to collect photo and time-dependent response data for different gestures. The data are input into artificial neural networks for recognition. The large amount of the input data induces computing power waste, massive energy consumption, and significant time delay. This paper introduces a gesture recognition pathway based on bend-sensitive graphene strain sensors and diffractive deep neural network (D2NN). The strain sensor is fabricated on graphene oxide (GO) film through laser scribing and exhibits tunable current responses under the adjustment of bending angles. 10 strain sensors are located at finger joints to capture the current responses under different gestures and convert them into a 10-pixel image as the input of diffractive deep neural networks. 100% accuracy can be achieved within 3 iterations to recognize gestures representing numbers 0~9. The amount of input data is only ten, much less than those of the reported gesture recognition devices. The pathway combining graphene strain sensors with optical neuromorphic computing paves the way for achieving low-cost, efficient, and high-accuracy human-computer interaction.
文章引用:李瑾, 刘子辰, 陈希. 基于弯曲敏感石墨烯应变传感器和衍射深度神经网络的小数据手势识别[J]. 建模与仿真, 2025, 14(5): 67-82. https://doi.org/10.12677/mos.2025.145374

1. 引言

随着信息技术的不断进步,人机交互正在超越传统的键盘[1]。为分析手部动作的含义,手势识别在认知神经科学和机械臂技术领域具有巨大潜力[2]。手势识别的途径之一是通过摄像头收集手势照片,并将像素数据输入机器学习算法[3] [4]。大量的输入数据会造成算力的浪费、大量的能源消耗和明显的时间延迟。另一种途径是在手、手腕或前臂上佩戴应变传感器,将手势转换为电信号[5]。由于电信号通常是随时间变化的数据,因此仍然存在输入数据量大的缺点。为了减少对海量数据集的依赖,通过小数据途径开发手势识别技术至关重要。

最近,石墨烯材料因其出色的比表面积、热稳定性和导电性而受到广泛研究[6] [7]。氧化石墨烯(Graphene Oxide, GO)可以通过化学合成大规模生产石墨烯材料[8] [9],也可以通过激光加工局部还原成激光还原氧化石墨烯(Laser-Reduced Graphene Oxide, LRGO) [10] [11]。石墨烯应变传感器具有多种优势,可显著提高性能。石墨烯密度低、化学稳定性好,可大大降低设备的负荷和在复杂环境中的不稳定性。此外,石墨烯应变传感器还具有超高的机械强度和出色的柔韧性,使设备即使在反复弯曲的情况下也能保持稳定的信号输出。同时,激光诱导石墨烯结构还具有高导电性和应变响应性的协同作用,进一步提高了应变传感器的灵敏度和耐用性。这种结构为生物医学、航空航天、智能纺织品和可穿戴设备中的应变检测应用提供了巨大的潜力[12]-[14]。传感器的设计基于各种传感机制,包括压阻效应[15]、电容变化[16] [17]和场效应晶体管[18] [19]。其中,基于压阻效应的传感器具有可调灵敏度和快速响应的特点[20]。另一方面,针对人工智能领域任务开发了各种机器学习算法,包括隐马尔可夫模型[21]、支持向量机[22]、K最近邻分类器[23]、循环神经网络[24]、深度卷积神经网络[25] [26]、人工神经网络(Artificial Neural Network, ANN) [27] [28]和衍射深度神经网络(Diffraction Deep Neural Network, D2NN) [29]-[31]。D2NN是一种全光学神经网络,它将光学衍射原理与深度学习相结合,在模式识别方面表现出色[32]

在本文中,我们通过激光划线技术在GO薄膜上制作了LRGO指间电极。制备的GO/LRGO应变传感器在不同弯曲角度下表现出可调的电流响应。在手指关节处放置10个应变传感器,收集一个手势的10个电流数据。然后,将这10个值转换成10像素图像,作为D2NN的输入。对于0~9数字手势的仿真识别,基于D2NN的识别准确率可在3个训练历元内达到100%,其性能优于基于ANN的识别。更重要的是,其输入数据量远远少于摄像机和应变传感器。

2. 实验方法与神经形态仿真方法

2.1. GO/LRGO应变传感器的制备方法

向GO胶体中加入去离子水,将其稀释为2 g/l的悬浮液。用超声波搅拌600毫升GO悬浮液,然后将其滴加在聚对苯二甲酸乙二醇酯(Polyethylene Terephthalate, PET)薄膜上。自然蒸发24小时后,得到GO薄膜。然后,使用峰值功率为30 mW、重复频率为80 MHz、扫描速度为50 mm/s、波长为780 nm的Nanoscribe系统对薄膜进行激光刻划。在薄膜上制作了指间电极和方形电极,并用耐高温胶带面对面组装。最后,将银线连接到组装好的部件上。

2.2. GO/LRGO应变传感器的表征方式

使用ZEISS Sigma 300扫描电镜对激光划线前后的薄膜形态进行表征。在532 nm激光束的激发下,使用HORIBA WITEC共焦拉曼系统对拉曼光谱进行表征。使用K-Alpha XPS仪器对化学元素分布进行表征。使用Keithley 4200半导体参数分析仪和150毫米步进电机位移台测试电性能。

2.3. 用于手势识别的神经形态计算仿真

10个应变传感器位于手指关节处,用于收集0~9数字手势的电流响应。每个手势重复500次,测量500组电流数据,数据集由5000组数据组成。在采集电流数据的过程中,根据欧姆定律,GO/LRGO应变传感器在手势执行过程中电阻的变化会直接导致电流的变化。手势执行过程中的最高电流值可用于后续的手势识别。对于每组数据,都将电流数据直接转换成灰度值。生成2 × 5灰度图像作为神经形态计算的输入。5000个数据集被随机分配,其中80%和20%分别用于训练集和测试集。在D2NN中,人工神经元通过次级波与下一层的其他神经元连接,次级波的振幅和相位由上一层产生的输入干涉图案和该点的局部透射或反射系数调制。根据瑞利–索末菲衍射方程[33],当波传播到第l层的 ( x i , y i , z i ) 点时,会在下一层 ( x,y,z ) 位置的神经元i处产生如下光场:

w i l ( x,y,z )== z z i r 2 ( 1 2πr + 1 j λ g ) e j2πr λ g (1)

其中, w i l 被定义为传播系数, λ g 是光的波长,r代表两点之间的欧氏距离。因此,第l层 ( x i , y i , z i ) 点神经元的输出是第1层所有神经元的输出乘以该神经元的复合传播系数和 w i l ( x,y,z ) 的和:

n i l ( x,y,z )= w i l ( x,y,z ) t i l ( x i , y i , z i ) k n k l1 ( x i , y i , z i ) (2)

这些灰度图像的像素值被加载到输入光场中,然后输入信息可以被编码到幅度或相位通道中。在衍射网络的训练过程中,使用误差反向传播方法进行了迭代调整。在D2NN中,参数选择对识别性能的影响需综合考虑光学系统的物理特性与模型的学习能力。神经网络的层数决定了网络的深度和复杂模式的解析能力。增加层数可通过多级衍射增强特征提取,提升对非线性问题的处理效果。但过多的层数可能导致光能衰减加剧、制造复杂度上升,甚至引入冗余计算,反而降低泛化性能。因此,需在模型容量与光学损耗间权衡。同时,神经元数目会直接影响空间分辨率和特征表征粒度。每层神经元数量越多,衍射面的空间调制能力越强,更易捕捉细微的输入特征差异。然而,高密度神经元可能受限于加工精度,相邻单元间的串扰会降低调制效率,且过多的参数易导致过拟合。表1探究了不同参数下D2NN的识别准确率,可以观察到当D2NN的层数为5层且神经元数目为784时,此时识别准确率最高,光传输效率较高,能够实现较高分类精度。

Table 1. Comparison of recognition performance of D2NN with different parameters

1. 不同参数下D2NN的识别性能对比

衍射深度神经网络层数

神经元数目

准确率

3

625

88.56%

3

784

90.23%

5

625

97.14%

5

784

100%

7

625

96.88%

7

784

98.3%

通过上述探究,我们确定了本文中用于识别数字手势的D2NN网络基本框架,它由一个输入层、五个衍射层和一个检测器组成。输入层和每个衍射层包含784个神经元,而输出层由10个神经元组成,用于手势分类。同时,学习率和损失函数的调试和选择也至关重要。学习率作为优化过程的核心超参数,需与网络深度和损失曲面特性适配。过高的学习率会使相位参数更新剧烈,导致衍射场失稳,难以收敛。而过低的学习率则延长训练周期,且可能陷入局部极小点。通过不断地实验调整,发现最佳学习率为0.0005,所以我们选择0.0005作为D2NN网络框架的学习率参数。此外,损失函数的设计需紧密关联任务目标。对于分类任务,Softmax-Cross-Entropy (SCE)损失函数可以通过量化预测与真实标签的概率分布差异,能更直接地优化分类边界。而均方误差损失函数可能因对概率输出的平方惩罚不够敏感,导致收敛缓慢。在涉及多目标优化时(如同时要求高精度和低能耗),可引入加权复合损失函数。本项工作的目标是通过D2NN能够对0~9十个手势数字进行高效识别,所以选择SCE损失函数作为训练损失函数。同时,利用ReLU函数和归一化操作对每层的调制特性进行了优化,以保证信号保真度和计算效率。

在ANN中,各个参数的选择也会直接影响模型的表达能力、训练效率和泛化性能。浅层网络(如单隐藏层)虽易于训练且计算成本低,但难以捕捉数据中的高阶非线性关系。随着层数增加,网络可通过多层非线性变换提取更复杂的特征模式。神经元数目也决定了网络的宽度和特征表征能力。增加神经元数量可提升网络对输入细节的敏感性。与D2NN不同的是,ANN的神经元数常与输入维度相关联并逐层递减以逐步压缩信息。所以为便于后续识别应用,在本文中,我们所使用的ANN框架一共有四层,一个输入层、两个隐藏层和一个输出层。其中,输入层包含784个神经元,两个隐藏层分别有128和64个神经元,输出层含10个神经元。同样地,学习率作为优化过程的核心参数,需在收敛速度和稳定性间折中。过高的学习率会导致参数更新步长过大,损失函数在最优解附近震荡甚至发散。但是过低的学习率则使训练速度缓慢,且易陷入局部极小点。在ANN中,我们采用Adam优化器可缓解学习率的手动调参这一问题。而交叉熵损失函数可以衡量预测概率分布与真实标签的差异,更适合本文中的分类任务问题,所以选择梯度下降小批量(批量大小为10)最小化分类交叉熵损失。综合来看,ANN的参数优化需遵循“先结构后超参”的原则。首先根据任务复杂度确定层数和神经元数的合理范围,再通过实验调整学习率以平衡欠拟合与过拟合。

3. 结果与讨论

3.1. GO/LRGO应变传感器的手势识别机制

石墨烯应变传感器的结构如图1(a)所示,图中通过激光驱动还原石墨烯,制作了一个叉指LRGO电极。由叉指电极构成的应变传感器位于每个手指的掌指关节和近端指间关节处。因此,十个传感器收集的电流响应可识别代表0~9数字的手势。GO/LRGO应变传感器的制作过程如图1(b)所示。首先,将GO水悬浮液滴铸到PET基底上并进行干燥。然后,在沉积的GO薄膜上进行激光划线,形成LRGO的间距图案。在划线过程中减少氧官能团的数量可提高导电性[7],使LRGO非常适合用于传感器电极。最后,将一个数字间电极和一个方形LRGO电极面对面组装起来,并用银线连接,形成一个非对称应变传感器。对于每一个手势,位于连接处的应变传感器都会以不同角度弯曲,从而显示出不同的电流响应。10个传感器的响应被转换成10像素的灰度图像,作为D2NN的输入。在D2NN输出层中,所设计的检测器有十个不同的区域,每个区域对应一个代表0~9数字的手势。输入手势1的灰度图像后,输出层的相应区域最亮,表明识别成功(图1(c))。

Figure 1. A GO/LRGO strain sensor for gesture recognition: (a) An illustration showing the structure of the strain sensor located at finger joints; (b) Fabrication process of the sensor; (c) The principle of gesture recognition using the sensor and D2NN

1. 用于手势识别的GO/LRGO应变传感器:(a) 位于手指关节处的应变传感器结构示意图;(b) 传感器的制备过程;(c) 利用传感器和D2NN进行手势识别的原理

3.2. GO/LRGO应变传感器的电流响应

Figure 2. Characterization of the GO/LRGO strain sensor: (a) Raman spectra of the GO/LRGO film; (b) A XPS spectrum of the C1s region for the GO film; (c) A XPS spectrum of the C1s region for the LRGO film; (d) A SEM image of the GO (left) and LRGO (right); (e) I-V characteristic curves of the sensor under different bending angles; (f) Time-dependent current responses of the sensor under different bending angles; (g) Time-dependent current responses of the sensor under different bending/recovery durations. The bending angle is 60˚

2. GO/LRGO应变传感器的表征:(a) GO/LRGO薄膜的拉曼光谱;(b) GO薄膜C1s区域的XPS光谱;(c) LRGO薄膜C1s区域的XPS光谱;(d) GO(左)和LRGO(右)的扫描电镜图像;(e) 不同弯曲角度下传感器的I-V特性曲线;(f) 不同弯曲角度下传感器随时间变化的电流响应;(g) 不同弯曲/恢复持续时间下传感器随时间变化的电流响应。弯曲角度为60˚

拉曼光谱是表征GO还原特性的一种有效技术[34]。如图2(a)所示,在GO和LRGO的拉曼光谱中可以观察到三个突出的峰值——1350 cm−1处的D峰代表缺陷和弯曲的碳键,1583 cm−1处的G峰代表有序碳原子的面内振动,2700 cm−1处的2D峰代表与层间堆叠振动相关的二阶拉曼散射峰[35]。LRGO的D峰和G峰之间的强度比(ID/IG)高于GO,这表明激光还原后石墨烯区域的尺寸减小了[36]。高分辨率X射线光电子能谱(X-Ray Photoelectron Spectroscopy, XPS)显示了激光划片过程中化学成分的变化。图2(b)显示了GO薄膜的C1s光谱,其中C-C键和C-O键的初始百分比分别为43.6%和16.4%。激光还原后,薄膜中C-C键和C-O键的百分比分别变为75.1%和11.6% (图2(c))。这表明激光束产生的高温会降低GO中的氧含量[37]图2(d)展示了在30 mW激光功率和50 mm/s激光扫描速度下加工的GO和LRGO薄膜的扫描电子显微镜(Scanning Electron Microscope, SEM)图像。从图像中可以看出,GO的表面多孔且粗糙,而LRGO则形成了片状结构,具有更强的导电性。

GO/LRGO应变传感器显示出良好的欧姆接触。如图2(e)所示,I-V曲线在−6 V和6 V之间表现出良好的线性响应。在不同的弯曲角度下,电流响应是可调的,因为传感器的指间电极和方形LRGO电极并非完全对齐。当对器件施加压力时,两个电极之间的间隙会减小,从而增加接触面积并改变传感器电阻[36]。当弯曲角度从0˚变化到60˚时,由于接触面积增大,传感器电阻减小。一旦弯曲角度进一步增大,电极中心受到过度挤压,同时电极之间的平均间隙距离增大,就会导致电阻增大。如图2(f)所示,在1 V电压下测量了不同弯曲角度的GO/LRGO应变传感器的电流响应。在不同角度的弯曲情况下,电流响应保持稳定,因此表现出合理的稳定性。图2(g)展示了弯曲测试时间内电流的变化,在测试过程中施加了不同持续时间的弯曲(角度从0˚增加到60˚)和恢复(角度从60˚减小到0˚)。在5、10和15秒的不同弯曲/恢复持续时间内,电流响应保持不变,验证了传感器的稳定性。

Figure 3. Performance of the GO/LRGO: (a) Strain sensor response time of the GO/LRGO strain sensor; (b) Recovery time; (c) Hysteresis characterization of the GO/LRGO strain sensor; (d) Relative changes in resistance and bending strain curves for the GO/LRGO strain sensor; (e) Durability of the strain sensor for 1200 cycles of repetitive loading at an angle of 20˚; (f) Stability of the waveform within the time range of 6470~6520 s during the cycle depicted in (f)

3. GO/LRGO应变传感器的性能:(a) GO/LRGO应变传感器的响应时间;(b) 恢复时间;(c) GO/LRGO应变传感器的滞后特性;(d) GO/LRGO应变传感器的电阻和弯曲应变相对变化曲线;(e) 应变传感器在20˚下重复加载1200次后的耐久性;(f) 在(f)所描述的循环过程中,波形在6470~6520秒时间范围内的稳定性

图3(a)显示了传感器加载到60˚弯曲应变时的实时电流响应曲线,表明该装置的响应时间为190毫秒。同时,图3(b)表明在60˚弯曲应变下电流响应曲线的恢复时间为236毫秒,高于其响应时间。我们进一步评估了传感器的滞后情况。如图3(c)所示,在整个应变范围内,传感器的滞后特性小于5%,这意味着其滞后可以忽略不计,并能准确捕捉外部信号的瞬态变化。灵敏度是研究GO/LRGO应变传感器的一个重要性能因素,通常反映在量规因子(Gauge Factor, GF)中。GF的计算方法是将相对电阻变化与所施加的应变联系起来,如式(3)所示:

GF= ΔR/ R 0 ε = ( R R 0 )/ R 0 ε (3)

其中,ΔR是应变引起的电阻变化,R0是传感器的非应变电阻,R是传感器的应变测量电阻,ε是应变。从图3(d)中的拟合结果可以看出,在较小的应变范围(0.1%~0.68%)内,GO/LRGO应变传感器的GF值为121.6。这是因为在传感器上施加应变时,接触面积迅速增大,导致电阻显著降低,GF增加。随着应变的继续增加,电阻的减小速度开始减慢,而GF则随着接触面积的增加而减小。在0.68%至2.4%的应变范围内,GO/LRGO应变传感器的GF为14.1。当应变超过2.4%时,由于电极中心过度压缩,电极之间的平均间隙距离会增加,导致电阻略高,GF为1.2。

为进一步测试长期稳定性,传感器在20˚弯曲应变下进行了1200次加载–卸载循环稳定性测试,结果如图3(e)所示。在图3(f)中,从6470秒到6520秒的电流信号波形没有出现明显衰减,这表明传感器具有良好的耐用性和可重复性。

3.3. 基于GO/LRGO应变传感器的手势识别仿真

Figure 4. GO/LRGO strain sensors for gesture recognition: (a) Photo of the strain sensors; (b) Photo of the sensors mounted on the corresponding finger joints; (c) A top-view photo of the sensor applied to a bending finger joint; (d) A side-view photo of the sensor applied to a bending finger joint; (e) Photos of gestures representing numbers 0~9; (f) Bending angles of each finger joint corresponding to gesture 1; (g) Greyscale images of gestures 0~9 with 10 pixels

4. 用于手势识别的GO/LRGO应变传感器:(a) 应变传感器的照片;(b) 安装在相应手指关节上的传感器照片;(c) 传感器安装在弯曲手指关节上的俯视图;(d) 传感器安装在弯曲手指关节上的侧视图;(e) 代表0~9数字的手势照片;(f) 与手势1相对应的每个手指关节的弯曲角度;(g) 0~9手势的10像素灰度图像

Figure 5. Bending angles of each finger joint corresponding to gesture 0~9

5. 与0~9手势相对应的每个手指关节的弯曲角度

为了演示手势识别,GO/LRGO应变传感器位于掌指关节和近端指间关节。收集不同手势的电流响应,作为神经形态计算的输入。为此制作了10个应变传感器(图4(a))。图4(b)显示了安装在相应手指关节上的传感器的实际应用照片。图4(c)图4(d)显示的是应用于手指关节的GO/LRGO应变传感器的照片,即使在高弯曲角度下也能与手指完美贴合。在1 V的恒定偏置电压下,弯曲的手指做出不同的手势,传感器产生不同的电流值。这些值被转换成灰度图像,用于基于D2NN的神经形态计算。图4(e)依次排列了代表0~9手势的照片。图4(f)显示了代表1手势的10个手指关节的平均弯曲角度。拇指、食指、中指、无名指和小指掌指关节的平均弯曲角度分别为0˚、0˚、60˚、40˚和20˚。近端指间关节的关节角度分别为60˚、0˚、60˚、60˚和60˚。图5显示了0~9手势手指关节的平均弯曲角度。每个手势都有一组特定的弯曲角度。由于这些角度会调整GO/LRGO应变传感器的电流响应,因此可以根据不同手势下手指弯曲形成的响应进行神经形态计算,从而完成识别。为了生成神经形态计算所需的输入数据,10个电流响应直接转换成2 × 5的灰度图像。对于0~9的十种手势,可以绘制不同的图像作为神经形态计算的输入(图4(g))。

Figure 6. Performances of D2NN-based gesture recognition: (a) Accuracies within 50 iterations; (b) Testing the loss value of strain sensor current data through D2NN trained with 50 iterations; (c) A confusion matrix after 3 iterations; (d) Output distributions of the gesture representing number 1; (e) Output distribution images corresponding to gestures 0~9

6. 基于D2NN的手势识别性能:(a) 50次迭代内的准确率;(b) 通过50次迭代训练的D2NN测试应变传感器电流数据的损失值;(c) 迭代3次后的混淆矩阵;(d) 代表数字1手势的输出分布图;(e) 与手势0~9相对应的输出分布图像

D2NN利用光学传输、信号处理和计算进行人工智能识别,提供了一种处理速度极快的独特光学途径[38]。D2NN的输入信号是一张包含10个手势电流值的10像素灰度图像。图6(a)~(b)显示了0~9手势识别的训练效果,图6(c)显示了三次迭代后的混淆矩阵。在第三次迭代中,准确率达到了100%。图6(d)显示了代表数字1手势的输出分布。每个条形图代表相应数字的分布。由于数字1的强度分布最大,因此D2NN成功识别了手势1。每个手势对应的输出分布图像如图6(e)所示。可以看出,所有手势都能被准确识别。D2NN设计用于识别至少数百像素的图像[39]。考虑到手势图像仅包含10个像素,D2NN可以以极高的准确率进行这种小数据识别[40]

基于D2NN的识别性能优于基于ANN的识别性能。如图7(a)图7(b)所示,第六次迭代后准确率达到100%。图8绘制了六次迭代后基于ANN识别的混淆矩阵,验证了100%的准确率。然而,经过三次迭代后,准确率仅为36%,明显低于基于D2NN的识别率。图7(c)所示的混淆矩阵也证明了这种低性能。

Figure 7. Performances of ANN-based gesture recognition: (a) Accuracies within 50 iterations; (b) Loss values within 50 iterations; (c) A confusion matrix after 3 iterations; (d) Output distributions of the gesture representing number 1

7. 基于ANN的手势识别性能:(a) 50次迭代内的准确率;(b) 50次迭代中的损失值;(c) 3次迭代后的混淆矩阵;(d) 代表数字1手势的输出分布

为了模拟多人做出的手势,在每张图像中加入了标准偏差不同的随机高斯噪声。图9显示了在标准偏差为1.5的高斯噪声下基于D2NN的识别性能,发现准确率达到95%。当标准偏差为1.75时,识别准确率降至88%。标准偏差为2时,识别准确率为85%。同样,基于ANN的准确率也是由高斯噪声的标准偏差值决定的。偏差值为1.5、1.75和2时,准确率分别为94%、88%和83%。

Figure 8. A confusion matrix of ANN-based gesture recognition after 6 iterations

8. 基于ANN的手势识别经过6次迭代后的混淆矩阵

Figure 9. Digital gesture recognition learning in a D2NN for a GO/LRGO strain sensor after adding random Gaussian noise with a standard deviation of 1.5: (a) Accuracies within 50 iterations; (b) A confusion matrix after 3 iterations; (c) Loss values within 50 iterations

9. 加入标准偏差为1.5的随机高斯噪声后,在D2NN中对GO/LRGO应变传感器进行数字手势识别学习:(a) 50次迭代内的准确率;(b) 3次迭代后的混淆矩阵;(c) 50次迭代内的损失值

表2将已报道结合神经网络的识别设备和本工作中结合神经网络的应变传感器从六个方面进行了比较,即传感器类型、所使用神经网络类型、神经网络层数、可识别手势数目、输入数据量和准确率。相比于其他手势识别方法,由于GO/LRGO应变传感器在不同弯曲角度下的高灵敏度以及神经网络的优化,该传感器与D2NN相结合可以用于识别更多种类的手势,识别精度也明显优于其他神经网络。更重要的是,D2NN只需输入10个电流值。与摄像头捕捉的照片像素数据和报告的应变传感器测量的随时间变化的响应数据相比,输入数据量大大减少。这些成果减少了对海量数据集的依赖,避免了计算能力的浪费。

Table 2. Comparison of this work with other gesture recognition with the help of sensors

2. 本项工作与其他借助传感器进行的手势识别比较

传感器类型

所使用的神经网络类型

神经网络层数

可识别手势数目

输入数据量

准确率

参考文献

相机

VGG16

16

4

4096

99.63%

[41]

相机

RNN

2

27

256

96.89%

[42]

相机

CNN

3

10

409600

93.26%

[43]

应变传感器

GNN

7

18

1344

97%

[44]

应变传感器

BSV

5

10

19200

100%

[45]

应变传感器

CNN-BiLSTM

4

20

1200

96.88%

[46]

应变传感器

D2NN

5

10

10

100%

本项工作

4. 总结

总之,我们开发了一种利用弯曲敏感应变传感器进行人工智能手势识别的途径。通过激光划线将两个GO电极图案化,从而制造出GO/LRGO应变传感器。当对装置施加压力时,电极接触面积会增大,传感器电阻也会发生变化。在不同的弯曲角度下会产生电流响应并可调。10个应变传感器位于5个手指的掌指关节和近端指间关节处,用于记录电流响应。电流响应被转换成10像素灰度图像,以便根据D2NN进行识别。在3次迭代中,0~9数字手势的识别准确率达到100%,比基于ANN的识别准确率更高。利用石墨烯应变传感器和D2NN可以通过小数据识别实现高识别准确率,而且输入数据量远远少于已报道的手势识别设备。这一成果充分验证了光学神经形态计算在处理手势多样性方面的卓越性能,为认知神经科学和机械臂技术的未来应用提供了有力支持。

NOTES

*通讯作者。

参考文献

[1] Slade, P., Atkeson, C., Donelan, J.M., Houdijk, H., Ingraham, K.A., Kim, M., et al. (2024) On Human-in-the-Loop Optimization of Human-Robot Interaction. Nature, 633, 779-788.
https://doi.org/10.1038/s41586-024-07697-2
[2] Tan, P., Han, X., Zou, Y., Qu, X., Xue, J., Li, T., et al. (2022) Self-Powered Gesture Recognition Wristband Enabled by Machine Learning for Full Keyboard and Multicommand Input. Advanced Materials, 34, Article 2200793.
https://doi.org/10.1002/adma.202200793
[3] Moin, A., Zhou, A., Rahimi, A., Menon, A., Benatti, S., Alexandrov, G., et al. (2020) A Wearable Biosensing System with In-Sensor Adaptive Machine Learning for Hand Gesture Recognition. Nature Electronics, 4, 54-63.
https://doi.org/10.1038/s41928-020-00510-8
[4] Zhou, Z., Chen, K., Li, X., Zhang, S., Wu, Y., Zhou, Y., et al. (2020) Sign-to-Speech Translation Using Machine-Learning-Assisted Stretchable Sensor Arrays. Nature Electronics, 3, 571-578.
https://doi.org/10.1038/s41928-020-0428-6
[5] Wang, H., Ding, Q., Luo, Y., Wu, Z., Yu, J., Chen, H., et al. (2023) High-Performance Hydrogel Sensors Enabled Multimodal and Accurate Human-Machine Interaction System for Active Rehabilitation. Advanced Materials, 36, Article 2309868.
https://doi.org/10.1002/adma.202309868
[6] Osman, A., Elhakeem, A., Kaytbay, S. and Ahmed, A. (2022) A Comprehensive Review on the Thermal, Electrical, and Mechanical Properties of Graphene-Based Multi-Functional Epoxy Composites. Advanced Composites and Hybrid Materials, 5, 547-605.
https://doi.org/10.1007/s42114-022-00423-4
[7] Wu, Y., An, C., Guo, Y., Zong, Y., Jiang, N., Zheng, Q., et al. (2024) Highly Aligned Graphene Aerogels for Multifunctional Composites. Nano-Micro Letters, 16, Article No. 118.
https://doi.org/10.1007/s40820-024-01357-w
[8] Huang, X., Wei, J., Zhang, Y., Qian, B., Jia, Q., Liu, J., et al. (2022) Ultralight Magnetic and Dielectric Aerogels Achieved by Metal-Organic Framework Initiated Gelation of Graphene Oxide for Enhanced Microwave Absorption. Nano-Micro Letters, 14, Article No. 107.
https://doi.org/10.1007/s40820-022-00851-3
[9] Song, N., Zhang, F., Cao, D., Wang, P. and Ding, P. (2022) Bicontinuous Laminated Structure Design of Polypropylene/Reduced Graphene Oxide Hybrid Films for Thermal Management. Advanced Composites and Hybrid Materials, 5, 2873-2883.
https://doi.org/10.1007/s42114-022-00470-x
[10] Yuan, Y., Huang, J., Li, X., Jiang, L., Li, T., Sun, P., et al. (2023) Laser-Induced Electron Synchronization Excitation for Photochemical Synthesis and Patterning Graphene-Based Electrode. Advanced Materials, 36, Article 2308368.
https://doi.org/10.1002/adma.202308368
[11] Yuan, Y., Jiang, L., Li, X., Zuo, P., Zhang, X., Lian, Y., et al. (2022) Ultrafast Shaped Laser Induced Synthesis of Mxene Quantum Dots/Graphene for Transparent Supercapacitors. Advanced Materials, 34, Article 2110013.
https://doi.org/10.1002/adma.202110013
[12] Gao, Y., Liu, J. and Yang, S. (2023) Liquid Crystalline Reduced Graphene Oxide Composite Fibers as Artificial Muscles. Materials Today, 69, 19-30.
https://doi.org/10.1016/j.mattod.2023.08.003
[13] Luo, S., Peng, L., Xie, Y., Cao, X., Wang, X., Liu, X., et al. (2023) Flexible Large-Area Graphene Films of 50-600 nm Thickness with High Carrier Mobility. Nano-Micro Letters, 15, Article No. 61.
https://doi.org/10.1007/s40820-023-01032-6
[14] Wu, J., Zhang, Y., Hu, J., Yang, Y., Jin, D., Liu, W., et al. (2024) 2D Graphene Oxide Films Expand Functionality of Photonic Chips. Advanced Materials, 36, Article 2403659.
https://doi.org/10.1002/adma.202403659
[15] Nazari, P., Bäuerle, R., Zimmermann, J., Melzer, C., Schwab, C., Smith, A., et al. (2023) Piezoresistive Free-Standing Microfiber Strain Sensor for High-Resolution Battery Thickness Monitoring. Advanced Materials, 35, Article 2212189.
https://doi.org/10.1002/adma.202212189
[16] Kim, E., Kim, S., Jin, H.M., Kim, G., Ha, H., Choi, Y., et al. (2024) Unlocking Novel Functionality: Pseudocapacitive Sensing in Mxene-Based Flexible Supercapacitors. Nano-Micro Letters, 17, Article No. 86.
https://doi.org/10.1007/s40820-024-01567-2
[17] Yang, D., Zhao, K., Yang, R., Zhou, S., Chen, M., Tian, H., et al. (2024) A Rational Design of Bio-Derived Disulfide Cans for Wearable Capacitive Pressure Sensor. Advanced Materials, 36, Article 2403880.
https://doi.org/10.1002/adma.202403880
[18] Kaiser, D., Meyerbroeker, N., Purschke, W., Sell, S., Neumann, C., Winter, A., et al. (2024) Ultrasensitive Detection of Chemokines in Clinical Samples with Graphene-Based Field-Effect Transistors. Advanced Materials, 36, Article 2407487.
https://doi.org/10.1002/adma.202407487
[19] Zhou, S., Zhang, X., Wang, Y., et al. (2024) Opto-Electrical Decoupled Phototransistor for Starlight Detection. Advanced Materials (Deerfield Beach, Fla), 2024, e2413247.
[20] Zhao, G., Qian, F., Li, X., Tang, Y., Sheng, Y., Li, H., et al. (2023) Constructing a Continuous Reduced Graphene Oxide Network in Porous Plant Fiber Sponge for Highly Compressible and Sensitive Piezoresistive Sensors. Advanced Composites and Hybrid Materials, 6, Article No. 184.
https://doi.org/10.1007/s42114-023-00754-w
[21] Wu, D., Pigou, L., Kindermans, P., Le, N.D., Shao, L., Dambre, J., et al. (2016) Deep Dynamic Neural Networks for Multimodal Gesture Segmentation and Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38, 1583-1597.
https://doi.org/10.1109/tpami.2016.2537340
[22] Chen, T., Pang, Z., He, S., Li, Y., Shrestha, S., Little, J.M., et al. (2024) Machine Intelligence-Accelerated Discovery of All-Natural Plastic Substitutes. Nature Nanotechnology, 19, 782-791.
https://doi.org/10.1038/s41565-024-01635-z
[23] Xie, J., Xiang, X., Xia, S., Jiang, L., Wang, G. and Gao, X. (2024) MGNR: A Multi-Granularity Neighbor Relationship and Its Application in KNN Classification and Clustering Methods. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46, 7956-7972.
https://doi.org/10.1109/tpami.2024.3400281
[24] Turkoglu, M.O., Daaronco, S., Wegner, J.D., et al. (2022) Gating Revisited: Deep Multi-Layer Rnns that Can Be Trained. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 4081-4092.
[25] Deng, X. and Dragotti, P.L. (2021) Deep Convolutional Neural Network for Multi-Modal Image Restoration and Fusion. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43, 3333-3348.
https://doi.org/10.1109/tpami.2020.2984244
[26] Zhang, X., Zhang, B., Freddolino, L. and Zhang, Y. (2022) CR-I-TASSER: Assemble Protein Structures from Cryo-Em Density Maps Using Deep Convolutional Neural Networks. Nature Methods, 19, 195-204.
https://doi.org/10.1038/s41592-021-01389-9
[27] Li, X., Tang, J., Zhang, Q., Gao, B., Yang, J.J., Song, S., et al. (2020) Power-Efficient Neural Network with Artificial Dendrites. Nature Nanotechnology, 15, 776-782.
https://doi.org/10.1038/s41565-020-0722-5
[28] Zhang, Q., Yu, H., Barbiero, M., Wang, B. and Gu, M. (2019) Artificial Neural Networks Enabled by Nanophotonics. Light: Science & Applications, 8, Article No. 42.
https://doi.org/10.1038/s41377-019-0151-0
[29] Lin, X., Rivenson, Y., Yardimci, N.T., Veli, M., Luo, Y., Jarrahi, M., et al. (2018) All-Optical Machine Learning Using Diffractive Deep Neural Networks. Science, 361, 1004-1008.
https://doi.org/10.1126/science.aat8084
[30] Liu, C., Ma, Q., Luo, Z.J., Hong, Q.R., Xiao, Q., Zhang, H.C., et al. (2022) A Programmable Diffractive Deep Neural Network Based on a Digital-Coding Metasurface Array. Nature Electronics, 5, 113-122.
https://doi.org/10.1038/s41928-022-00719-9
[31] Wang, Q., Liu, J., Lyu, D. and Wang, J. (2024) Ultrahigh-Fidelity Spatial Mode Quantum Gates in High-Dimensional Space by Diffractive Deep Neural Networks. Light: Science & Applications, 13, Article No. 10.
https://doi.org/10.1038/s41377-023-01336-7
[32] Chen, H., Feng, J., Jiang, M., Wang, Y., Lin, J., Tan, J., et al. (2021) Diffractive Deep Neural Networks at Visible Wavelengths. Engineering, 7, 1483-1491.
https://doi.org/10.1016/j.eng.2020.07.032
[33] Burch, J. and Di Falco, A. (2018) Surface Topology Specific Metasurface Holograms. ACS Photonics, 5, 1762-1766.
https://doi.org/10.1021/acsphotonics.7b01449
[34] Wu, J., Lin, M., Cong, X., Liu, H. and Tan, P. (2018) Raman Spectroscopy of Graphene-Based Materials and Its Applications in Related Devices. Chemical Society Reviews, 47, 1822-1873.
https://doi.org/10.1039/c6cs00915h
[35] Chen, X. and Gu, M. (2022) Two-Beam Ultrafast Laser Scribing of Graphene Patterns with 90-nm Subdiffraction Feature Size. Ultrafast Science, 2022, 1-9.
https://doi.org/10.34133/ultrafastscience.0001
[36] Liu, X., Fang, L., Zhang, F., Zhang, Q., Wan, Z. and Chen, X. (2024) All-Optical Diffractive Deep Neural Networks Enabled Laser-Reduced Graphene Oxide Tactile Sensor for Braille Recognition. ACS Applied Electronic Materials, 6, 2049-2058.
https://doi.org/10.1021/acsaelm.4c00116
[37] Orekhov, N.D., Bondareva, J.V., Potapov, D.O., Dyakonov, P.V., Dubinin, O.N., Tarkhov, M.A., et al. (2022) Mechanism of Graphene Oxide Laser Reduction at Ambient Conditions: Experimental and Reaxff Study. Carbon, 191, 546-554.
https://doi.org/10.1016/j.carbon.2022.02.018
[38] Chen, H., Lou, S., Wang, Q., Huang, P., Duan, H. and Hu, Y. (2024) Diffractive Deep Neural Networks: Theories, Optimization, and Applications. Applied Physics Reviews, 11, Article 021332.
https://doi.org/10.1063/5.0191977
[39] Goi, E., Chen, X., Zhang, Q., Cumming, B.P., Schoenhardt, S., Luan, H., et al. (2021) Nanoprinted High-Neuron-Density Optical Linear Perceptrons Performing Near-Infrared Inference on a CMOS Chip. Light: Science & Applications, 10, Article No. 40.
https://doi.org/10.1038/s41377-021-00483-z
[40] Yang, B., Dong, Y. and Chen, X. (2024) Feature-Enhanced Artificial Visual Perception Based on Superlinear Voltage-Reflectance Responses of Electrochromic Arrays. ACS Photonics, 11, 1909-1919.
https://doi.org/10.1021/acsphotonics.3c01862
[41] Aggarwal, A., Bhutani, N., Kapur, R., Dhand, G. and Sheoran, K. (2023) Real-Time Hand Gesture Recognition Using Multiple Deep Learning Architectures. Signal, Image and Video Processing, 17, 3963-3971.
https://doi.org/10.1007/s11760-023-02626-8
[42] Czuszynski, K., Ruminski, J. and Kwasniewska, A. (2018) Gesture Recognition with the Linear Optical Sensor and Recurrent Neural Networks. IEEE Sensors Journal, 18, 5429-5438.
https://doi.org/10.1109/jsen.2018.2834968
[43] Zhang, Z., Wang, Q., Shi, G., Ma, Y., Zeng, J. and Liu, G. (2024) Neural Networks Based on In-Sensor Computing of Optoelectronic Memristor. Microelectronic Engineering, 291, Article 112201.
https://doi.org/10.1016/j.mee.2024.112201
[44] Lee, H., Lee, S., Kim, J., Jung, H., Yoon, K.J., Gandla, S., et al. (2023) Stretchable Array Electromyography Sensor with Graph Neural Network for Static and Dynamic Gestures Recognition System. npj Flexible Electronics, 7, Article No. 20.
https://doi.org/10.1038/s41528-023-00246-3
[45] Wang, M., Yan, Z., Wang, T., Cai, P., Gao, S., Zeng, Y., et al. (2020) Gesture Recognition Using a Bioinspired Learning Architecture that Integrates Visual Data with Somatosensory Data from Stretchable Sensors. Nature Electronics, 3, 563-570.
https://doi.org/10.1038/s41928-020-0422-z
[46] Song, Y., Liu, M., Wang, F., Zhu, J., Hu, A. and Sun, N. (2024) Gesture Recognition Based on a Convolutional Neural Network-Bidirectional Long Short-Term Memory Network for a Wearable Wrist Sensor with Multi-Walled Carbon Nanotube/Cotton Fabric Material. Micromachines, 15, Article 185.
https://doi.org/10.3390/mi15020185