1. 引言
生物特征认证正在逐渐成为基于密码安全系统的更可靠替代方案。而签名作为生物特征的一种,不同于基于个人物理属性(如指纹或面部识别等),而是基于个人行为属性。然而签名也存在一些问题,例如随时间变化而改变或容易被模仿。但是由于公众对其更加广泛接受,签名较适用于一些较低安全性的认证需求。
根据签名数据的输入方法,签名验证可分为离线签名验证和在线签名验证两部分。离线签名验证以签名的图像作为输入,适用于自动验证银行支票和文件上的签名。而在线签名验证则使用压敏片捕获的签名数据,除了提取签名的形状外,还能提取签名的动态特征。此类特征可包括笔画数量和顺序、签名整体速度以及每个点的笔压等,使得在线签名验证更为可靠、难以被仿冒。因此,在线签名验证也被广泛应用于保护小型个人设备(如PDA、笔记本电脑)、授权计算机用户访问敏感数据或程序,以及个人进出物理设备或建筑物的认证。尽管签名验证已被长期广泛地用于个人认证,但由于类内的细微差异和熟练的伪造等问题,签名验证仍然具有挑战性,一直是一个活跃的研究领域。
在早期,针对OSV的研究主要集中在传统的模式识别技术上。在1974年,Lin和Nemeck等人提出将签名视为二维图像,并通过提取签名的静态特征,运用Hadamard变换进行数据缩减和特征选择,正式开创了离线手写签名验证的研究 [1] 。
经过几十年的发展,国内外的研究学者们对手写签名验证领域的相关研究越来越感兴趣,相关技术也变得越来越多样,其研究成果也越来越显著。例如,Snehil G. Jaiswal等人基于全局和局部特征进行识别,并强调验证结果深受预处理过程的影响 [2] 。
随着深度神经网络技术的进步,OSV技术也得到了应用,研究人员开始考虑采用卷积神经网络来直接学习手写签名图像的特征。在2012年,Khalajzadeh等人尝试应用卷积神经网络提取波斯文签名图像的特征 [3] 。另外,一些研究者使用胶囊网络代替卷积神经网络进行离线手写签名认证,在低分辨率下取得了更好的性能 [4] 。还有一些学者使用12种签名特征序列作为自动编码器的输入,建立了独立于用户的在线签名认证模型并实现了高准确率 [5] 。此外,Rantzsch等人研究了一种三路输入度量学习模型,通过最小化真实签名的距离并最大化真实签名和伪造签名的距离来改进模型准确性 [6] 。Wei等人则提出了一种四路输入的逆判别网络模型,通过引入注意力机制来聚焦于签名的笔迹,最终实现了较为出色的性能 [7] 。
虽然深度学习技术的进步有效提高了OSV系统的性能,但是这些基于深度学习的方法都是单任务学习,且由于每个用户提供的签名样本数量有限,这些方法不能很好地学习到签名的判别性特征。为了解决这个问题,本文提出了一种基于双向LSTM的双任务学习残差通道注意力机制手写签名认证(Dual-task learning residual channel attention mechanism for handwritten signature verification based on bidirectional LSTM)。本文的主要贡献如下:
首先,利用残差通道注意力机制模型来学习序列特征的权重和双向LSTM网络,缓解在不同通道间的权重分配问题和深度神经网络中加深层数导致的梯度消失和梯度爆炸问题。其次,引入多任务学习,包括有监督学习和深度度量学习来进行特征学习。最后,本文提出了一种基于多任务学习的训练方法,进一步提高了OSV系统的准确率。
2. 方法
2.1. 数据集以及预处理
本研究采用公开且可用的SVC-2004-Task2数据集 [8] ,其中的签名来自WACOM Intuos平板电脑。该数据集包含较少的签名样本,共有40个用户,每个用户拥有20个真实样本和20个熟练的伪造样本。本研究将每个用户的前15个真伪签名样本作为训练集,将每个用户的后5个真伪签名样本作为验证集。首先,根据文献 [9] 的指导,提取了40多个能够表示签名的全局特征,包括X方向和Y方向速度的最大值、均值,以及X方向和Y方向压力的标准差等。其次,我们选择了签名的横坐标(x)序列、纵坐标(y)序列以及压力(p)序列作为表示签名的序列特征。由于签名的特征受硬件设备在采集过程中的影响,因此在预处理过程中需要进行平滑操作和归一化的操作,以消除这些影响。在本研究中,我们使用了五点三次平滑滤波器对签名进行平滑处理,然后对其进行规范化,将签名的大小缩放到[0, 1]的范围内。
2.2. 算法总体框架
本研究采用一种基于双向LSTM的双任务学习残差通道注意力机制模型,提出了一个新的手写签名认证算法。总体算法框架如图1所示。该网络采用残差通道注意力机制双向LSTM网络模型,并结合有监督学习任务和深度度量学习任务进行特征提取和训练。首先,将签名的全局特征和序列特征作为残差通道注意力机制双向LSTM网络模型的输入并且对全局特征和局部特征进行特征提取。其次,使用有监督学习任务和深度度量学习任务进行签名序列特征训练。两个任务按不同的权重进行学习,最终得到优秀的训练结果。本研究接下来将详细介绍算法的实现细节。
Figure 1. Overall model of the algorithm
图1. 算法总体模型
2.3. 残差通道注意力机制
Figure 2. Residual channel attention mechanism mode
图2. 残差通道注意力机制模型
在深度神经网络中,不同通道之间通常存在着相互依赖和相关性,其中某些特征对某些通道更加敏感,而其他特征对其他通道更加敏感。然而,传统的神经网络可能无法充分捕捉到这些通道之间的重要依赖关系和模式差异,从而无法有效地利用不同通道的特性,进而降低了网络的表达能力和判别性能。另外,通道内部还可能存在着模式差异,不同通道对不同的特征或模式具有不同的响应。然而,传统的网络未能有效地对这种差异进行建模,导致难以处理通道内的模式差异,最终影响网络的性能。为了解决上述问题,在本研究中,我设计了一种残差通道注意力机制,如图2所示。这一机制旨在最大程度地提升网络的表达能力和判别性能,从而充分利用不同通道之间的依赖关系和模式差异,以及处理通道内部的模式差异。
对于之前学过残差网络的人来说,他们可能已经了解到在处理复杂问题时,过浅的神经网络无法达到理想的性能。为了解决这个问题,增加网络的深度成为了解决图像分类问题的最佳方法。然而,增加网络深度很容易导致过拟合,甚至导致在训练集上的准确率下降。为了克服这个问题,残差网络提出了一种新的网络结构,该结构可以对所有网络进行改进,并且真正有效地增加网络的深度。
其中,SE (Squeeze-and-Excitation)模块的灵活性在于它可以直接应用于现有的网络结构中。在本研究中,我们将SE模块嵌入到残差学习分支中。通过使用SENet改进的ResNet网络,无论原始网络的深度如何,都能有效地增加网络的深度,并且实现了显著的实验效果提升。通过引入SE模块,网络能够自适应地调整通道的重要性,从而更好地捕捉特征之间的相关性,提高了网络的表示能力,进而取得了更好的分类性能。
残差通道注意力机制是一种引入注意力权重的方法,它能够自适应地调整通道的重要性,以解决传统神经网络中存在的通道间依赖关系和通道内模式差异的问题。这种机制极大地增强了网络的表示能力,同时也具备了自适应性和灵活性,并且能够减少模型的参数数量和计算复杂度。
本研究中我们使用一种基于残差通道注意力机制的模型,通过采用SE模块进行处理。通过这一过程,我们能够自适应地调整通道的重要性,进而更好地捕捉特征之间的依赖关系以及通道内部的模式差异。假设输入的特征维度为H × W × C,特征经过压缩操作,将跨空间维度H × W的特征映射进行聚合,生成一个具有特定维度的全局空间信息。在这个过程中,我们采用sigmoid函数,并嵌入了一个ReLU函数,以限制模型的复杂性并帮助训练。在实现上,我们使用W1来降低维度,使用W2来递增维度。最后,通过通道加权将输出的注意力权重应用于输入特征。并且把处理之后特征加入到残差网络中获得更好的效果。
具体公式如下:
(1)
(2)
(3)
(4)
这个研究的贡献在于在残差网络中引入SE模块,通过将其嵌入到网络结构中,实现了对网络深度的有效增加,并且在图像分类任务上取得了显著的性能提升。这一研究为解决复杂问题和利用深度网络进行图像分类提供了一种有效的方法。
2.4. 双向长短期记忆网络
RNN (Recurrent Neural Network,循环神经网络)被广泛应用于处理序列数据,如自然语言处理(NLP)和语音识别 [10] 。然而,传统的RNN存在一些问题,例如难以捕捉长期依赖关系以及梯度消失或者梯度爆炸等,这导致了其在学习时间序列长期依赖方面的能力非常有限。为了解决这个问题,双向LSTM网络(Bidirectional long short-term memory,双向长短期记忆)作为一种新型变体出现在RNN模型中,能够高效地捕捉时间序列上的长期依赖关系。
在本研究中,我们借助双向LSTM网络来处理输入的签名序列,其中序列数据分别从前向后和从后向前进行传递。这种双向传递的方式使得模型能够更好地获取全局上下文信息,这对于更好地理解和预测序列数据非常有帮助。此外,双向LSTM还拥有更出色的特征表示能力,能够提取更丰富的特征表达,从而提高模型的表达能力。双向LSTM模型的详细结构如图3所示。现在我们来详细介绍一下LSTM模型。
Figure 3. Bidirectional long short-term memory network model
图3. 双向长短时记忆网络模型
LSTM模型包含三个关键结构:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。这些门控制着信息在LSTM单元内的流动,从而决定了哪些信息需要被记住、遗忘或输出。除了以上3种结构。还有细胞状态和隐藏状态。假设
表示第t时间的输入信息,则对应时间上的输出
。式子中
表示前一时刻的输出。
,
,
分别表示遗忘门,输入门,输出门的输出。W和b表示参数,
表示sigmoid激活函数,tanh表示激活函数。
表示细胞状态。
具体公式如下:
(5)
(6)
(7)
(8)
(9)
(10)
2.5. 双任务学习的训练方法
本研究分别构建了两种学习任务的损失函数,即有监督学习任务和深度度量学习任务,并将它们结合起来构建用于训练残差通道注意力机制模型的多任务损失函数。每种损失函数的设计如下:
有监督学习任务:本研究所构建的模型使用交叉熵损失(cross-entropy loss, CEL)函数来进行网络的有监督学习。有监督学习任务的损失函数如下式所示:
(11)
式中,M为样本数量,k为分类数量,yi为真实标签,
为网络所预测的分类概率。并且我们把输出结果设置为J1。
深度度量学习任务:考虑到在线手写签名类内存在不稳定性,这使得真假签名之间的界限相对模糊。为了使网络能够更好地学习签名序列的判别性特征,本研究采用了联合训练的方式,结合了Softmax Loss和Center Loss。其中,Softmax Loss用于将不同类别的深度特征分开,而Center Loss则能够将同一类别的特征吸引到类别中心。这种结合的方法不仅可以扩大不同类别之间的特征差异,还能减小同一类别内部特征之间的差距。随着Center Loss的比重增大,类别内部特征的聚合效果以及分类准确性也会得到提升,结果如图4所示。此外,损失函数采用了交叉熵损失函数。其中,向量
就是第
个类别中心,
表示全连接之前的特征,W和b表示参数。m表示mini-batch大小。如果条件满足
(条件) = 1,则进行更新操作;否则
(条件) = 0。即只有当
和
的类别i = j的时候才更新
。
(12)
(13)
(14)
多任务学习:在网络的训练过程中,本研究通过将残差通道注意力机制和双向LSTM网络进行特征提取实现了不同类型特征之间的信息互补,为两种网络模型的共同学习建立联系。同时,将上述两个任务的损失函数相结合,构建了双任务残差通道注意力机制网络模型的多任务损失函数。该多任务损失函数如下:
并且,设置
和
为损失函数的权重。到此。研究提出的双任务残差通道注意力机制网络模型构建完成。
(15)
3. 实验分析
3.1. 超参数寻优
在这项研究中,我们采用了Python 3.8和TensorFlow 2.3深度学习库,用于优化、训练和验证神经网络。为了提高双向LSTM的双任务学习残差通道注意力机制模型的收敛性能,我们选择了Adam优化器,并使用双任务损失函数。通过精心调整B_1、B_2、Epsilon和Decay等参数,我们能够精确控制网络的学习过程。双向LSTM的双任务学习残差通道注意力机制模型的详细超参数如表1中所列示。对于这项研究,我们努力保证了代码的兼容性和性能的优越表现,以确保结果的可靠性和鲁棒性。
Table 1. Hyperparameter optimization results of model
表1. 模型的超参数寻优结果
3.2. 实验结果分析
通过采用双向LSTM进行双任务学习残差通道注意力机制模型,我们对40位用户的签名样本进行了个别训练,以构建出依赖于用户的签名认证模型。在本研究中,我们以该模型Softmax层输出的后验概率作为度量签名准确率的标准。最后实验结果达到了97.03%。且仅有9位用户出现认证错误。如表2所示。
Table 2. The user statistical results of error verification
表2. 错误认证的用户统计结果
另外,本研究采用消融实验来进一步分析双向LSTM的双任务学习残差通道注意力机制模型的学习性能(模型3)。我们首先删除双向LSTM的双任务学习残差通道注意力机制模型的有监督学习任务来构建基于双向LSTM的深度度量任务残差通道注意力机制模型(模型2)。同时在此任务基础上删除双向Lstm网络来构建继续深度度量任务残差通道注意力机制模型(模型1)。我们根据上述消融实验构建了3种实验模型。以上3种模型的对比结果如表3所示。相比较其他两种模型。双向LSTM的双任务学习残差通道注意力机制模型的准确率达到了97.03%,等错误率达到了2.33%,受试者工作特征(receiver operating characteristic, ROC)曲线如图4所示。
Table 3. Authentication result comparison
表3. 认证结果对比
Figure 4. ROC curve comparison results
图4. ROC曲线对比结果
3.3. 相关工作对比
为了更深入验证所提出方法的有效性,本研究进行了与其他优秀方法的性能对比实验。我们在数据集上对比相关工作,并将实验结果列于表4中。我们所提出的方法取得了2.33%的等错误率,在认证性能方面,相较于表中其他的识别方法,本文所提出的双向LSTM的双任务学习残差通道注意力机制模型实现了降低等错误率。在认证模型方面,我们通过结合残差通道注意力机制和双向LSTM网络,提升了识别能力。据此。我们的方法在SVC数据集上表现出色,在认证性能和等错误率方面都取得了显著的改进。这进一步证明了我们所提方法的有效性和潜力,为深度学习算法在签名识别领域的应用提供了有力支持。
Table 4. Comparison between the proposed method
表4. 相关工作对比
4. 结论
本文提出了一种改进的手写签名认证算法,即双向LSTM的双任务学习残差通道注意力机制模型用于在线手写签名的认证。同时,通过结合残差通道注意力机制和双向LSTM网络,我们提高了网络对签名中重要信息的捕获能力,并增强了特征的筛选能力。实验证明,我们提出的双向LSTM的双任务学习残差通道注意力机制模型将错误率降低到了惊人的2.33%,显著提升了签名认证的精度。与以往的研究相比,本研究的方法在性能上展现出了更高的水平,进一步证实了该方法的先进性。这项研究为在线手写签名认证领域带来了重要的进展,具有广泛的应用前景。
基金项目
国家自然科学基金面上项目(62073227)。
NOTES
*通讯作者。