1. 引言
随着科学技术的不断发展,人们对生物特征识别技术的要求越来越高。其中,手部特征具有较高的配合度和友好性,基于手部的单模态生物特征识别技术已被广泛应用于社会生活。相比于单模态生物特征识别技术,因为具有识别精度更高、安全性更高和应用范围更广等优点,多模态生物特征识别技术受到越来越多的关注 [1] 。在实际应用中,基于手部特征的生物特征识别技术能够有效克服对其他特征采集影响较大的普遍化个性因素。另外,同一根手指的不同位置具有指纹、指节纹和指静脉三个关键模态的特征信息 [2] [3] ,在手指三模态图像采集工作中,这种紧凑的生理结构便于单个采集装置一次完成三种模态特征信息的采集工作 [4] [5] 。这种工作模式不仅大大减少了数据采集的成本,更重要的是排除了大部分采集环境对手指三模态数据的影响。
多模态生物特征融合可分为像素层、特征层、匹配层和决策层等四个层次,它们相互联系,各有特点,但这四个层次的基本方法都不能科学地刻画手指的整体特征 [6] 。由于指纹、指静脉、指节纹三者的成像结构不同,手指粗细不一,导致ROI的长宽比不同,另外三者在图像内容、噪声等方面也存在较大差异,像素层的融合并不能有效整体刻画手指特征 [7] 。匹配层和决策层是以单模态生物特征的匹配结果和识别结果为基础的,能够实现多模态信息的相互融合 [8] 。但是存在算法依赖性强、规模大时效率较低、识别性能提升有限等缺点。而且,在匹配层和决策层的融合过程中忽略了多模态生物特征的整体表达所具有的辨析能力,这样的融合就无法从物理上表达手指特征的整体性 [9] 。另外,这两种融合策略对单模态单元的性能要求较高,数据存储空间的消耗较大,非常不便于单机实现和应用推广。相比于以上融合策略,特征层的融合能够最大限度地发挥特征的辨析能力,较好地平衡数据处理的难易程度和数据所包含的信息量大小之间的关系 [10] 。由于生物特征属性的不同和成像水平的限制,目前手指三模态图像的成像原理各不相同,采集到的图像质量较低。利用传统滤波器提取特征信息时,需要对手指三模态图像进行预处理,费时费力,而且,传统滤波器是由人工设计完成,采集到的特征有时并不具有很好的区分度 [11] 。近年来,神经网络技术发展迅速,在计算机视觉与模式识别领域中卷积神经网络的应用最为广泛 [12] [13] [14] 。卷积神经网络具有强大的特征提取能力,能够从图像自身特性出发,提取出更符合图像本身的特征 [15] [16] [17] 。另外,特征编码通过改变特征的表达方式,可以有效消除不同滤波器带来的差异性,能够完整保留特征自身的属性,使得多模态特征融合更具科学性和区分性 [18] 。
综上,本文提出了一种基于神经网络的手指三模态特征编码融合方法。针对手指三模态图像分别构建轻量级卷积神经网络进行多级特征提取。利用聚合向量编码方式对手指三模态特征进行编码,分别得到指静脉编码特征、指纹编码特征和指节纹编码特征。通过构建的神经网络模型将手指三模态浅层编码特征进行融合,得到手指三模态浅层融合特征。同时,利用相同的融合方案对手指三模态深层编码特征进行融合,得到手指三模态深层编码特征。最后,将手指三模态浅层融合特征和手指三模态深层融合特征进行串联融合,得到手指三模态多级融合特征。
2. 局部聚合向量
局部聚合向量(Vector of Local Aggregated Descriptors, VLAD)是一种编码方式,主要内容是基于特征空间的局部标准来聚合特征描述符。通过用向量的方式描述图像特征来实现对图像的精简表达,表征了向量相对中心的分布。局部聚合向量编码的流程如下,首先提取图像特征。然后利用提取的特征训练码书,原则上,码书越大,编码精度越高,但是要综合考虑计算量与精度的平衡。量化图像特征,利用最近邻算法将所有的描述子分配到k个聚类中心,对每个聚类中心做残差和,对残差和做L2归一化,拼接成一个k´d维的向量,d是特征维度。上述过程如公式(1)所示。
(1)
其中,xj是图像的第j个特征点,
是相对应的最近的聚类中心,
表示特征点与距离特征点最近的聚类中心之间的求差运算,
是指以ci为聚类中心的特征点x的每一维的值与聚类中心的每一维的差的和。
3. 手指三模态特征编码融合
生物特征识别技术的核心问题是如何将生物特征转换为可以进行相似性度量的表示,传统的方法是抽取图像的多个局部特征然后再将其聚合为单个紧致向量。最后,基于各种距离对向量进行相似性度量,从而实现个体身份的鉴别。
3.1. 手指三模态特征提取
传统的特征提取算法如SIFT、SURF等是基于人们的经验知识,通过人为设计的滤波器进行特征提取,不可避免地会掺杂人为因素,而且人为设计的滤波器有时并不能很好地适应图像特性。卷积神经网络拥有强大的特征提取能力,虽然提取的特征有时不太适合人脑理解,但无数实验证明利用卷积神经网络提取的特征能够更好地反映图像自身特性,而且可以提取人脑无法发现的特征。
为了从指纹、指静脉和指节纹的原始图像中提取有效特征,我们构建了基于卷积神经网络的特征提模型。我们知道在训练样本数量理想的前提下,随着网络复杂度的提高,卷积神经网络的性能逐渐提升。但是,当训练样本数量有限时,复杂的网络结构会带来灾难性的问题。为此,我们通过研究已成熟应用的网络结构的特性,构建了轻量级的卷积神经网络模型,用来完成指纹、指静脉和指节纹三种模态的特征提取任务。本文构建的特征提取模型主要包括卷积操作(公式(2))、均值池化操作(公式(3))。同时,为了提高网络的泛化能力和收敛速度,每个池化层后面紧跟一个批归一化层(公式(4)),后面连接一个全连接层,最后选用softmax函数(公式(5))实现分类。
(2)
其中,向量W代表卷积核的权重,向量X表示感受野内图像的像素值,n是感受野内像素的个数。
(3)
其中,P代表下采样操作后特征图中的一个元素值,M1和M2为下采样区域长和宽,xi为下采样区域内的元素。
(4)
其中,j代表第j个特征图,引入ε是为了防止分母为0而产生无效计算。uj为批数据的平均值,
为批数据的方差。
(5)
其中,
为前一层的输出,Si为Softma层第i个神经元的输出,softmax层每个节点的输出值代表的是当前节点类别是图像真实类别的概率。
3.2. 基于VLAD的特征编码
假设通过特征提取器获取的特征为N个S1 ´ S2的特征图,首先,将特征图“展平”为长度为S1 ´ S2 = D的一维向量,此时,特征可用描述符
表示,其中,其中xi为一个D维的特征向量。然后,构建包含K个元素的码本
,其中,ck是一个D维的特征向量。手指三模态特征编码的过程如公式(6)~(7)所示。
(6)
其中,Pj为一个特征图中的元素,Connect()将输入连接成一维向量。
(7)
其中,V是聚合编码的输出,是一个K ´ D维的特征向量。
是第i个视觉描述符的第j维,
是第k个聚类中心的第j维。
3.3. 手指三模态特征编码融合模型
基于神经网络的手指三模态特征编码融合模型的整体结构如图1所示,该模型由手指三模态特征提取模块,手指三模态浅层特征编码模块,手指三模态浅层编码特征融合模块和手指三模态深层特征编码模块,手指三模态深层编码特征融合模块,以及手指三模态深浅层融合特征串联融合层等组成。卷积神经网络的结构中,浅层结构接近输入层,此处的感受野较小,感受野的重叠度较低,有利于提取更多的细节,浅层输出的特征包含更多的位置和细节信息,语义性较低,而深层结构中增加了感受野的重叠区域,对图像信息进行压缩,输出的特征包含的是图像整体性信息,具有很强的语义性,但细节感知力较差。神经网络的浅层特征和深层特征具有优势互补的特点,综合利用深浅层特征能够更好地刻画个体属性,更有利于个体身份信息的鉴别。首先,将手指三模态原始图像数据输入基于卷积神经网络的特征提取模型,通过不同的网络层分别输出手指三模态浅层特征和手指三模态深层特征。其次,根据局部聚合向量编码原理分别对手指三模态浅层特征和深层特征进行编码,得到手指三种模态浅层编码特征和深层编码特征,共六种编码特征。再次,手指三模态浅层编码特征输入手指三模态浅层编码特征融合模块实现手指三模态浅层编码特征的融合,同理,手指三模态深层编码特征输入手指三模态深层编码特征融合模块进行融合。最后,由于编码后的特征描述子代表的是特征相对于聚类中心的距离,消除了不同模态特征的差异性,在特征融合时不用考虑特征对齐等问题,直接将手指三模态浅层融合特征与深层融合特征进行串联,得到手指三模态融合特征。

Figure 1. Finger trimodal feature coding fusion model
图1. 手指三模态特征编码融合模型
4. 实验
4.1. 实验数据
本文实验用的数据为利用自主研发的手指三模态一体化图像采集设备采集的指静脉图像、指纹图像和指节纹图像组成,如图2所示。共采集585个手指的三模态图像,每个手指通过变化不同姿态分别采集十次,即每根手指的每个模态别采集到十张图像,即3 ´ (585 ´ 10)张图像。
(a) 指静脉图像
(b) 指纹图像
(c) 指节纹图像
Figure 2. Raw images of finger trimodal
图2. 手指三模态原始图像
4.2. 实验结果与分析
基于神经网络的手指三模态特征编码融合模型中用于特征提取的部分为手指三模态特征提取模块,该模块由三个并行的卷积神经网络组成,如图3所示。其中,用于提取指静脉特征的网络由六个卷积层组成,用于提取指纹特征的网络由四个卷积层组成,用于提取指节纹特征的网络由六个卷积层组成,这里的卷积层包括卷积操作和均值池化操作。每个池化层后面跟一个批归一化(Batch Normalization, BN)层,用来提高网络泛化能力和收敛速度。对网络进行训练时,单模态特征提取网络的最后面连接一个全连接层,选用softmax函数完成分类。单模态特征提取网络训练完成后,保存网络中所有参数的数值。用于特征提取时,单模态特征提取网络丢弃最后的全连接层,输入分别为指静脉、指纹和指节纹的原始图像,输出为特征图。
(a) FV特征提取网络
(b) FP特征提取网络
(c) FKP特征提取网络
Figure 3. Finger trimodal feature extraction model
图3. 手指三模态特征提取模型
为了验证我们构建的手指三模态特征提取模块是否具有科学性以及手指三模态特征提取网络获取的特使是否具有较好的类别区分度。分别以指静脉、指纹和指节纹的原始图像作为输入,图像所属类别作为标签,选用交叉熵函数作为损失函数。另外,为了使特征提取网络具有较好的泛化能力,首先,将实验数据的次序进行打乱。然后,将所有实验数据划分为训练数据集和测试数据集,其中,训练数据集占所有数据的80%,测试数据集站所有数据的20%。图4分别为三个特征提取网络的训练过程,表1为训练完成的手指三模态特征提取网络在测试数据集上的识别精度。
(a) 手指三模态特征提取网络损失函数变化过程
(b) 手指三模态特征提取网络识别精度变化过程
Figure 4. Training process of finger trimodal feature extraction model
图4. 手指三模态特征提取网络训练过程

Table 1. Identification accuracy of finger trimodal feature extraction model
表1. 手指三模态特征提取模型识别精度
综合分析上述实验结果,可以看出本文构建的手指三模态特征提取网络是可训练的,训练过程中损失函数逐渐变小,识别精度逐渐变大,最终稳定在理想值周围,且训练完成的网络能够得到较高的识别精度。说明本文构建的手指三模态特征提取网络能够提取到有效的手指三模态特征。
为了验证局部聚合编码的有效性,首先将特征根据上文提到的局部聚合向量编码方法进行编码,然后通过余弦距离测量相似度,最后将待识别的图像归为相似度最大的类别中。表2为手指三模态编码特征的识别精度。
分析表2可以看出,基于编码后的特征能够得到较高的分类正确率,说明利用局部聚合向量编码算法对通过神经网络提取到的手指三模态特征进行编码有效的,可以得到识别精度较高的编码特征。

Table 2. Identification accuracy of finger trimodal coded feature
表2. 手指三模态编码特征的识别精度
为了验证本文提出的手指三模态编码特征融合方法的有效性,本文进行了以下实验,首先将编码完成的手指三模态浅层特征作为构建的神经网络的输入层,然后通过余弦距离测量相似度,最后将待识别的图像归为相似度最大的类别中,表3为上述实验结果。

Table 3. Identification accuracy of finger trimodal fusion feature
表3. 手指三模态融合特征的识别精度
对比分析表2和表3中的结果,可以得出通过本文提出的手指三模态编码特征融合算法得到的融合特征能够描述能力较强的特征,可以有效提高个体识别精度。
参考文献