1. 引言
深度学习因提取特征能力强,识别精度高,实时性快等优点被广泛应用 [1]。科研工作者开始将深度学习应用到图像识别中,并且在最近的几年中取得了巨大的进步,图像的识别效率及识别效果比传统的识别手段有了巨大的进步。最近几年在人工神经网络的大发展背景下,基于卷积神经网络 [2] (Convolutional Neural Network, CNN)的图像分类技术在智能数据采集和高效处理中也取得了较好的效果 [3]。以CNN模型为基础,将多层卷积和多层池化结合产生新的网络模型,可提高网络结构的准确度 [4]。经典的卷积神经网络模型有LeNet-5 [5]、Alex Net [6]、Google Net [7]、VGGNet [8]、ResNet [9]、MobileNet [10] 以及DenseNet等。很多网络的出现是对已有网络的排列组合,加深了层次或者加多了节点数目。
近年来现有文献中基于小样本学习的图像分类算法都是采用深度学习 [11]。将深度学习中的技术用于小样本学习中,比如使用数据增强技术来增加样本的数量。迁移学习、元学习、对偶学习、贝叶斯学习以及图神经网络方法也被用于小样本图像分类的任务。然而,深度神经网络的训练质量受训练集中有标记样本数目的强烈影响 [12]。在实际的问题中,数据获取往往是困难的,这之中既有个人隐私的问题,比如人脸数据,也有问题对象本身就很少的问题,比如识别珍稀保护动物的问题 [13]。其次是算力问题,深度学习方法在提高算法性能的同时,往往伴随着庞大的网络运算,这也就使得深度学习的方法很难部署在计算资源受限的设备上。那么此时如何用小样本的图像数据进行分类、同时节省算力,达到很好的分类效果便成了研究问题的重点。
机器学习中的机器视觉利用机器模拟人脑,通过设备获取图像,然后经过一定的处理和特征提取,最后识别出相关信息 [14]。机器学习的核心是分类器的训练 [15]。通过不断的训练和调整,最终得到一个适用的分类器模型,实现对事物的准确识别 [16]。
高斯过程观测变量空间是连续域,时间或空间。高斯过程观测变量空间是实数域的时候,我们就可以进行回归而实现预测,即高斯过程回归(Gaussian Process Regression, GPR) [17]。高斯过程观测变量空间是整数域的时候(观测点是离散的),我们就可以进行分类,即高斯过程分类(Gaussian Process Classification, GPC)。由于模型特性,高斯过程在小样本数据集上效果很好。于是我们便可以将高斯过程分类这一方法,应用于小样本的图像分类中,避免了深度学习模型的庞大架构和数据需求,也能达到不俗的分类效果。
本论文从图片分解方式出发,结合分类算法研究了小样本图像识别工作。主要内容包括:本文的内容结构安排如下,首先在第2节介绍高斯过程回归和高斯过程分类模型,然后在第3节介绍图片的分解方式和原理,在第4节给出了不同情况下小样本的图片分类的实验结论。最后在第5节给出结论。
2. 高斯过程分类模型
高斯过程的应用包括回归、分类两种问题。输入与输出变量均为连续变量的预测被称为回归问题,而输出变量为有限个离散变量的预测被称为分类问题 [18]。高斯过程分类其实就是在高斯过程回归的基础上,将高斯过程回归的输出结果通过一个连接函数获得相应的标签概率结果,进而依据一个合适的划分阈值便可输出不同的类别结果 [19]。
假设有数据集D包含n个观测值
,其中x表示D维的输入向量(协变量),y表示输出向量(因变量),所有n种情况的列向量输入可以集合在一个
的设计矩阵X中。我们希望通过训练集的数据构建模型
,其中
是协变量与因变量的映射关系,即潜变量函数。而且可以将这个模型应用于新的数据集
中,即测试集数据。在已知
时用于预测得到输出的
。对于更加真实的建模情况,我们通常无法只获得函数
本身,而是有噪声的情况
.
假设
服从高斯过程
,可以得到
,
其中
为均值函数,
为核函数。由高斯过程性质可以得到
和y的联合分布
.
从而可以导出条件分布,也就是高斯过程回归的关键预测方程 [17]
当因变量不是连续值,而是标签时,即
,便出现了分类问题。在二元分类问题中,用高斯过程进行预测背后的思想是很简单的,即在函数
上放置一个高斯过程先验,然后通过某个连接函数
将结果挤压在
区间内:
.
接下来进行贝叶斯推断,首先计算应用于测试集数据的潜变量函数的分布
,
其中
是潜变量函数的后验分布,利用这个分布可以产生一个基于数据集的概率预测
.
在回归的情况下,预测的计算是直接可以进行解析计算的,因为相关积分都是高斯分布的。但在分类问题中,非高斯似然使得结果难以计算,后验分布和概率的预测都是无法进行的,所以需要解析逼近,例如拉普拉斯近似算法和期望传播算法。
本文实验中的高斯过程分类,是采用拉普拉斯近似算法。拉普拉斯算法在积分中利用高斯函数
近似后验
。对
最大后验进行二阶泰勒展开,可以得到高斯近似 [17]
,
其中
,
是该点后验负对数的Hessian矩阵。
根据贝叶斯定理,
是潜变量函数的后验分布,其中
与f无关,那么只对分子研究可以得到边际似然函数:
对上式求微分可以得到:
,
,
其中
是对角阵。因为似然函数中的因子(
分布只依赖于
,而不是
)。如果似然函数
是对数凹函数,W的对角元素是非负的,Hessian矩阵是负定的,因此
是凹的且具有唯一最大值。
在找到
的最大后验之后,可以指定后验的后验的拉普拉斯近似为一个高斯函数,其均值和协方差矩阵由
的负逆Hessian给出:
.
3. 图片分解方式
在计算机图像处理中,常采用RGB模型和HSV模型 [20]。RGB模型是基于人类视觉三原色——红(Red)、绿(Green)、蓝(Blue)理论建立的色彩空间,即认为用红、绿、蓝3种色光作适当混合,可以引起电磁光谱上所有任何颜色的感知。RGB空间的颜色是一种加成色,对于三种基色的光,当它们按不同比例混合时,会形成不同颜色。三个成分的值的范围都是0到255,当它们以不同的比例混合时,就可以组合出2563种颜色 [21]。RGB颜色模型是图像处理中最常用的颜色模型,现有的图像采集设备最初采集到的颜色信息是RGB值,图像处理中使用的其他颜色空间也是从RGB颜色空间转换来的 [22]。但RGB颜色空间不直观,从RGB值中很难判断该值所表示的颜色,因此,RGB颜色空间不符合人对颜色的感知心理 [23]。
由于RGB模型中这三色分量高度相关,且是一种不均匀的颜色空间,即两种颜色之间的知觉差异(色差)不能表示为该颜色空间中两点间的距离,所以,它主要是作为一种面向硬件设备(如彩色监视器、彩色摄像机等)的色彩空间模型。
HSV (Hue-Saturation-Value)颜色空间是一种面向视觉感知的颜色模型,人眼的色彩知觉主要包括3个要素:色调、饱和度和亮度。HSV模型是基于人的视觉感知特性建立的色彩空间,其中色度(Hue)表示不同的颜色,如红绿蓝;饱和度(Saturation)表示颜色的深浅,如深绿浅绿;亮度(Value)表示颜色的明暗程度,如很亮(亮白)很暗(黑暗)。它具有两个重要的特点:其一,亮度分量(V)与图像的彩色信息无关;其二,色度分量(H)、饱和度分量(S)与人感受颜色的方式是紧密相连的 [24]。三个分量的值都在0~1之间。HSV颜色空间反映了人观察彩色的方式,同时也有利于图像处理。RGB模型和HSV模型对颜色空间的分解如图1所示。

Figure 1. RGB (left) decomposition model and HSV (right) decomposition model
图1. RGB (左)分解模型和HSV (右)分解模型
4. 小样本下的图片分类
4.1. 二分类
本文图片来源为kaggle网站上的一个数据集,其中包含了10种动物的图片,抽取其中猫狗的部分图片构建二分类问题。实验模拟用Python进行,用到的传统机器学习模型和高斯过程分类模型均可从sklearn库中调用。对于图片读入后的分解方式,应用opencv编写自定义函数,实现图片应用HSV分解和RGB分解后得到不同的特征数据。
每张图片本质上是256*256的矩阵,经过HSV和RGB分解函数后,每张图片会得到一个1*768的向量,即按照H、S、V方向和R、G、B三个方向分解,每个方向会得到256个特征向量。再整合n张图片进行训练,训练数据便是n*768的矩阵。由于特征变量个数太多,会成为高维问题使模型无法训练或者效果不好,加入主成分分析对数据进行降维,保留85%的主成分,既保证了不损失太多信息,又达到了降维和减少变量的目的。采用传统的机器学习分类模型(随机森林、支持向量机、单隐层BP神经网络)与高斯过程分类模型一起训练和测试。最后对每张图片所属类别加上标签,将训练数据和对应标签按照8:2分割成训练集和测试集,保证所有模型训练集数据相同情况下,分别对HSV和RGB分解方式下计算各个模型在测试集数据的准确率,用于区分不同模型的优劣。
首先确定每个类别样本量是均衡的,然后在猫狗各100张图片、总样本量N = 200的基础上,不断缩减样本量为N = 160和N = 120。在N = 200时,按照8:2分割数据集测试集图片是40张,所以保持样本量缩减时测试集图片仍为40张,这样避免因测试集图片数量不同对准确率的影响。实验结果见表1和表2。

Table 1. Accuracy of each model under HSV decomposition
表1. HSV分解方式下各模型准确率

Table 2. Accuracy of each model under RGB decomposition
表2. RGB分解方式下各模型准确率
从表1和表2的结果可以发现:同种分解方式下,随机森林、支持向量机和神经网络模型的效果受样本量的影响很大,其中神经网络模型明显准确率随着样本量增大而提高。高斯过程分类模型的效果一直保持很高的准确率,优于其他模型。而且在同一样本量下,使用HSV分解方式的准确率大部分情况下高于RGB分解方式。
4.2. 多分类
在二分类问题的基础上,引入羊的图片,与猫和狗的图片一起构成多分类问题。研究模式和训练模型仍与二分类时相同。
依然确定每个类别样本量是均衡的,然后以猫、狗、羊各100张图片,总样本量N = 300的基础上,不断缩减样本量N = 240和N = 180。在N = 300时,按照8:2分割数据集测试集图片是60张,保持样本量缩减时测试集图片仍为60张,避免因测试集图片数量不同对准确率的影响。实验结果见表3和表4。

Table 3. Accuracy of each model under HSV decomposition
表3. HSV分解方式下各模型准确率

Table 4. Accuracy of each model under RGB decomposition
表4. RGB分解方式下各模型准确率
从表3和表4的结果可以发现:随着第三类图片的加入,分类问题变得复杂,图片样本也多种多样,各模型准确率相比于二分类均有所下降。HSV分解方式下高斯过程分类模型和神经网络模型效果大致相同,且优于其他模型。RGB分解方式下,各模型均受分解方式的很大影响,准确率明显下降,神经网络模型的准确率仍高于其他模型。固定样本量时,相同模型使用HSV分解方式的准确率高于RGB分解方式。
5. 结论
根据本文的实验结果,当我们再遇到小样本图片分类问题时,可以采用高斯过程分类模型和HSV图片分解方式这样的组合,以便达到较高的模型准确率。我们可以将这样的模式应用于实际生活场景中,例如医学的临床实验、病理推断、稀有动植物、文物鉴定等。根据已有的图片样本进行模型训练和调参,训练出效果较好的模型,再用于鉴别新样本,进行分类。
NOTES
*通讯作者。