1. 引言
互联网蓬勃发展,社交应用如微博、贴吧以及云端计算等提供的一系列功能,让每天上传到互联网的数字化媒体信息汇聚成一个数据海洋。人们在网上需要检索的信息越来越多,查询方式也越加多样。然而这些海量数据通常都是通过文字描述来检索,对图像的检索也是如此。图像检索从最开始是基于文本检索,然而随着大量图片的出现,体现出这一检索方式的缺陷。如图像的描述是人工且存在主观性,将造成检索查询的大量工作量,且效率低下。从而出现了基于内容的图像检索方式。
目前图像检索方法大多都是基于内容,即根据图像所包含的颜色、纹理、形状等特征进行检索,也是迄今非常有效的检索方式。人们对于一张图像最直观的第一印象就是颜色特征,而且某些颜色特征天生具有一定鲁棒性,加上对图像的特征描述简单有效,使之成为广泛的图像检索途径 [1] - [4] 。
本文提出一种综合颜色特征方法,采用了HSV (Hue色调,Saturation饱和度,Value亮度)量化每个分级颜色矩并归一化与该分级颜色的频数计算,将颜色矩和直方图结合。在此还提出一种图像分类方式,利用颜色熵和能量对图像在颜色分布上大体分类进一步扩大差距,最后通过加权图像分块计算两张图像的相似性距离,并以此实现相似图像的检索精度。利用本文提出的颜色矩和图像分类等方法取得很好的实验效果。
2. 颜色空间模型和HSV量化方法
对于颜色,人们最常见的印象就是RGB模型,然而RGB与人类视觉感知有着较大差别,不能用来代表人眼。HSV颜色模型,即用Hue色调,Saturation饱和度,Value亮度来表示颜色,能够较好的模拟人眼视觉。同时RGB转换为HSV的公式简单,因此选用HSV颜色模型 [5] 。利用公式(1)将RGB转换为HSV。

(1)
式(1)中rgb分别是图像上某一点的RGB (红、绿、蓝三基色)颜色值。max,min分别是该点rgb颜色中最大值,最小值。可以看出其h取值已经超出RGB中单色最大值255,这样使之图片维数更大,带来更大数量的运算。所以,对其尽量模拟人眼视觉进行非等间隔量化减少数据量以便于运算。本文量化方式如公式(2)所示。使用公式(3)量化后,使HSV在L上分布,可得最多36级的颜色分级。因为人类对色调较其他两点更敏感,为了符合人眼视觉,加大色调权重,降低饱和度和亮度权重,减少它们对检索的影响 [6] [7] 。
(2)
(3)
3. 图像特征提取
接下来处理分级后的HSV颜色及提取其他特征:计算并线性归一化每一级颜色的颜色矩;引入相同分级颜色的频数,这时归一化的颜色矩可以消除各级颜色值的不同以及颜色矩与频数计算时因颜色矩距离差值范围不同带来的误差;利用颜色信息熵和能量对图像根据整体颜色分布分类,扩大不同类图像之间的距离;最后分割图像综合这些特征进行检索。
3.1. HSV分级颜色矩
图像颜色特征可以有多种表示方法,常见的有颜色直方图,颜色矩,颜色集,颜色聚合向量等。本文选用颜色矩方法,颜色矩的低阶矩中就包含了主要的图像颜色分布信息,由此颜色的一阶矩,二阶矩,三阶矩即可表达图像颜色信息 [8] :
(4)
公式(4)中M·N为图像的尺寸,Pij表示在图像二维坐标(i, j)处量化后得到的HSV像素值。
与传统颜色矩方法不同,本文利用颜色矩思想提取量化HSV各个分级的色矩,用每个分级的颜色矩结合其他特征计算相似性,得到更准确的结果。将所有图像统一缩放为宽为M,高为N。给出公式(5), 式(5)中l是通过式(3) HSV量化后得到的L值,Fl是量化值为l的频数。
,
,
分别为量化值l计算后得到的一,二,三阶颜色矩。
(5)
3.2. 多特征距离
在计算两幅图像的多特征相似性距离之前,先将图像的颜色矩利用公式(6)线性归一化,使两图像每一个阶矩的差值都落在[0,1]范围内。因为要引入频数进行多特征计算,所以要消除各阶矩不同的差值范围带来的误差。然后计算两幅图像P与Q之间的多特征距离,计算公式:
(6)
(7)
(8)
公式(6)中有下标max,min的分别是图像中一、二、三阶矩的最大值和最小值。其中
,
,
分别为一,二,三阶颜色矩归一化后的值。本文考虑到单用颜色矩会因量化分级或其他原因缺少信息而造成一些误差,因此在色矩差外引入频数差,用相同分级HSV值的另一属性扩大两幅图像不同之处的差距,计算如公式(7),式中
,
分别为图形P、Q分级颜色值为l的频数。公式(8)中
分别是一,二,三阶矩的权值。式中带有Pl或Ql下标的即图像P、Q在分级颜色l处的一、二、三阶颜色矩归一化值。
3.3. 图像分类及分类距离
3.3.1. 图像分类
在提取图像纹理特征时用到二维熵和能量等来计算图像的纹理粗细和分布情况 [9] - [11] 。本文通过图像颜色信息熵和能量来计算一幅图像整体颜色分布大体上是集中还是分散。通过这一计算可以过滤很多不需要的图像,使检索结果的图像有相似的颜色分布。
(9)
(10)
其中Pl 为L值(使用公式(3)得出的颜色值l)在图像中出现的几率,然后分别使用公式(9)和公式(10)计算熵和能量值。对于两个阀值
和
,将根据L分级方式不同而变化,对大量图像分析、实验后,本文取
,
时分类效果较好。对于图像Q可以采用公式(11)大致分类。
(11)
E1类图像,大体上认为该图像的颜色数为少量,某几种颜色所占比重较大。A的值很大的同时En越小则说明该图像颜色分化越明显。情况类似证件照之类的图像:背景色单一,背景色或者人物颜色占大部分。好的情况是所检索的图像处于相似的背景色中,坏的情况就是相同物体处于差距大的背景色中。
E2类图像,认为图像颜色数多,不是单调背景色。大体上来说,A的值很小的同时En的值很大,那么说明图像颜色数多构成复杂,如同同时颜色的分布过于均匀就很难抓住主色,以致检索不准确。图像整体类似,图像平移、旋转一些,或者一两个物体平移、旋转可以比较容易的检索出来。
E3时图像时,认为图像颜色数处于前两者之间浮动,但是几种颜色所占比重较均匀。介于第一,二种情况之间,比较复杂。
3.3.2. 图像分类距离
(12)
(13)
公式(12)中F(I)是图像熵的加权函数,Nl是图像颜色量化拥有最大频数的颜色L的频数值,A为图像I面积。公式(13)中求得Dr为图像Q与图像P之间分类距离,W1,W2是两图处于不同分类图像时的权值。
3.4. 图像分块
为了考虑空间信息,利用图像分块方法。如果采用4 × 4或不规则多数量的分块,在处理图像时要考虑图像旋转不变性则无法处理或要花费更多的内存进行计算。通常来讲,一张图像的主要信息包含在图像中心或非常靠近中心位置,在检索图像时应更看重中心,而减少周围环境的影响。本文采用分块方法如图1。
将图像等积划分为N块,每个矩形边长为:
(14)
使用公式(14)求得M和N分别为图像的长和宽。k为图像所标数字。使分块图像的权值Wk由里到外减小,以突出中心位置,减少背景对检索的影响。
3.5. 综合特征距离检索及其结果分析
通过前文对各属性的计算、特征的提取,最后计算两张图像P,Q之间的相似性。先计算两张图每一分块图像之间的相似性,根据不同块赋予不同的权值,加权计算后获得两块图之间的多特征距离,将所有分块的多特征距离相加获得总距离Dc ,计算公式如式(15),然后将其归一化计算得到
。然后计算分类距离Dr ,再对Dr归一化处理得到
(多特征距离和分类距离的归一化公式同式(6),样本比较范围为检索范围),最后使用公式(16)计算出最终距离。
(15)
(16)
Wk 是Q,P第k分块的距离权值,Wc,Wr 分别是归一化的多特征距离和图像分类距离权值。D的值越小表明两图像在该方法的计算下越相似。以此方法实施图像检索,可量化图像的相似程度,并提高图像检索的准确度,验证和分析如下:
图像数据来源Caltech256中的六类,花卉、动物、物品、汽车、星球、烟火。每类包含大约60副图像,加上其他类图像作为干扰共600副。每一类中选取5副检索,然后从选取的动物图像中旋转获得新图像加入检索库中。然后进行共30次检索。每次检索取前20副图像显示。左上角第一张即是距离最近的图像,一般就是被检索的图像。
选取的图像根据公式(11)分类,多数情况下有如下统计:当源图像处于E2 时检索结果比较理想(图2)。
当图像处于E3 (图3)或接近E1类图像时检索结果准确性低于E2类图像检索结果。
当图像处于E1类图像(图4)时,检索结果准确性接近或低于E3类图像的结果。
不难看出,从E2类图像到E3和E1类图像,它们的颜色数明显从多到少。统计发现:E1图像分化明
显,使用色矩很容易被背景干扰。但单调的背景色突出了主体,从而容易提取边界得到形状特征,所以该情况利用形状特征检索效果应该较好。E2类图像颜色多,特征维数多,多数情况使用色矩检索效果好,只是在颜色过于均匀分布的情况下难以分辨主色。E3类图像情况最为复杂,它拥有前两者的综合特征,通过实验,这类图像不同情况有不同最优检索方式。
4. 结论
本文利用量化分级HSV颜色矩结合其他颜色特征计算的维数比传统色矩方法较多,但准确性有了较显著提高。提出利用熵和能量对图像分类,在可以过滤图像的同时再根据分类进行不同检索方式。下一步工作将进一步研究用颜色特征与其他特征结合检索图像,以及更准确的图像分类和对于不同分类的图像使用哪一种或综合方法能得到最精准的检索结果。
基金项目
淮海工学院计算机科学与技术重点学科建设,江苏省重点学科建设项目;高校工程实训基地建设与实践教学质量评估系统的研究与实现,大学生实践创新项目,江苏省级一般项目。