基于自相似结构特征和显著特征深度正交融合的图像检索
Image Retrieval with Deep Orthogonal Fusion of Self-Similarity Descriptor and Salient Features
DOI: 10.12677/mos.2025.142140, PDF, HTML, XML,    科研立项经费支持
作者: 陈 浩, 魏 赟:上海理工大学光电信息与计算机工程学院,上海
关键词: 图像检索自相似结构注意力机制正交融合Image Retrieval Self-Similarity Structure Attention Mechanism Orthogonal Fusion
摘要: 复杂场景下,由于图像内容复杂,细节信息丰富,以致深度学习网络提取的特征难以有效表达图像的重点信息。本文提出了融合正交显著特征和自相似描述符的图像检索模型。设计了自相似结构分支,获得图像局部自相似结构特征,将其编码为紧凑的自相似描述符,以有效描述图像内的结构信息;引入了注意力分支,将特征图中各通道相同位置的像素点作为一个向量,通过范数注意力生成包含显著特征的向量,通过自注意力和交叉注意力得到增强的显著特征。最后,引入了一个正交融合模块,融合结构特征和显著特征,从而得到复杂场景下图像的有效特征。实验证明,通过融合显著特征和结构特征,我们可以很好地提升基于全局表示的图像检索性能。
Abstract: In complex scenes, due to the intricate content and rich details of images, the features extracted by deep learning networks often fail to effectively represent the key information of the image. In this paper, we propose an image retrieval model that integrates orthogonal salient features and self-similarity descriptors. We design a self-similarity structural branch to obtain local self-similarity structural features of the image, which are encoded into compact self-similarity descriptors to effectively describe the structural information within the image. Additionally, an attention branch is introduced, where the pixels at the same position across all channels of the feature map are treated as a vector. Norm-based attention is used to generate a vector containing salient features, and enhanced salient features are obtained through both self-attention and cross-attention mechanisms. Finally, an orthogonal fusion module is introduced to combine the structural features and salient features, resulting in effective features for image retrieval in complex scenes. Experimental results demonstrate that by integrating salient features and structural features, we can significantly improve the performance of image retrieval based on global representations.
文章引用:陈浩, 魏赟. 基于自相似结构特征和显著特征深度正交融合的图像检索[J]. 建模与仿真, 2025, 14(2): 157-170. https://doi.org/10.12677/mos.2025.142140

1. 引言

随着互联网上图像数据的日益增多,如何检索图像以及对图像中的信息进行挖掘成为人们日常生活中的新需求。学者们认为,图像中蕴含的信息可以分为两种:全局特征[1]-[3]和局部特征[4] [5]。全局特征对整个图像进行了抽象和概括,能够反映图像的整体特征和语义信息。全局特征的提取和计算简单快速,能够减小图像中噪声和局部变化等因素对检索结果的影响[6]。局部特征是指图像中具有显著性的局部区域所具有的特征,如局部纹理、形状等信息。在复杂场景中关注局部特征,能应对图像的各种变换和扭曲,更精确地区分不同对象和场景[1]

近年来,学者们开始关注两种特征结合的检索模型。Cao等人[4]先利用全局特征进行初步检索,再用局部特征进行重排序,通过全局特征、检测到的关键点和局部描述符来进行有效推理。Yang等人[7]提出首先利用多尺度空洞卷积和自注意力提取有代表性的局部特征,然后从局部特征中提取与全局特征正交的分量,最后,将正交分量与全局特征进行串联,进行聚合以生成最终特征表示。通过端到端联合训练局部特征和全局特征的方法,实现了有效的单阶段图像检索。Zhang等人[8]则将局部空间上下文信息嵌入到全局特征表示中,通过将视觉和空间上下文信息融合在一起,学习图像的空间–上下文感知的全局特征进行检索。以上全局和局部特征结合的方法,可获取更加丰富的图像特征,但仍存在局部特征不明确以及信息冗余等问题。由于图像类别繁多且内容复杂,图像的重要特征往往容易受其他特征的干扰,这导致了对图像的准确区分变得困难。人类在进行图像检索时往往会更关注图像中的显著特征,如主题对象、明亮区域或与周围环境明显不同的区域,模仿这种习惯可以帮助检索系统快速定位图像中的重要信息,更好地区分和识别图像中的主要对象或区域,从而提高检索的鲁棒性和适应性。此外,图像的几何结构信息也非常丰富,其结构特征可以在不同的颜色和微小特征位置变化下保持相对稳定。

图像的局部特征中,几何结构信息能够定位图像中的重要区域,如角点、边缘等,在图像配准和匹配任务中,可有效的增加图像的可理解性[9]。自相似描述符是用于表示图像中几何结构特征的一种紧凑描述符,通过衡量局部区域的自相似性,用以描述图像的几何信息[10]。与局部自相似结构不同,Deselaers等人[11]提出了一种全局自相似结构,该结构通过识别图像中的关键区域或特征来增强检索的精确度。Fan等人[12]则在多模态遥感图像匹配任务中结合了相位一致性(和自相似性特征,取得了显著的实验效果。然而,值得注意的是,上述两种自相似结构特征均是通过手工提取的方式获得的。手工提取的特征难以捕捉复杂的数据模式和结构,并且缺乏通用性[13]。随着深度学习的进步,最近的方法[2] [14] [15]则从CNN的中间特征图中提取自相似描述符,以实现对图像语义信息的更精确表达,进一步推动了相关领域的研究和发展。

全局特征关注图像的整体语义信息,在图像检索中可提供整体的稳定性。显著特征能在图像中引起人类视觉系统的注意,对于图像的整体理解和检索具有重要意义。因此,很多学者在卷积神经网络CNN中引入了注意力机制,以突出图像中的显著特征[16]-[18]。Woo等人[19]提出了卷积注意力模块(Convolutional Block Attention Module, CBAM),CBAM在通道注意力的基础上,加上空间注意力,将注意力权重与输入的特征图相乘来进行特征的自适应学习。Dosovitskiy等人[20]提出的Vision Transformer则完全基于注意力机制,通过引入多头自注意力机制,将图像划分为固定数量的图像块,并展平为序列作为Transformer的输入,对包含显著信息的特征进行信息提取。Song等人[21]则从Transformer编码器中收集全局特征和局部特征,证明了结合卷积神经网络与Transformer的混合网络结构提取的显著特征比只使用Transformer的图像检索方法更有效。尽管基于Transformer的方法在某些应用中表现出色,但其复杂度高、计算量大,且对空间信息的捕捉能力不足[22]。相比之下,基于卷积神经网络(CNN)的方法通过局部连接和权重共享显著提升了计算效率,降低了复杂度,并且能高效地捕捉图像中的局部和全局空间特征,在处理具有空间结构的图像数据时具有明显优势[23]

全局特征和局部特征结合的模型可以提供更全面、更丰富的信息表示,两者融合可以有效提高检索效率。基于此,本文设计了一个综合显著特征和几何结构信息的图像检索模型。采用CNN提取图像特征,分别得到注意力分支提取全局显著特征,自相似分支提取局部特征,正交融合模块完成两种特征的融合。

本文的主要贡献如下:

(1) 我们提出了一个模型来提取几何结构特征和显著特征用于图像检索,称为DOSS (Deep Orthogonal Self-Similarity Structural and Salient Features)。利用注意力分支获取全局图像显著特征,利用自相似分支获取局部几何结构特征。为降低冗余性,利用正交融合模块来实现特征融合。

(2) 为捕捉图像中的结构信息,设计了自相似分支提取图像几何结构信息。使用余弦相似度进行自相似度计算,并将高维自相似结构特征编码为紧凑的自相似描述符。

(3) 模拟人类检索习惯,设计了基于注意力机制的显著特征提取分支。将特征图中各通道所处同一位置的像素点作为一个向量,通过范数注意力生成具有显著信息的向量,再通过自注意力和交叉注意力进一步得到增强的显著特征。

2. 相关研究

自相似描述符:随着深度学习的快速发展,学者们正致力于研究如何从CNN提取的特征图中提取自相似描述符,以提高其鲁棒性。Kang等人[24]采用了自相关表示模块和交叉相关注意力模块用于捕捉图像结构特征,有效地提高了小样本图像分类的准确性。Ye等人[25]提出了一种全新的无监督方法,利用图像内部的自相似特征进行对比学习,能够自动检测并剔除图像中的雨雾伪影。Wu等人[26]提出的行人重识别方法使用自相似学习来提高所学度量对新样本的适应性,而Pang等人[27]则提出了自相似引导的概率嵌入匹配方法用于解决人员遮挡引起的Re-ID问题。在图像检索任务中,Lee等人[2]从CNN的中间特征图中提取自相似描述符,使用自相似模块计算自相似性,使用自相似编码器模块对其进行编码,采用像素级的自相似描述符,并通过特征融合模块将这些描述符与原始特征图相融合,从而使得视觉和结构信息能够很好地汇聚到全局特征中,取得了较好的结果。在本文中,受到先前工作的启发,我们提出了一种基于余弦相似度的通道级自相似度计算方法,用于从CNN提取的特征图中提取丰富的几何结构信息,并将高维自相似结构特征编码为紧凑的自相似描述符。

注意力机制:注意力机制经常被用于促进在复杂场景下特征表达能力的提高。Chen等人[28]引入残差通道注意力模块、局部自注意力模块和Transformer,从各个方向挖掘草图和图像的细粒度细节用于草图-图像检索,而Zhu等人[29]则提出了一种新颖的域感知双重注意力网络,该网络基于先验知识强调了不同通道和空间的重要性,在零样本草图图像检索上取得了较好的效果。为了捕捉图像的显著特征,Hou等人[30]在ResNet50的每个残差块中嵌入了三元注意力模块,通过空间和通道的跨维度交互,自适应地学习更具判别性的空间和通道信息,从而在参数更少的情况下实现了更好的检索性能。Song等人[31]提出了一种基于空间注意力和通道注意力的模块,用于同时提取图像的局部特征和全局特征,有效地提取了图像中的局部细节和全局信息。Wu等人[5]提出了一种基于CNN的图像检索方法,通过向量模块将提取的局部特征聚合成视觉向量,并引入了一个细化模块来使用自注意力和交叉注意力增强视觉向量,生成紧凑的全局表示。在本文中,我们将提取的特征图中各通道所处同一位置的像素点作为一个向量,经过范数注意力得到初步的显著特征,再引入多头注意力机制捕获特征的长距离依赖,进一步,在原始特征图和多头注意力输出的特征图上使用交叉注意力来得到最终的显著特征。

3. 本文方法

我们选用ResNet-50 (R50)和ResNet-101 (R101)作为骨干网络,因其能有效解决传统CNN深度增加所带来的梯度消失、梯度爆炸等问题,加快网络收敛速度。CNN提取的特征包含丰富的语义信息,如颜色、纹理等,具有强大的迁移学习能力和网络鲁棒性。在我们的框架中,在ResNet提取的特征图上,建立了一个注意力分支和一个自相似分支。在注意力分支中,特征图通过范数注意力、自相似注意力和交叉注意力得到显著特征。自相似分支计算自相似度,并编码高维自相似结构特征为紧凑自相似描述符。最后,通过正交融合模块融合显著特征和自相似描述符,生成能同时表示图像显著特征和几何特征的图像特征,如图1所示。

Figure 1. Overall network structure framework

1. 网络整体结构图

2.1. 自相似分支

ResNet提取的基本特征表示 F R C×H×W ,通过线性层减少特征图通道数以降低计算复杂度,得到特征图 F R C×H×W ,在特征图 F 中,针对每个像素位置x和周围大小为P × P的邻域 F ( N( x ) ) ,其中特征图的边缘像素点附近区域用零进行填充,使用余弦相似度计算通道非负自相似度:

S( c,x,d )=max( 0, F ( c,x ) F ( c,x+d ) F ( c,x ) F'( c,x+d ) ) (1)

其中 S R C×H×W×P×P c[ 1, C ] 是特征图通道索引, d[ d p , d p ]×[ d p , d p ] 是像素x在周围尺寸为 P×P 区域的相对位置,其中 d p = ( P1 )/2 。由于S维度过大,为了提高计算效率,提出了一个由 3×3 卷积、批归一化层和ReLU函数组成的卷积块,沿着 P×P 维通过卷积块逐渐将S编码为紧凑自相似描述符 F d R C×H×W

2.2. 注意力分支

2.2.1. 范数注意力

图像中蕴含着丰富的信息,关注重要特征可以减少噪声干扰和计算量。我们将每个通道相同位置的元素看作一个向量,得到向量组 V n ,通过计算这些向量组的L1范数和L2范数得到两个特征图FL1FL2。处理流程如图2所示。计算方法为:

F L1 i = i=1 n | V i | (2)

F L2 i = i=1 n | V i 2 | (3)

F L1 i F L2 i 分别代表第 i 个向量Vi的L1范数和L2范数。范数L1和范数L2分别表示向量的绝对值和平方和的开方,用于衡量向量的大小和重要性。为了进一步提取图像中的显著信息,通过串联的方式连接 F L1 i F L2 i 这两个特征图,并进行卷积操作以捕获特征图中的重要空间关系,从而更好理解图像内容。在捕获到显著的空间信息之后,使用sigmoid函数对这些信息进行加权处理得到权重信息。计算方法为:

W=sigmoid( conv1×1( F L1 ; F L2 ) ) (4)

最后,将权重信息与特征图相乘得到所需的具有显著信息的向量组 T=[ t ( 1 ) , t ( 2 ) , t ( 3 ) ,, t ( L ) ] R L×C ,其中L代表向量的个数,C代表向量的维度。

Figure 2. Norm attention module

2. 范数注意力模块

2.2.2. 自注意力

图像中的信息具有一定相关性,通过自注意力机制,模型可对不同向量之间的关系进行挖掘,产生一组具有关系感知的向量。多头注意力是自注意力机制的一种扩展形式,通过使用不同的投影矩阵将原始向量映射到不同的子空间,每个子空间都有自己的头用于计算相似度,为了能够更全面地考虑不同方面的语义相关性,我们使用多头注意力计算相似度S。在多头注意力中,首先将向量组T映射到查询( Q s R L×C ),键( K s R L×C )和值( V s R L×C ),由公式:

S( Q s , K s )=SOFTMAX( Q s K s T C ) R L×L (5)

计算每个头的 S ( i ) R L×L 用于聚合语义相关的向量。然后,多头注意力通过可学习投影矩阵 W M R C×C 连接和融合不同头的输出,使多头注意力能够综合多种语义信息,生成更全面的特征表示。具体而言:

T s ( i ) =DROPOUT( S ( i ) V s ( i ) ),for i=1,2,,N, (6)

T S =CONCAT( T s ( 1 ) , T s ( 2 ) ,, T s ( N ) ) W M , (7)

其中N是头数, T s ( i ) 是第 i 个头的输出。最后,通过层正则化将 T s 归一化并添加到原始T中以生成关系感知的向量:

T r =T+LAYERNORM( T s ). (8)

2.2.3. 交叉注意力

为了进一步增强现有的向量组,参照[5]中的方法,使用交叉注意力从F中提取特征。如图1所示,首先将向量组平铺成序列 [ f c 1 , f c 2 ,, f c HW ] R HW×C 。然后,通过全连接层将 T r 映射到查询向量( Q C R L×C ),同时将向量组分别映射到键( K C R HW×C )和值( V C R HW×C )。 T r 与原始向量组特征之间的相似度计算为:

S( Q C , K C )=SOFTMAX( Q c K c T c ) R L×HW (9)

同样使用MHA来计算相似度,相似度 S i,j 表示F中第j个向量f j C分配给向量组中第 i 个向量的概率。然后,将 F C S的加权和添加到 T r 中以生成更新的向量组:

T C =DROPOUT( S V C ), (10)

T update = T r +LAYERNORM( T C ) (11)

我们将不同的向量 T update 连接成一个全局描述符 Fg ,并通过全连接层将其维数降为d

Fg=CONCAT( t update ( 1 ) , t update ( 2 ) ,, t update ( L ) )Wg, (12)

其中 Wg FC层的权值。

2.3. 特征融合模块

自相似描述符突出图像几何结构特征,而注意力分支捕获整体显著特征,为了获得代表性的图像特征,我们需要综合利用结构特征和显著特征。然而,简单地将自相似描述符和显著特征串联会导致信息冗余,并降低它们之间的相关性。为了有效融合显著特征和结构特征,我们采用正交融合模块,通过计算自相似结构特征相对于显著特征的正交分量,并将其与显著特征合并,从而得到有代表性的图像描述符。该模块的工作流程如图3所示,图4所示为计算 F d 在全局特征 F g 上的投影以及提取与 F g 正交的分量。它将 F d F g 作为输入,然后计算 F d 在全局特征 F g 上的投影 F d,proj ,其公式为:

Figure 3. Orthogonal fusion module

3. 正交融合模块

Figure 4. The projection of geometric structural features onto global features and the components orthogonal to the global features are displayed

4. 几何结构特征在全局特征上的投影以及与全局特征正交的分量展示

F d,proj = Fd F g | Fg | 2 F g , (13)

其中 F d F g 为点积运算, | F g | 2 F g 的L2范数。

正交分量是结构特征与其投影向量的差,因此,我们可以得到与 F g 正交的分量,计算过程如下:

F d,orth = F d F d,proj (14)

之后,我们将该张量与向量 F g 串联,然后将新张量聚合为 C O ×1 向量。最后,使用一个完全连接的层来生成512 × 1张量作为最终的特征结果。在这个过程中,显著特征的冗余信息进一步被消除,结构信息和显著特征相互增强,从而得到具有代表性的描述符。

2.4. 损失函数

分类损失函数:对于分类损失,仿照[2]中的方法,我们采用带有CurricularFace margin的余弦分类器。分类损失 L cls 的定义为:

L cls =log exp( M( W y( z ) T z,1 )/T ) c=1 N exp( M( W c T z, I y( z ) i )/T ) (15)

其中 y( z ) z的真实标签, W c 是余弦分类器的第c个权重,T是温度参数, I y( z ) i 是标签索引i y( z ) 是否相同的独热指示。M是将curricular margin添加到输入的函数:

M( s,1 )={ cos( arccos( s )+m ),  if I=1 s,                               if I=0,s<t,  s( t+s ),                     if I=0,s>t (16)

其中m是边距值,t是查询-正样本对数值的移动平均。

对比损失函数:对于对比损失,仿照[14]中的方法,我们采用基于MoCo风格的对比损失,并结合 CurricularFace边距。定义为:

L con =  E pP( z ) log exp( M( d p T z,1 )/t ) i{ p,N( z ) } exp( M( d i T z, I y( z ) y( d i ) )/t ) (17)

其中di是队列内的第i个嵌入,PN分别是与队列中嵌入z存在正向或负向关系的样本的索引集合。所有其他符号和参数与分类损失Lcls中的相同,但它们与 L cls 中的参数是独立更新的。

总损失函数:我们提出的网络的最终损失函数要么只使用分类损失 L cls ,要么同时使用分类损失 L cls 和对比损失 L con ,即 L T =α L cls +( 1α ) L con ,其中 α 是权重参数。

3. 实验及结果分析

3.1. 数据集和评估指标

Google Landmark v2 clean数据集(GLDv2-clean)包含81,313个地标类别的1,580,470张图像,在现有方法中被广泛用作训练数据集。为了评估我们的模型,使用了两个广泛使用的benchmark数据集Roxford和RParis来测试我们的模型。ROxf数据集和RPar数据集分别有4993张和6322张图片,每个数据集包含70张查询图片。ImageNet包含超过1200万张图像和1000种类别,Mini-Imagenet数据集从中选取了100个类别,每个类别包含600张图片,共60000张,但图像的大小并不固定,由于其规模适中,这个数据集用来训练模型。在实验过程中,本文采用在GLDv2-clean数据集上预训练的ResNet50或ResNet101模型,将其参数迁移到本文网络模型中,随后,利用Mini-Imagenet数据集对模型在原有参数的基础上进行微调,并将已完成训练的模型应用于测试数据集来验证模型的有效性。在评估模型性能时,采用平均检索准确率(mean Average Precision, mAP)这个指标,mAP代表了模型在所有可能的查询组合中,能够准确检索到目标图片的比率,mAP的值越高,说明模型的查询结果越准确。

3.2. 实验细节

本文主要针对图像检索问题提出了一种方法,为了验证该方法的有效性,进行了一系列实验。所有实验通过Pytorch框架实现,GPU为RTX3060,训练时随机划分80%的数据集用于训练,剩下的20%用于验证。为公平比较,采用相同数据集进行实验。对于训练数据集,通过随机裁剪和扭曲纵横比进行增强,将所有图像归一化到512 × 512像素。批处理大小为128,训练轮数为50,使用动量为0.9的随机梯度下降优化器,初始学习率为0.05,权重衰减因子为0.0001,对于学习率的调整,使用余弦学习率衰减策略。对于ArcFace中的边缘损失(margin loss),本文将m设置为0.15,𝛾设置为30。对于GeM池化,参数p设置为3.0。

3.3. 与其它方法的比较

为了验证本文方法的检索性能,与其它几种检索方法进行比较,包括DELG [4]、Token [5]、SENet [2]、SOLAR [3]、DOLG [7]等,括号内的*、*、#分别代表GLDv2-clean、GLDv1、SfM-120k训练数据集。根据图像检索方法采用图像特征的不同,将检索方法分为两类,其中,How-VLAD [32]、How-ASMK [33]和SENet等是采用局部特征聚合的检索方法,GeM-ArcFace [34]、DELG、DOLG、SOLAR和Token是采用全局特征检索的方法。

表1展示了本文方法与其它图像检索方法在ROxf和RPar数据集上的mAP。A) 对于局部特征聚合方法,我们提出的方法显示出比使用经典方法如VLAD或ASMK更好的整体性能。当前最先进的局部特征聚合方法是R101-SENet,在使用相同的损失函数和骨干网络时,在ROxf数据集上,我们在Medium和Hard上的mAP分别高出R101-SENet 4.9%和2.8%,在RPar数据集上,我们在Medium和Hard上的mAP性能分别高出4.7%和6.0%。由于全局显著特征能够反映图像的整体信息,因此,我们融合显著特征和局部几何结构特征的方法优于现有的仅聚合局部特征的方法。B) 全局特征检索方法当使用ResNet101作为主干时,我们的方法与其它结果最好的方法在ROxf数据集上的mAP对比值分别为87.1% VS. 82.3%,68.8% VS. 66.0%,在RPar数据集上的对比值分别为96.4% VS. 89.7%,88.8% VS. 78.6%。局部几何结构特征能够更精确地区分不同对象和场景,因此,将全局显著特征与局部几何结构特征相融合有力地证明了我们网络模型的优越性。在加入1M干扰样本后,我们的方法仍然显示出良好的检索性能。从这些结果可以看出,注意力模块能够聚焦显著区域,自相似结构模块能够提取图像中丰富的几何结构特征,同时也验证了特征融合模块构建的必要性。

Table 1. Comparison of mAP between this paper’s method and other image retrieval methods

1. 本文与其他图像检索方法的mAP对比

method

Loss

Medium

Hard

L cls

L con

ROxf

+1M

RPar

+1M

ROxf

+1M

RPar

+1M

局部特征聚合

R101-How-VLAD (*)

73.5

60.4

82.3

62.6

51.9

33.2

66.9

41.8

R101-How-ASMK (*)

80.4

70.2

85.4

68.8

62.5

45.4

70.8

45.4

R50-FIRe-ASMK (#)

81.8

66.5

85.3

67.6

61.2

40.1

70.0

42.9

R50-MDA-ASMK (#)

81.8

68.7

83.3

64.7

62.2

45.3

66.2

38.9

R50-SENet (*)

81.4

72.9

90.5

79.0

62.3

48.7

80.3

59.9

R50-SENet (*)

81.9

74.2

90.0

79.1

63.0

52.0

78.1

59.9

R101-SENet (*)

80.0

72.5

91.6

82.1

61.7

49.2

82.2

64.6

R101-SENet (*)

82.2

76.1

91.7

83.6

66.0

55.7

82.8

67.8

全局特征

R101-GeM-ArcFace (*)

74.2

-

84.9

-

51.6

-

70.3

-

R50-DELG (*)

73.6

60.6

85.7

68.6

51.0

32.7

71.5

44.4

R101-DELG (*)

76.3

63.7

86.6

70.6

55.6

37.5

72.4

46.9

R50-DOLG (*)

78.6

68.9

87.5

76.7

58.2

44.1

73.7

56.2

续表

R101-DOLG (*)

79.5

72.1

89.7

80.3

59.5

47.8

78.1

61.5

R101-SOLAR (*)

69.9

53.5

81.6

59.2

47.9

29.9

65.5

33.4

R101-SOLAR (*)

79.7

67.6

88.6

73.7

60.9

41.8

76.2

51.5

R50-Token (*)

80.5

68.3

87.6

73.9

62.1

43.4

73.8

53.3

R101-Token (*)

82.3

70.5

89.3

76.7

66.6

47.3

78.6

55.9

Ours

R50-DOSS (*)

83.1

74.2

93.8

83.5

64.5

50.4

84.6

65.6

R50-DOSS (*)

84.3

75.1

92.6

85.4

65.3

51.4

83.2

66.3

R101-DOSS (*)

85.4

77.1

95.8

86.3

66.6

52.1

86.2

67.1

R101-DOSS (*)

87.1

79.5

96.4

88.2

68.8

53.7

88.8

68.3

图5为本文方法部分查询图像的检索结果,每一行代表一组样本查询,第1列是查询图像,其它10列是前10个检索结果,绿框和红框分别表示正样本和负样本,图像里面的绿色实线表示正样本区域与查询图像重叠的部分。从图5上可以看出,最先进的全局特征方法会导致与查询图片相似的错误匹配。实验证明,由于我们的模型结合了图像结构信息和显著信息,因此,本文方法能够提高检索结果的排序质量,同时返回高相似的结果。

Figure 5. Among the top ten results, the first five images are all correct

5. 前十个检索结果,前五个图像均正确

计算开销

通过实验将本文方法与其它算法在特征提取时间、检索时间和内存占用上进行对比,结果如表2所示。相较于局部特征提取方式,全局特征的提取速度更快,因为局部特征的提取通常需要将图像缩放到更多的尺度,并且进行聚合,这比直接池化慢。以我们的方法为例,特征提取时间是126 ms,而R101-DELG是109 ms。我们方法的平均检索时间为0.2238秒,在上述方法中最低,这证明了我们的方法在实时图像检索方面的潜力。但在ROxford上的内存占用较高。

Table 2. Computational overhead comparison of the methods

2. 图像特征提取时间、图像检索时间和内存占用对比

Method

Extraction (MS)

Retrieva (S)

Mem. (MB) On ROxford

DELG

109

0.4189

39.0

DOLG

120

0.3274

9.7

Token

125

0.2871

19.5

SENet

132

0.3104

34.5

Ours

126

0.2238

30.8

3.4. 消融实验

不同部分模块的验证表3中的实验数据证实了我们在基准模型中逐步加入自相似分支、注意力分支和正交融合模块的效果。当加入自相似结构特征模块时,总体性能会有显著提高,Roxf-Medium的mAP从79.4%增加到81.2%,Roxf-Hard的mAP从60.1%增加到62.5%,这说明自相似结构模块能够有效提取图像几何结构特征,增强图像特征表达能力。当引入注意力模块时,性能进一步提高,Rpar-Medium的mAP从90.8%增加到91.5%,Rpar-Hard的mAP从80.6%增加到81.7%,这说明注意力模块提取的特征比直接使用全局池化方法得到的特征更有效。值得注意的是,当引入正交特征融合模块时,性能再度提升,这表明特征融合模块增强了图像结构特征和显著特征的融合,更准确地刻画了图像的特征。

Table 3. Ablation studies of different components

3. 不同模块的消融实验

Self-Similarity

Attention

Orthogonal Fusion

Medium

Hard

ROxf

RPar

ROxf

RPar

79.4

90.2

60.1

78.9

81.2

90.8

62.5

80.6

82.4

91.5

63.6

81.7

82.7

92.2

63.8

82.9

83.1

93.8

64.5

84.6

自相似结构分支中各个部分的作用 在自相似结构分支中,针对哪些层可以有效提取结构信息进行了研究,实验结果如表4所示,尽管conv5层输出特征的分辨率低于conv4层,但conv5层在捕捉结构信息的能力上超越了conv4层,因此,我们使用conv5层的中间特征图来提取自相似结构特征。进一步分析自相似区域大小p的影响,结果如表5所示,在RParis基准中的性能在较大区域更好,而ROxford基准中的性能在较小的区域中更好,我们认为这是由于基准图像的尺度差异造成的。最后,我们选择P = 7。

Table 4. Ablation experiments on the input feature layer

4. 输入特征层的消融实验

Model

Medium

Hard

ROxf

+1M

RPar

+1M

ROxf

+1M

RPar

+1M

baseline

79.4

71.8

90.2

78.9

60.1

45.2

78.9

58.6

Conv4

79.6

72.8

91.3

79.7

60.9

46.4

79.3

59.8

Conv5

83.1

74.2

93.8

83.5

64.5

50.4

84.6

65.6

Table 5. Ablation experiments on self-similarity region size P

5. 自相似性区域大小P的消融实验

Model

Medium

Hard

ROxf

RPar

ROxf

RPar

baseline

79.4

71.8

90.2

78.9

60.1

45.2

78.9

58.6

P = 5

80.2

72.3

92.2

82.5

63.5

47.9

80.2

60.1

P = 7

83.1

74.2

93.8

83.5

64.5

50.4

84.6

65.6

P = 9

80.4

72.5

91.8

82.3

62.7

48.2

81.4

61.3

注意力分支中各个组件的作用表6所示,不同组件在注意力模块中的作用。通过去除单独的组件,我们发现,在建模不同视觉向量之间的关系,并利用原始局部特征进一步增强视觉向量后,能够有效提升融合特征的表现。

Table 6. Analysis of components in the refinement block

6. 注意力分支模块中各个组件的分析

Self-att

Cross-att

Medium

Hard

ROxf

RPar

ROxf

RPar

79.4

90.2

60.1

78.9

81.2

90.8

62.5

80.6

82.4

91.5

63.6

81.7

83.1

93.8

64.5

84.6

特征融合模块 仿照[7]中的方法,在正交融合模块中,为了证明这种正交融合是一种更好的选择,我们在实验中去掉了如图3所示的正交分解过程,简单地直接将 F d F g 拼接起来,还尝试用Hadamard积融合 F d F g 。实验结果显示,正交融合策略在所有特征融合策略中展现出显著的优势。通过正交融合,从结构特征 F d 中排除与全局显著特征 F g 相关的冗余信息,通过这个操作,确保输出的结构特征不仅信息丰富,而且与 F g 呈正交关系,如表7。这样的设计使得这些信息能够提供互为补充的信息,从而更精确地刻画图像的复杂特征。

Table 7. Comparison of orthogonal fusion with other fusion strategies

7. 正交融合与其它融合策略的比较

方法

Roxf

Rpar

E

M

H

E

M

H

Concatenation

80.4

73.8

60.2

89.9

89.1

83.2

Hadamard

85.2

79.3

62.2

91.5

92.5

83.9

orthogonal

88.7

83.1

64.5

96.4

93.8

84.6

4. 结论

本文提出了一种基于正交显著特征和自相似描述符融合的图像检索方法。图像的内部结构特征可以很好地反应图像结构信息,显著特征可以获得图像重要的语义信息,还提出了正交特征融合模块,将结构特征与显著特征进行融合。实验结果显示,与许多现有方法相比,我们提出的方法能更好地表达内容复杂的图像,并获得更好的检索结果。未来,我们将继续改进方法,探索将其它类型的信息互相进行融合,以适应更多复杂场景下的图像检索需求。

基金项目

国家重点研发计划项目(2021YFF0600605)资助。

参考文献

[1] Noh, H., Araujo, A., Sim, J., Weyand, T. and Han, B. (2017) Large-Scale Image Retrieval with Attentive Deep Local Features. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 3476-3485.
https://doi.org/10.1109/iccv.2017.374
[2] Lee, S., Lee, S., Seong, H. and Kim, E. (2023) Revisiting Self-Similarity: Structural Embedding for Image Retrieval. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 23412-23421.
https://doi.org/10.1109/cvpr52729.2023.02242
[3] Ng, T., et al. (2020) SOLAR: Second-Order Loss and Attention for Image Retrieval. Computer Vision-ECCV 2020: 16th European Conference, Glasgow, 23-28 August 2020, 253-270.
https://doi.org/10.1007/978-3-030-58595-2_16
[4] Cao, B.Y., Araujo, A. and Sim, J. (2020) Unifying Deep Local and Global Features for Image Search. Computer Vision-ECCV 2020: 16th European Conference, Glasgow, 23-28 August 2020, 726-743.
https://doi.org/10.1007/978-3-030-58565-5_43
[5] Wu, H., Wang, M., Zhou, W., Hu, Y. and Li, H. (2022) Learning Token-Based Representation for Image Retrieval. Proceedings of the AAAI Conference on Artificial Intelligence, 36, 2703-2711.
https://doi.org/10.1609/aaai.v36i3.20173
[6] Shao, S., Chen, K., Karpur, A., Cui, Q., Araujo, A. and Cao, B. (2023) Global Features Are All You Need for Image Retrieval and Reranking. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, 1-6 October 2023, 11002-11012.
https://doi.org/10.1109/iccv51070.2023.01013
[7] Yang, M., He, D., Fan, M., Shi, B., Xue, X., Li, F., et al. (2021) DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 11752-11761.
https://doi.org/10.1109/iccv48922.2021.01156
[8] Zhang, Z., Wang, L., Zhou, L. and Koniusz, P. (2023) Learning Spatial-Context-Aware Global Visual Feature Representation for Instance Image Retrieval. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), Paris, 1-6 October 2023, 11216-11225.
https://doi.org/10.1109/iccv51070.2023.01033
[9] Kwon, H., Kim, M., Kwak, S. and Cho, M. (2021) Learning Self-Similarity in Space and Time as Generalized Motion for Video Action Recognition. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 13045-13055.
https://doi.org/10.1109/iccv48922.2021.01282
[10] Shechtman, E. and Irani, M. (2007) Matching Local Self-Similarities across Images and Videos. 2007 IEEE Conference on Computer Vision and Pattern Recognition, Minneapolis, 17-22 June 2007, 1-8.
https://doi.org/10.1109/cvpr.2007.383198
[11] Deselaers, T. and Ferrari, V. (2010) Global and Efficient Self-Similarity for Object Classification and Detection. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, 13-18 June 2010, 1633-1640.
https://doi.org/10.1109/cvpr.2010.5539775
[12] Fan, J., Xiong, Q., Ye, Y. and Li, J. (2023) Combining Phase Congruency and Self-Similarity Features for Multimodal Remote Sensing Image Matching. IEEE Geoscience and Remote Sensing Letters, 20, 1-5.
https://doi.org/10.1109/lgrs.2023.3239191
[13] Ma, J., Jiang, X., Fan, A., Jiang, J. and Yan, J. (2020) Image Matching from Handcrafted to Deep Features: A Survey. International Journal of Computer Vision, 129, 23-79.
https://doi.org/10.1007/s11263-020-01359-2
[14] Song, T., Kim, S. and Sohn, K. (2023) Unsupervised Deep Asymmetric Stereo Matching with Spatially-Adaptive Self-similarity. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 13672-13680.
https://doi.org/10.1109/cvpr52729.2023.01314
[15] Wang, H., Zhang, R., Feng, M., Liu, Y. and Yang, G. (2023) Global Context-Based Self-Similarity Feature Augmentation and Bidirectional Feature Fusion for Surface Defect Detection. IEEE Transactions on Instrumentation and Measurement, 72, 1-12.
https://doi.org/10.1109/tim.2023.3309374
[16] Hu, Z. and Bors, A.G. (2023) Co-attention Enabled Content-Based Image Retrieval. Neural Networks, 164, 245-263.
https://doi.org/10.1016/j.neunet.2023.04.009
[17] Zhang, J., Xia, K., Huang, Z., Wang, S. and Akindele, R.G. (2023) ETAM: Ensemble Transformer with Attention Modules for Detection of Small Objects. Expert Systems with Applications, 224, Article ID: 119997.
https://doi.org/10.1016/j.eswa.2023.119997
[18] Zhou, Q., Shi, H., Xiang, W., Kang, B. and Latecki, L.J. (2024) DPNet: Dual-Path Network for Real-Time Object Detection with Lightweight Attention. IEEE Transactions on Neural Networks and Learning Systems, 1-15.
https://doi.org/10.1109/tnnls.2024.3376563
[19] Woo, S., Park, J., Lee, J. and Kweon, I.S. (2018) CBAM: Convolutional Block Attention Module. Computer VisionECCV, Munich, 8-14 September 2018, 3-19.
https://doi.org/10.1007/978-3-030-01234-2_1
[20] Dosovitskiy, A., et al. (2020) An Image Is Worth 16 x 16 Words: Transformers for Image Recognition at Scale.
[21] Song, C.H., Yoon, J., Choi, S. and Avrithis, Y. (2023) Boosting Vision Transformers for Image Retrieval. 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, 2-7 January 2023, 107-117.
https://doi.org/10.1109/wacv56688.2023.00019
[22] Zhou, Z., Li, G. and Wang, G. (2023) A Hybrid of Transformer and CNN for Efficient Single Image Super-Resolution via Multi-Level Distillation. Displays, 76, Article ID: 102352.
https://doi.org/10.1016/j.displa.2022.102352
[23] Yuan, F., Zhang, Z. and Fang, Z. (2023) An Effective CNN and Transformer Complementary Network for Medical Image Segmentation. Pattern Recognition, 136, Article ID: 109228.
https://doi.org/10.1016/j.patcog.2022.109228
[24] Kang, D., Kwon, H., Min, J. and Cho, M. (2021) Relational Embedding for Few-Shot Classification. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 8802-8813.
https://doi.org/10.1109/iccv48922.2021.00870
[25] Ye, Y., Yu, C., Chang, Y., Zhu, L., Zhao, X., Yan, L., et al. (2022) Unsupervised Deraining: Where Contrastive Learning Meets Self-Similarity. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 5811-5820.
https://doi.org/10.1109/cvpr52688.2022.00573
[26] Wu, L., Liu, D., Zhang, W., Chen, D., Ge, Z., Boussaid, F., et al. (2022) Pseudo-pair Based Self-Similarity Learning for Unsupervised Person Re-identification. IEEE Transactions on Image Processing, 31, 4803-4816.
https://doi.org/10.1109/tip.2022.3186746
[27] Pang, Y., Zhang, H., Zhu, L., Liu, D. and Liu, L. (2024) Self-Similarity Guided Probabilistic Embedding Matching Based on Transformer for Occluded Person Re-identification. Expert Systems with Applications, 237, Article ID: 121504.
https://doi.org/10.1016/j.eswa.2023.121504
[28] Chen, Y., Zhang, Z., Wang, Y., Zhang, Y., Feng, R., Zhang, T., et al. (2022) Ae-net: Fine-Grained Sketch-Based Image Retrieval via Attention-Enhanced Network. Pattern Recognition, 122, Article ID: 108291.
https://doi.org/10.1016/j.patcog.2021.108291
[29] Zhu, M., et al. (2023) Domain-Aware Double Attention Network for Zero-Shot Sketch-Based Image Retrieval with Similarity Loss. The Visual Computer, 40, 3091-3101.
[30] Hou, D., Wang, S., Tian, X. and Xing, H. (2022) An Attention-Enhanced End-to-End Discriminative Network with Multiscale Feature Learning for Remote Sensing Image Retrieval. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 15, 8245-8255.
https://doi.org/10.1109/jstars.2022.3208107
[31] Song, C.H., Han, H.J. and Avrithis, Y. (2022) All the Attention You Need: Global-Local, Spatial-Channel Attention for Image Retrieval. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, 3-8 January 2022, 439-448.
https://doi.org/10.1109/wacv51458.2022.00051
[32] Jegou, H., Perronnin, F., Douze, M., Sanchez, J., Perez, P. and Schmid, C. (2012) Aggregating Local Image Descriptors into Compact Codes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34, 1704-1716.
https://doi.org/10.1109/tpami.2011.235
[33] Tolias, G., Avrithis, Y. and Jegou, H. (2013) To Aggregate or Not to Aggregate: Selective Match Kernels for Image Search. 2013 IEEE International Conference on Computer Vision, Sydney, 1-8 December 2013, 1401-1408.
https://doi.org/10.1109/iccv.2013.177
[34] Weyand, T., Araujo, A., Cao, B. and Sim, J. (2020) Google Landmarks Dataset V2—A Large-Scale Benchmark for Instance-Level Recognition and Retrieval. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 2572-2581.
https://doi.org/10.1109/cvpr42600.2020.00265