1. 引言
近年来,对于自然场景下的文本阅读,因其在很多场景都有着广泛的实际应用,受到越来越多研究人员的关注,如信息检索、视觉问答、实时翻译和自动驾驶等。而文本检测作为文本阅读的关键性组件,目的是将视觉捕捉到的文本进行定位,其文本边界框的精确度对于后续的文本识别至关重要。另外,由于自然场景下的文本在尺度、方向、形状多样性和背景等因素的干扰下,使文本检测任务仍具有很大的挑战 [1]。
早期的文本检测主要是应用机器学习方法来学习人工设计的特征,虽然这类方法具有一定的可解释性,但特征的设计往往难度大、成本高。近年来,深度学习的出现极大地推动了场景文本检测技术的提升,能够通过模型学习得到深度特征,避免了人工设计特征的繁琐工作,准确率明显高于传统方法,同时也能够很好地应对复杂场景,大致可分为两大类:基于回归的算法和基于分割的算法。
基于回归的算法是通过直接回归文本边界框的点坐标来编码文本实例。文本不同于常规目标,对于长矩形的文本,TextBoxes [2] 设计具有不同纵横比的锚框,同时使用不规则的1*5卷积以避免正方形卷积带来的噪音;CTPN [3] 将长文本分为一系列宽度固定的锚框,使用BLSTM来进行序列建模;对于多方向的文本,RRPN [4] 引入了具有方向的锚框来生成带有方向角度的倾斜提议框,同时提出旋转RoI池化来调整它的方向;TextBoxes++ [5] 采用四边形表示代替传统的矩形框,直接回归四个顶点来检测多方向文本;RRD [6] 使用具有不同设计的回归与分类分支来分别提取旋转感知特征和旋转不变性特征;对于不规则的文本,CTD [7] 使用14个点来表示文本区域,提出横向和纵向偏移拼接(TLOC)来学习各点之间的相关性;文献 [8] 提出自适应点数的文字区域表示,使用LSTM来细化文本区域,每个时间步都会预测一对边界点,直到找不到新点为止。基于回归的方法通常只需简单的后处理,但并受限于边界框的表示,使得检测任意形状的效果不容乐观。
基于分割的方法是在像素级别进行特征表示,结合后处理算法生成文本实例。鉴于FCN [9] 网络能够同时考虑局部和全局上下文信息,已被广泛用于生成文本分割图,文献 [10] 采用两个FCN分别生成文本区域显著图与每个字符的中心,文献 [11] 采用FCN生成三种分数图:文本/非文本、字符类别与相邻字符链接方向,文献 [12] 提出TextSnake,采用FCN生成带有半径和方向信息的文本中心线分数图和文本区域;针对语义分割方法对于相邻文字难区分的问题,文献 [13] 提出渐进式尺度扩展网络(PSENet),对于每个文本实例生成不同尺度的内核,并逐渐扩展内核至实例分割图,但该算法速度较慢、效率低,文献 [14] 提出可学习的像素聚合(PA)后处理策略,同时提出可级联特征金字塔增强模块(FPEM)和特征融合模块(FFM)。此外,受实例分割思想的鼓舞,PixelLink [15] 在像素级别使用8个方向信息来编码边界框,预测像素间的连接关系,TextField [16] 从最近的文本边界指向每个文本点的方向场,由二维向量的图像表示。基于分割的方法更适用于检测任意形状的场景文本,但后处理相对复杂,实时性较差。
场景文本不同于文档上的文本,其尺度变化非常大,几个像素到几百像素不等,对于深度模型对图像提取的特征,低层的特征图包含更多的位置信息和纹理信息,语义信息较少,而高层特征图包含更多的语义信息和抽象信息,空间信息较少。对于场景文本检测算法,为能够充分利用高、低层的特征信息,DBNet [17]、TextSnake [12]、PSENet [13]、PAN [14] 及文献 [18] 等均采用了不同的特征融合方法,然而,它们集中在构建复杂的路径且通常采用简单的加或拼接的方式来整合不同层的特征信息,仅仅提供特征图的固定线性组合,这样的融合方法容易将浅层特征埋没在背景噪声中,另外,由于文本没有明显的边界,且一般比较长,使得最终的特征表示并不能很好地适应长文本,导致检测到错误的边界。
总之,为实现更准确的文本检测,不仅依赖于高、低层特征信息的充分利用,还在于最后得到的特征表示能否自适应文本的特点。针对以上问题,本文基于DBNet [17] 算法从以下两方面进行改进,提出一个更高效的场景文本检测算法。首先,注意力特征融合模块(Attention Feature Fusion, AFF) [19] 用于特征金字塔中,以提升多尺度特征的融合效果;其次,残差坐标注意力模块(Residual Coordinate Attention, RCA) [20] 用于融合后的特征,以捕捉远距离特征的相关性,细化边界信息,具体如下:
AFF能够同时关注相邻特征图的特征信息,相互引导,其中,多尺度通道注意力模块(Multi-Scale Channel Attention Model, MS-CAM)能够在通道维度上聚合局部和全局多尺度上下文信息,可以同时强调分布更全局的大文本和分布更局部的小文本,纠正不同尺度特征的不一致性,保留更多的细节信息,避免引入额外的噪声而造成文本的漏检。
RCA是一种将位置信息与通道信息相结合的注意力,它将通道注意力沿水平和垂直方向分解为两个具有方位感知的注意力图,在一个更长的范围上捕捉文本的边界信息,有利于长文本的边界检测,同时,残差结构也能避免重要信息的丢失,且计算量不大。
2. 网络结构
2.1. 概述
本文所提出的算法是基于可微分二值化场景文本检测DBNet网络进行优化,其网络结构如图1所示。首先,使用带有可变形卷积(DCN) [21] 的ResNet-18 [22] 作为骨干网络来提取图像的基本特征,DCN通过增加偏移量来使采样点发生偏移,能够对不同尺度或感受野自适应的定位,更适用于文本的多尺度特征;接着,相邻两层的特征图通过AFF模块进行初步融合,然后上采样到相同的尺度并沿通道维度进行拼接;之后,通过RCA模块得到最终的特征图;最后,使用反卷积操作分别得到同输入图像同样尺度的概率图(P)和阈值图(T),之后由公式(1)计算得到二值图(B),k在实验中设置为50,最后根据B得到文字检测结果。
(1)
2.2. AFF模块
本AFF模块不同于普通FPN [23] 中相邻特征图进行简单的相加操作,而是通过注意力机制解决尺度的不一致性来提升融合效果,其结构如图2(左)所示。

Figure 1. Structure diagram of scene text detection based on attention mechanism
图1. 基于注意力机制的场景文本检测结构图

Figure 2. AFF structure diagram (left), MS-CAM structure diagram (right)
图2. AFF结构图(左),MS-CAM结构图(右)
如图所示,该模块同时关注相邻不同尺度的特征图,使其相互引导,纠正不同尺度特征图之间的不一致性。通常低层特征图拥有更大的分辨率,能够保留更多的文本细节,对于尺度较小的文本更加重要,而高层特征图则拥有更多的语义信息,能够更好地区分文本与背景干扰。图中,
分别定义为特征金字塔中高、低等级语义特征图,C表示通道数量,H × W表示特征图的大小,在这里,为降低内存的开销与计算量,使用1 × 1 卷积已将通道数减少至256。对于高层特征图使用最上采样方法以确保与低层特征图具有相同的大小,随后采用逐像素相加对其进行初步融合,并将将融合后的结果送入MS-CAM得到融合权重,之后对不同尺度的特征进行重矫正以增强特征,最后再进行逐像素相加进行二次融合,AFF可以被表示为公式(2):
(2)
M为MS-CAM的简写,♁ 表示逐元素相加,⊗表示逐元素相乘。
MS-CAM的关键思想是通过改变空间池大小,可以在多个尺度上实现通道注意力。其结构如图2(右)所示。它将AFF模块初步融合的结果
使用两个不同的分支去获得通道注意权重,
可由公式(3)得到。其中,一个分支使用全局平均池化去整合全局特征,以强调分布更全局的大文本,由公式(4)表示,全局平均池化由公式(5)表示;另一个分支直接使用逐点卷积去提取局部通道上下文信息,强调分布更局部的小文本,由公式(6)表示:
(3)
(4)
(5)
(6)
M(X)表示由MS-CAM提取得到的注意力权重,B表示批量归一化,σ表示Sigmoid激活函数PWConv1和PWConv2表示为逐点卷积,核大小分别为
和
,其中,L(X)与输入特征图具有相同的形状,可保留低层特征图中的细微细节。
2.3. RCA模块
残差坐标注意模块是将位置信息嵌入到通道注意中,从水平和垂直空间方向编码远程依赖和通道关系,然后聚合特征。其结构如图3所示,主要分为两步:坐标信息编码和坐标注意生成。
坐标信息编码:全局池化是将全局空间信息压缩到通道描述符中,而这会使文本的位置信息难以保留,因此,这里使用两个空间范围的池化内核(H, 1)和(1, W)沿水平和垂直方向对每个通道进行编码,第c个通道在高为h和宽为w的输出可分别表示为公式(7)和(8)。
(7)
(8)
上述两个变换分别沿两个空间方向聚合特征,产生一对方向感知特征图,使模块能够沿一个空间方向捕获长范围的文本边界信息,以适应长文本的特点,沿另一个空间方向保留精确位置信息,来更准确的定位到图像中的文本。
坐标注意生成:将上述两个变换在空间维度上进行拼接,并使用1 × 1 卷积来压缩通道,之后进行归一化和非线性变化,可由公式(9)表示:
(9)
这里,[·,·]表示沿空间维度进行拼接,
为中间特征图,r为缩减率,实验中设置为8,之后沿空间维度将f差分为两个单独的张量
和
,接着使用1 × 1 卷积调整注意力图的通道数,使其等于输入特征图的通道数。最后,使用Sigmoid函数进行归一化得到权重,最终的输出可以由公式(10)表示:
(10)
表示输入特征图,
和
分别表示在水平和垂直方向上的注意力权重。同时,残差结构的使用也能避免重要信息的丢失。
3. 实验结果与分析
3.1. 数据集
为了验证所提算法的有效性,我们在公开数据集ICDAR 2015 [24] 和Total-Text [25] 上进行实验,通过准确率P (Precision)、召回率R (Recall)和F均值(F-measure)来验证。
ICDAR 2015数据集包含1000张训练图像和500张验证图像,文本方向各异,区域由四边形的4个顶点注释。
Total-Text数据集包含1255张训练图像和300验证图像,包含水平、多方向和弯曲文本。
3.2. 实验细节
针对训练数据,我们首先忽视了文本标签为“##”的文本区域,随后采用随机裁剪,随机旋转和随机翻转以增强数据,增加模型的泛化能力,最后采用EAST中提到的裁剪方法将被增强图像重裁剪到大小为640 × 640 以使网络训练更高效。
我们将模型放在单GTX 3090 GPU上训练1200轮,Batch size设置为16,采用Adam作为优化器,初始学习率设置为0.001,使用warmup预热学习率5轮,使用cosine学习率更新策略,且没有进行预训练,在推理阶段,将batch size设置为1,保持图像的纵横比,并为每个数据集设置合适的高度来调整输入图像大小。
3.3. 对比实验
我们采用DCN-ResNet-18作为骨干网络,使用AFF用于多尺度特征融合,引入RCA来对融合后的特征图进行矫正,使用ICDAR 2015数据集来评估所提模型在多方向文本上的检测性能,在推理期间,保持图像的纵横比,调整短边到736与1152,同原DBNet及其他经典场景文本检测算法进行比较,结果见表1。
当我们将图像短边调整到736时,可以看到,在准确度和F分数上分别达到了89%和83.6%,相较于DBNet在准确度上提高2.2%,在F分数上提高1.3%,相较于其它方法,我们所提出的方法在F分数上同样具有很强的竞争力,且在推理速度上也具有很大的优势。当我们将图像的短边调整到1152时,在召回率和F分数上分别提升至82.5%和85.5%,较之前分别提高了3.7%和1.9%。

Table 1. Comparison of results on the ICDAR 2015 dataset
表1. 在ICDAR 2015数据集上的结果比较
为验证模型在弯曲文本上的检测性能,本文选用Total-Text数据集进行实验,网络结构同上,将短边调整到800,其结果如表2所示,在准确率、召回率及F分数上分别达到了89.3%、78.5%和83.6%,较TextSnake相比,在F分数上提高5.2%,较DBNet相比,同样有0.8%的提升,且推理速度同样具有竞争力。
由此可见,本文方法不论是在检测多方向文本还是弯曲文本,在准确率和速度上均有一定的竞争力。

Table 2. Comparison of results on the Total-Text dataset
表2. 在Total-Text数据集上的结果比较
3.4. 消融实验
本文在ICDAR 2015上进行消融实验,保持图像的纵横比,将短边调整到1152,结果如表3所示,其中,Baseline为原DBNet在本实验设备及参数配置上的复现结果,当我们仅将特征融合模块替换为AFF时,在召回率和F分数上分别有3.06%和0.88%的提升,当仅使用RCA模块时,在F分数上略有下降,但结合AFF模块使用时,F分数上又有所激增,达到了85.47%,相较于Baseline提高1.59%,验证了AFF模块和RCA模块的有效性。

Table 3. Comparison of ablation experimental results of each module on ICDAR 2015
表3. 各模块在ICDAR 2015上的消融实验结果比较
我们对本文所使用的AFF模块同其他多尺度特征融合算法FPN、FPEM_FFM和CAM进行了比较,将它们嵌入到本文所使用的方法中以进行公平的比较,对测试图片的短边调整到1152,实验结果如表4所示,可以看到,我们所使用的AFF模块在检测速度上略有减少,但在F分数上超越了其它方法,这得益于AFF模块能够在尺度融合的时候,同时考虑高、低层的特征信息,相互引导,纠正尺度的不一致性,避免引入额外的噪声,从而使得检测性能更高效。

Table 4. Comparison of the results of different feature fusions on ICDAR 2015
表4. 不同特征融合在ICDAR 2015上的结果比较
与此同时,我们对本文所使用的RCA模块同其它注意力SE和CBAM进行了比较,实验策略同上,结果如表5所示,相较于通道注意力(SE)和通道、空间注意力(CBAM),我们所使用的残差坐标注意力(RCA)在准确率、召回率和F分数均超越了其他方法,且对检测速度影响不大,这是由于RCA能够在避免重要信息丢失的同时,保留文本位置信息并在更长的范围矫正长文本的边界信息。

Table 5. Comparison of results of different attentions on ICDAR 2015
表5. 不同注意力在ICDAR 2015上的结果比较
3.5. 可视化结果
图4为本文方法与可微分二值化DBNet网络在ICDAR 2015数据集上的可视化结果,从图中可以看出,DBNet网络在某些小尺度文本实例上存在漏检,以及对于长文本实例生成不准确的边界框;而本文提出的模型使用AFF模块与RCA模块相结合,不仅能保留更多的细节特征,也能捕捉远距离的特征相关性,使得对于小尺度文本以及长文本检测效果更好,进一步验证了所提模型的有效性。

Figure 4. Visualization results on ICDAR 2015
图4. 在ICDAR 2015上的可视化结果
4. 总结
在这篇文章中,我们提出基于注意力机制的场景文本检测算法,在对多尺度进行特征融合时,使用注意力特征融合模块(AFF)来纠正尺度的不一致性,充分利用高、低层信息,抑制背景噪声,以改善文本的漏检。之后,对融合的特征使用残差坐标注意力模块(RCA)在纵、横方向上捕捉长范围文本的位置信息,细化边界信息,使得算法对具有极端长宽比的文本检测效果更好。实验表明,我们所提出的算法在准确性和实时性上有着较好的表现。在接下来的工作中,我们将结合文本识别算法,去设计一个实时的端到端文本提取器。
基金项目
五邑大学港澳联合研发基金(2019WGALH21);广东省基础与应用基础研究基金(2020A1515011468);广东省普通高校特色创新类项目(2019KTSCX189)。
参考文献