1. 引言
随着城市化进程的不断推进,高层建筑、写字楼等公共场所的电梯数量快速增长,电梯已然成为城市中不可或缺的交通工具之一。然而,电梯事故时有发生,电梯的安全性问题也日益凸显。为确保电梯的安全运行,对电梯的运行工况进行检验检测显得尤为重要[1] [2]。电梯检验检测不仅包括定期的安全检查,还涉及故障诊断、性能测试等,确保电梯符合国家标准和行业规范。随着科技的发展,远程监测和智能诊断系统逐渐应用于电梯检验检测,提高了检验效率和准确性。
目前,由于城市电梯数量庞大、风险防控需求大、检验项目繁多、检验耗时长,传统的人工现场检验模式存在检验效率低、检验过程可追溯性差等问题,不仅浪费了人力资源和时间成本,还造成大量电梯检验检测不及时而带来安全隐患,无法满足日益增长的电梯安全需求。因此,寻求一种高效、精准、可靠、智能的电梯检验检测模式,成为主管政府部门、电梯施工方、电梯使用方都亟待解决的问题。
随着城市高层建筑的增多,电梯数量的激增,传统的人工检验方式面临着效率和资源分配的双重挑战。目前,电梯检验主要采用人工现场检验的模式,该模式需要政府特种设备检验检测部门派专人(至少2人)到电梯检验现场进行检验。
字符识别技术的应用,使得检验人员能够通过自动化的方式快速获取和记录电梯的检验标识、使用说明和安全警示等关键信息。这种技术不仅提高了数据采集的准确性,减少了人为错误,还通过智能监控和预警系统,加强了对电梯运行状态的实时跟踪,从而提前发现并处理潜在的安全隐患[3]-[15]。
在本研究中,提出了一种基于可微分二值化网络(DBNet)与循环卷积神经网络(CRNN)的电梯铭牌和限速器检验单识别方法,能够在网络端结合字符识别技术有效且远程实现铭牌和限速器检验单上的相关重要信息。该技术不仅提升了检验工作的效率和质量,还为电梯行业的可持续发展提供了强有力的技术支撑。
2. 基于DBNet与CRNN的电梯铭牌和限速器检验单识别方法
本系统字符识别部分使用开源项目Paddleocr,是基于飞桨的OCR工具库,包含总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别、竖排文本识别、长文本识别,同时支持多种文本检测、文本识别的训练算法。
字符检测使用DBNet算法,对电梯铭牌或限速器检验报告单进行检测,检测出其中包含文字和数字的区域。字符识别采用CRNN的方法,对检测的文字和数字区域的内容进行识别,判断铭牌或限速器的内容,具体流程如图1所示。
字符识别后会输出图片中所有的字符内容,并将识别到的字符信息和检测到的字符的区域坐标都保存在列表中。为了精确地识别到我们需要的信息,还需要对结果进行后处理。
首先获取字符检测后字符矩形区域的四个顶点坐标,遍历后取出左上顶点的y轴坐标,并将连续的两个字符区域的y轴坐标进行做差,如果在阈值范围内则为同一行的内容,如果不是则是其他行内容。将同一行的内容保存在一个列表中,并对列表中的内容按照x轴进行排序,确保编号后一项就是正确的编号内容。
Figure 1. Blockdiagram of post processing flow of character recognition
图1. 字符识别后处理流程
2.1. DBNet
DBNet主要分为三个部分:Backbone网络,负责提取图像的特征;FPN网络,特征金字塔结构增强特征;Head网络,计算文本区域概率图。网络结构如图2所示。
Figure 2. Network structure of DBNet
图2. DBNet网络结构
输入的图像经过网络Backbone和FPN提取特征,提取后的特征级联在一起,得到原图四分之一大小的特征,然后利用卷积层分别得到文本区域预测概率图和阈值图,进而通过DB的后处理得到文本包围曲线。
本算法的核心就是DB (可微分二值化),采用动态的阈值区分文本区域与背景。基于分割的普通文本检测算法流程如图3蓝色箭头所示,此类方法得到分割结果之后采用一个固定的阈值得到二值化的分割图,之后采用诸如像素聚类的启发式算法得到文本区域。DB算法的流程如图中红色箭头所示,最大的不同在于DB有一个阈值图,通过网络去预测图片每个位置处的阈值,而不是采用一个固定的值,更好地分离文本背景与前景。
Figure 3. Principle of DB model algorithm
图3. DB模型算法原理
在传统的图像分割算法中,获取概率图后,会使用标准二值化(Standard Binarize)方法进行处理,将低于阈值的像素点置0,高于阈值的像素点置1,公式如下:
(1)
但是标准的二值化方法是不可微的,导致网络无法端对端训练。为了解决这个问题,DB算法提出了可微二值化。可微二值化将标准二值化中的阶跃函数进行了近似,使用如下公式进行:
(2)
其中,P是上文中获取的概率,T是上文中获取的阈值,k是增益因子。在后面的实验和测试中,k根据经验选取为50。
2.2. CRNN
CRNN是基于CTC的算法,主要用于解决规则文本,不仅有较快的预测速度并且很好的适用长文本。CRNN的网络结构体系如图4示,从下往上分别为卷积层、递归层和转录层三部分。
Figure 4. Network structure of CRNN
图4. CRNN网络结构
卷积层,使用深度CNN,对输入图像提取特征,得到特征图,用于从输入图像中提取特征序列。为了更好地支持变长序列,CRNN将backbone最后一层输出的特征向量送到了RNN层,转换为序列特征。
递归层,在卷积网络的基础上,使用双层LSTM作为递归层构建递归网络,相比于RNN解决了长序列训练过程中的梯度消失和梯度爆炸问题,将图像特征转换为序列特征,预测每个帧的标签分布。
转录层,通过全连接网络和softmax激活函数,将每帧的预测转换为最终的标签序列。最后使用CTCLoss在无需序列对齐的情况下,完成CNN和RNN的联合训练。
3. 性能评估与实验分析
3.1. 基于数据集的评估结果
文本检测算法DBNet在ICDAR201文本检测公开数据集中进行测试。该数据集是国际文档分析与识别会议(ICDAR)举办的比赛用数据集,主要用于文本检测和识别任务,包含有各种真实场景图片和位置标签。数据集实例如图5所示,左图为数据集图片示例,右图为根据标签绘制的真实检测结果。
在性能评估中,选取了PSENet、FCN (Fully Convolutional Network)以及PixelLink这三种结构地神经网络来做为对比的对象。其中,PSENet通过逐步扩展文本区域的预测来检测文本,能够有效处理不同尺度的文本区域;FCN是一种基于全卷积网络的文本检测方法,通常用于像素级别的文本区域预测;PixelLink则通过预测像素之间的连接关系来进行文本检测,能够有效处理密集文本。
Figure 5. ICDAR2015 dataset example
图5. ICDAR2015数据集示例
ICDAR2015数据集测试结果如表1所示。精确率(Precision)定义为在所有被预测为正类的样本中,实际为正类的比例。召回率(Recall)定义为在所有实际为正类的样本中,被预测为正类的比例。Hmean通常指的是精确率和召回率的调和平均数。以上三个参数的范围都是从0到1,且其值越高,模型的性能越好。从表1的实验结果可以看出,本文所提出的网络结构在各性能指标方面均优于其他三种网络结构,充分说明了本文所提出网络结构的有效性。
Table 1. DBNet experimental results
表1. DBNet实验结果
Model |
precision |
recall |
Hmean |
本文所提网络结构 |
86.41% |
78.72% |
82.38% |
PSENet |
81.75% |
73.16% |
75.77% |
FCN |
80.68% |
72.58% |
74.42% |
PixelLink |
78.53% |
70.46% |
74.57% |
CRNN使用MJSynth和SynthText两个文字识别数据集训练,这是两个常用的合成数据集。其中MJSynth包含900万张图像和对应的真实标签,涵盖90,000个英语单词,数据集中示例如图6所示,包含示例图片和部分标签结果。
Figure 6. MJSynth dataset example
图6. MJSynth数据集示例
在IIIT, SVT, IC03, IC13, IC15, SVTP, CUTE数据集上进行评估。其中IIIT数据集是从Google图像搜索中收集的,包含5000张来自场景文本和数字出生图像的裁剪单词图像。数据集示例如图7所示,包含三张示例图片和部分标签结果。
Figure 7. IIIT dataset example
图7. IIIT数据集示例
最终算法效果如表2所示。根据表2的结果可以看到,同样地,本文所提网络结构的准确率均优于其他三种常用的网络结构,对识别准确率的性能提升起到重要的作用。对于不同的预训练模型PP-OCRv3和PP-OCRv4,PP-OCRv4在维持模型大小基本不变的情况下,Hmean指标显著提升,故使用PP-OCRv4预训练模型。
Table 2. CRNN experimental results
表2. CRNN实验结果
Model |
Avg Accuracy |
本文所提网络结构 |
81.04% |
PSENet |
76.95% |
FCN |
75.68% |
PixelLink |
74.95% |
基于OCR的电梯编码和限速器检验单识别,具体实现流程基本一致,如图1所示,此处不再赘述。
以下将展示实际电梯铭牌和限速器检验单的识别过程和结果。
3.2. 铭牌编号识别
铭牌识别要求从如图8所示的铭牌中检测出电梯的编号,如果检测到结果就输出电梯编号,如果检测失败就输出“电梯编号识别失败,请重新拍摄或人工核查”,字符检测后结果如图9所示。
Figure 8. Elevator nameplate number
图8. 电梯铭牌编号
Figure 9. Elevator nameplate character detection results
图9. 电梯铭牌字符检测后结果
不同电梯铭牌因为厂家不同对编号的命名也不同,比如“出厂编号”和“制造编号”,但都包含编号的字样,因此设置关键词为“编号”,对每一行的内容进行检索,找到含有编号字样的某一行,输出这一行内含有“编号”的字符串的下一项,即是电梯的正确编号。
3.3. 铭牌合同号识别
合同号识别同铭牌编号识别类似,从如图10所示的铭牌中检测出电梯的合同号,不同的是电梯合同号和“合同号ORDER N0.”字符串可能如图10右图中存在重合现象,如果重合,会将合同号和“合同号ORDER N0.”检测成一个字符串。因此,设置关键词为“合同号”后,如果遍历找到关键词,会对关键词所在字符进行长度判断,如果字符长度小于12,就输出关键词的下一项即合同号,反之就对字符进行切片处理,去除“合同号ORDER N0.”字符后输出。
Figure 10. Elevator nameplate contract number
图10. 电梯铭牌合同号
3.4. 限速器检验单识别
限速器检验要求从如图11所示的限速器单子中检测出电梯上行和下行的电气值和机械值的判定结果,如果检测到判定结果都为合格,就输出“合格”,如果有一项判定为不合格,就输出“限速器校验不合格,请重新测量或人工核查”,字符检测后结果如图12所示。可以看到,限速器检验单上的相关信息可被正确检测,保证了远程检验检测的有效性。
文字识别算法识别后会输出单子上所有文字和数字内容,并存储在列表中。为了精确地获取需要的结果,同样需要进行后处理。
考虑到只需要检测到限速器单子中存在不合格就输出不合格报警信息,当且仅有全部判定为合格才输出合格信息,并且当某一次判定结果为不合格时,平均结果也是不合格。因此,设置关键词为“不合格”,对列表中所有文本内容进行遍历,当检测到有“不合格”的字样时就输出报警信息,否则就输出合格信息。
Figure 11. Speed limiter inspection form
图11. 限速器检验单
Figure 12. Result of speed limiter character recognition
图12. 限速器字符识别后结果
4. 结语
针对电梯质量检验中的铭牌和限速器检验单识别问题,本文提出了一种基于可微分二值化网络与循环卷积神经网络的电梯铭牌和限速器检验单高效识别方法。通过所搭建的网络模型,能够有效地实现对电梯铭牌和限速器检验单中相关数据和信息的有效提取和识别,从而实现对电梯质量检验的远程管理和监控,减轻电梯质量检验工作的现场工作量,也为智能化和远程电梯质量检验提供了重要的基础和思路。
基金项目
国家自然科学基金资助项目(62231010,61971278);
江西省检验检测认证总院科研计划项目(ZYK202206)。
NOTES
*通讯作者。