1. 引言
随着铁路的快速发展,它已经成为我国重要基础设施和大众运输工具。与此同时,铁路覆盖地形不断增加,形成了复杂的铁路运行环境,其中动物、人等机动性较强的异物入侵铁路的情况难以预防 [1] ,轨道行人侵限检测也越来越引起国家和社会的关注。有效的行人入侵检测方法和预警系统对保护铁路环境的安全具有重要意义。
铁路行人侵限检测方式分为接触式和非接触式。一般采用非接触式,目前常见的非接触式检测法有:视频检测法、雷达检测法和红外线屏障检测法等 [2] 。秦等人 [3] 在单阶段目标检测算法的基础提出基于混合加权采样和多级特征聚合注意力的视频目标检测算法,有效提高系统效率及检测精度。Park等人 [4] 利用雷达信号的周期性特征,使用具有长短期记忆的神经网络对信号进行检测,有效检测低功耗信号,扩大雷达检测性能。吴 [5] 基于深度神经网络技术,提出一种矫正光流算法红外视频目标检测模型,以达到画面质量提升、噪声减小、图像信息增多的目的。然而上述系统存在误检率高,行动力不强,鲁棒性易受环境影响,成本和复杂度高等缺点,或是对铁路运行产生一定影响。
机器视觉是一种有效的非接触式检测方法。孟等人 [6] 提出一种Spartial空间注意力与SENet通道注意力串联的SSA混合注意力机制,提升了模型对小目标的识别能力;引入回归损失函数SIoU并提出DW-Decoupled Head解耦检测头,使模型收敛速度、推理速度加快。衣 [7] 研究了在特殊环境如大雾天气下的滤波算法,运用异物侵限跟踪算法中的SANet算法,可以在保证鲁棒性的前提下实现在铁路限界中的复杂情况下对异物进行准确跟踪。王等人 [8] 选用霍夫变换进行直线检测,加强了区域间的直线特征,使设备区分轨道区域的能力得到提升。苗等人 [9] 引入标准卷积和深度可分离卷积结合的GSConv结构,保证了目标特征信息的准确提取并达到轻量化网络;借鉴谷歌大脑团队提出的BiFPN的融合方式,将Backbone的特征信息也融入路径聚合网络中,使网络将不同尺度的特征融合得更充分。
本文提出了一种基于无人机视觉检测的铁路行人侵限实时监测和预警系统。该装置以Jetson Nano模块为核心 [10] 采用Air724UG开发板进行数据的云端上传,同时在原有YOLOv5s模型的基础上,考虑实时目标检测中的其他影响条件,改进网络结构,构建了YOLOv5s-ECB模型,识别准确率高,能够实现快速、高效的检测。
2. 基于YOLOv5s的目标检测算法改进
2.1. YOLOv5s网络介绍
YOLOv5是由Ultralytics LLC公司的创始人Glenn Jocher在2020年6月份GitHub上发布的一个开源项目 [11] ,标志着视觉检测领域的又一个全新突破,由于其高效的性能和易用性,YOLOv5被广泛应用于各种领域,包括智能监控、自动驾驶、无人机、工业检测等。它在实时目标检测任务中展现出强大的应用潜力。
YOLOv5s是YOLO系列中模型最小的结构,其模型运行的速率也最高,适合轻量化的工作任务。其网络结构分为Input、Backbone、Neck和Head,其网络结构图如图1所示。
输入端采用自适应图片缩放技术和Mosaic数据增强以及K-means算法处理输入的图像。Backbone部分依靠C3模块进行卷积和SPPF金字塔池化结构融合不同尺度的特征图。其中C3模块作为核心,可以进一步提升特征提取的效能。使网络更好地捕获多尺度特征,减轻了梯度消失问题,有助于更好地训练深层网络。
Neck部分采用FPN + PAN结合的路径聚合网络架构,加强网络特征的融合能力。Head检测层分别解码预测3种不同尺寸的特征图,使用NMS非极大值抑制算法获取目标最优预测框,输出预测框和类别位置信息。将FPN和PAN相融合,通过FPN的特征金字塔架构和PAN的路径聚合机制,提高了算法在图像中检测不同尺度目标的准确性。
YOLOv5s采用了CIoU Loss通过引入中心点距离的概念,使得其能够更加敏感地适应不同尺度和比例的目标框。该损失函数所提供的精确梯度信号有助于模型在训练过程中更快地收敛,提高了训练效率。
(1)
(2)
(3)
其中,CIoU为函数的损失;IoU、D2和Dc分别为真实框与预测框的交并比、预测框和目标框中心点距离、最小外接矩形C的对角线距离,α为调节因子;w和h分别为预测框的高度与宽度,wgt和hgt分别为真实框的高度和宽度。
2.2. 算法改进
2.2.1. 引入ECA注意力机制
深度学习中的注意力机制是一种模仿人类视觉和认知系统的方法,通过引入注意力机制,神经网络能够自动地学习并选择性地关注输入中的重要信息,提高模型的性能和泛化能力。在本文所提及的铁路环境中,包含着许多影响识别行人的干扰项,为了提高模型识别的效率,引入了ECA-Net (Efficient Channel Attention for Deep Convolutional Neural Networks) [12] 注意力机制,本文简称为ECA。它是由Qilong Wang等人在2020年提出的是一种高效的通道注意力模块,其结构图如图2所示。该模块通过使用少量参数来实现明显的性能提升。作者基于SENet中通道注意力模块的分析,提出取消了全连接层并用1维卷积高效实现了局部跨通道交互的ECA模块,可以保证模块的效果和计算速度,从而提高模型的表达能力。
2.2.2. 融入BiFPN模块
BiFPN (Bi-directional Feature Pyramid Network) [13] 是一种用于目标检测任务的特征金字塔网络结构,由谷歌的研究团队于2019年提出。原始的FPN虽然解决了目标在不同尺度上的变化问题。但存在特征传播不够充分、信息丢失等,为了解决这些问题,BiFPN引入了自顶向下和自底向上的两个方向双向特征传播机制,如图3所示。在本文的改进模型里,使用一层结构的BiFPN来改进代替原始的Concat模块,以提高模型的训练效率,可以更好地应对复杂环境中行人检测任务。
2.2.3. 改进后的YOLOv5结构图
本文将融入BiFPN模块和ECA注意力机制模块的YOLOv5s算法简称为YOLOv5s-ECB模型,网络模型结构如图4所示。

Figure 4. Structure diagram of YOLOv5s-ECB algorithm
图4. YOLOv5s-ECB算法结构图
3. 实验设计
3.1. 数据处理
本实验使用的数据集由Kaagle网站上的部分数据集和自己采集的部分数据组成,该数据集包含了3个预定义类别,共计2826张静态图像,这些图像无人机处在不同高度获得,大部分图像是在铁路区域获取的,其中包含了3个标签类,分别是animal、person、empty。将数据集图片存入datasets文件夹,考虑到铁路上动物和人的相似性,我们选取了大量动物和人同时存在的图像,以加强模型的识别能力。随后在labelimg上为数据集打上训练标签,按YOLO格式储存。
3.2. 实验设置
本文中使用的系统为Windows11,服务器配置为Inteli7-11800H处理器、16 GB内存和RTX 3060显卡,所有模型均在GPU上运行,环境配置为Python 3.8和PyTorch 1.8.0,除模型外其他参数均相同。训练时,epochs设置为100,batchsize设置为16,其他训练参数保持默认设置。
3.3. 评价指标
本文采用mean Average Precision (mAP)、F1-score和检测速度作为评价指标。其中F1用于表示Precision和Recall之间的权衡以评估模型的性能,mAP用于衡量不同置信度阈值下的总体性能,具体的计算公式如下:
(4)
(5)
(6)
(7)
其中,TP代表正确识别的数目,FP代表误检的数目,FN代表漏检的数目。c表示检测的类别数;M和N表示IoU阈值和IoU阈值的数量。
3.4. 实验结果
本文将改进后的算法与主流的目标检测算法SSD、Yolov3、YOLOv5s在数据集上进行性能对比,SSD [14] 算法是Wei Liu在2016年提出的一种基于单阶段多类别目标检测,以VGG-16模型作为特征提取网络,以Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2作为预测特征图来检测不同大小的目标,是一种精度较高的算法。
Redmon等人于2018年提出的Yolov3 [15] ,利用DarkNet-53网络结构、用于特征提取的ResNet以及用于多尺寸输入和同尺寸输出的空间金字塔池化网络,提高了物体检测速度和准确性。
YOLOv5s是Ultralytics公司开源项目YOLOv5系列中的一种深度和特征图宽度最小的模型,具有较快的运行速度和较高的精度,适合于应用场景的实时处理。
实验结果如表1所示。
实验结果表明,本文改进的模型在mAP和F1-Score指标上分别达到了了97.8%和96%,相较于Yolov3算法,虽然在检测速度上与Yolov3模型存在差距,但在mAP和F1-Score上高了18.7%和23%。在几乎相同的检测速度下,本文改进的模型比YOLOv5s-mobilenet在mAP和F1-Score上都有一定的提升。而SSD算法的训练速度过慢,检测的性能也不如本文的改进模型,无法满足精度要求。在实验结果中可以看到,YOLOv5s-ECB在检测速度上与YOLOv5s模型上存在一定的差异,但在精度上比YOLOv5s高了2.8%,F1-Score上高了10%,更符合对高精度检测的要求。综上所述,本文提出的改进算法相较于其他主流算法,在性能上均有一定的优势,可以更好地满足在实际应用的训练和检测要求。

Table 1. Performance comparison of different algorithms
表1. 不同算法性能对比
4. 结论
本文针对铁路中行人侵限检测不及时问题,提出了一种改进的YOLOv5s的目标检测算法改进,实现了高效的图像处理和行人侵限行为检测。通过引入ECA注意力机制模块和融入BiFPN模块构建的Yolovs-ECB模型在mAP和F1-Score上分别达到了97.8%和96%,检测速度为63张/s,满足实际应用的训练和检测要求,对于铁路安全管理和交通监控具有重要意义。
参考文献