1. 引言
在全球安全形势日益复杂的背景下,机场、火车站、地铁站等公共场所对安检的需求持续增长[1]。由于其无侵入性以及能够快速检测行李内部结构的优势,X射线安检系统已成为维护公共安全的重要工具[2]。然而,传统的X射线图像分析主要依赖人工判别,其检测精度在很大程度上取决于安检人员的专业水平和经验。随着客流量的迅速增长,人工安检面临工作负担沉重、效率低下以及易出现漏检或误检等问题。此外,X射线图像往往具有多尺度目标、杂乱背景、遮挡、低对比度及复杂场景等特点,使得违禁品识别更加具有挑战性[3]。因此,如何在计算机视觉领域利用深度学习的最新进展,有效应对这些复杂场景下的X射线违禁品检测,已成为亟待解决的问题。
针对基于深度学习的目标检测算法大致可分为两类:两阶段方法和单阶段方法。以R-CNN [4]系列为代表的两阶段方法,首先生成候选区域,再进行分类与边界框回归。尽管该类方法在检测精度上表现突出,但其计算开销巨大,限制了其在实时应用中的适用性[5]。相比之下,单阶段方法省略了候选区域生成步骤,直接执行目标分类与定位,因此在速度方面具有显著优势[6]。YOLO系列作为单阶段方法的典型代表,具有端到端的检测流程、简洁的架构和较高的推理速度,在保持实时性能与鲁棒性的同时,也能实现较高的检测精度[7]。然而,X光图像中目标尺寸变化较大,并且常受到复杂背景和遮挡的影响,这对检测算法在特征表征能力和鲁棒性方面提出了更高的挑战[8]。针对X射线违禁品检测这一特定任务,现有方法在处理多尺度目标、保障复杂背景下的鲁棒性,以及平衡检测速度与精度方面,仍存在一定局限。
为了解决上述问题,本文提出了一种基于改进YOLOv8的创新检测模型——YOLO-XRAY。本文的主要贡献有以下几个方面:模型首先采用深度可分离卷积[9]替代标准卷积,在显著降低计算开销和参数规模的同时,仍保持了有效的特征提取能力。此外,本文引入跨尺度注意力模块,以充分融合来自高、低分辨率特征层的信息,在全局上下文与局部细节之间实现平衡,从而获得更准确的多尺度特征表征。同时,简化了neck结构以减少冗余计算、提升特征聚合效率。在复杂背景干扰和目标遮挡等具有挑战性的条件下,这些改进能够显著增强小目标的显著性和检测精度,并确保模型的轻量化设计与实时适用性。YOLO-XRAY在SIXray数据集上进行了验证,它能够实现对违禁品的准确检测,总体检测精度显著提升,进一步证明了所提模型的有效性及其应用潜力。
2. 研究现状
近年来,随着人工智能和大数据技术的快速发展,国内科技企业和研究机构纷纷投入智能安检系统的研发。2019年,科大讯飞发布了X光安检图像智能识别系统,实现了对可疑物品的实时检测,推动了国内智能安检技术的发展[10]。同年,苗苗提出了一种基于区域卷积神经网络的X光图像识别算法,实现了无需人工设计特征的自动化检测[11]。随后,支洪平等人设计了基于GPU的X光安检专用计算机,利用深度学习实现高效、稳定的智能判图[12]。2020年,卢官有等人将YOLOv3引入X光检测,并通过K-means优化先验框,提高模型收敛速度和检测精度[13]。2021年,任杰等人在YOLOv5的基础上进行了改进,在保证精度的同时显著提升单张图像的检测速度,为国内智能安检系统的实时应用提供了技术支撑[14]。虽然现有方法取得了较好的进展,但都仍存在对复杂遮挡与重叠场景鲁棒性不足、多尺度尤其小目标表征与特征交互不充分,以及在受限算力条件下难以同时兼顾精度、速度与参数规模等问题。
在国际上,Redmon等人[15]提出了YOLOv1,将目标检测任务转化为单一回归问题,实现了从输入图像到目标边界框位置及类别标签的端到端预测,无需生成候选区域。YOLOv1将整张图像划分为S×S个网格,每个网格直接预测固定数量的边界框及类别概率,实现了高速检测[16]。
类似的一阶段检测方法还有SSD (Single Shot MultiBox Detector),通过多尺度特征图直接预测目标类别和边界框,在速度上优于两阶段方法,但在小目标检测上精度略低[17]。一阶段方法的主要优势在于速度和端到端训练能力,非常适合实时性要求较高的应用场景。随着YOLO系列的不断迭代,其在小目标检测和复杂场景下的性能和实时性均有显著提升,逐渐成为安检系统中广泛应用的方法。
两阶段目标检测方法如Faster R-CNN和Fast-RCNN则侧重于检测精度。Faster R-CNN首先通过区域建议网络(RPN)生成候选区域,再对每个候选区域进行分类和边界框回归,从而获得较高的检测精度。Fast-RCNN在R-CNN的基础上进行改进,通过在整张图像上共享卷积特征,并利用RoI Pooling将候选区域映射为固定尺寸特征进行分类和回归,大幅提高了检测速度。基于这些方法,Schmidt等人利用Faster R-CNN和R-FCN检测枪支等违禁品[18],而Liu等人基于ResNet v2架构的Fast-RCNN在公开数据集上取得了高精度检测结果[19]。此外,Liu等人提出的级联多尺度结构张量方法通过多尺度RoI提取并结合卷积神经网络,进一步提升了复杂场景下的检测性能[20]。
综上,现有X光违禁品检测研究仍面临三类关键矛盾。第一,目标尺度跨度大且易受遮挡与重叠影响,导致小尺度目标的有效表征与稳定定位更困难;第二,提升鲁棒性常伴随结构复杂化与计算量上升,不利于在轻量化安检设备上部署;第三,不同工作往往在精度、速度与模型复杂度指标上报告不一致,使得方法间可比性与工程取舍依据不足。基于这些不足,本文从“跨尺度信息交互”和“轻量化卷积算子”两条路径入手,在尽量控制额外计算开销的前提下增强多尺度特征建模能力,从而更自然地兼顾检测精度与实时部署需求。
3. YOLO-XRAY模型
如图1所示,YOLO-XRAY模型主要分为三个部分。Backbone部分,本文将普通卷积替换为深度可分离卷积,以降低模型计算量和参数量,同时保持特征提取能力,从而提高模型的推理速度和部署效率。Neck部分,本文引入跨尺度注意力机制,通过在不同分辨率的特征图间建立信息交互,使模型能够更好地捕获小目标和大目标的特征,增强对尺度变化和遮挡目标的感知能力。此外,该机制能够自适应地分配不同尺度特征的权重,提高模型在复杂背景下的检测鲁棒性。Head部分,本文采用一阶段检测器结构,同时结合多任务损失函数,对目标类别和边界框进行联合回归,从而实现端到端的高精度、高效率检测。整体设计兼顾了速度与精度,使YOLO-XRAY在X光安检图像的复杂场景下能够有效识别不同尺寸、被遮挡或重叠的目标。
Figure 1. YOLO-XRAY network structure
图1. YOLO-XRAY模型结构
2.1. 深度可分离卷积模块
在X光违禁品检测任务中,目标通常具有尺度变化大、边缘模糊且与复杂背景高度重叠的特点,这对特征提取的精细度和计算效率提出了更高的要求。为此,YOLO-XRAY在Backbone中引入了深度可分离卷积模块,以在有效表示特征的同时显著降低计算成本(图2)。
Figure 2. Depthwise separable convolution module
图2. 深度可分离卷积模块
设输入特征图为
,其中H和W分别为空间高度和宽度,C为通道数。传统卷积通过卷积核
同时在空间和通道维度上操作,输出特征图为
其计算复杂度为
。然而,对于高分辨率X光安检图像,这种全卷积操作计算量大,容易导致计算资源消耗高且效率低下。为了解决这一问题,深度可分离卷积将标准卷积分解为两个相对独立的步骤,从而在保证特征表达能力的前提下显著降低计算成本。
Depthwise卷积:每个通道独立进行k × k卷积,输出为
,该操作能够强化空间局部特征的提取,如目标边缘和纹理信息,同时将计算复杂度降至
,显著提升计算效率。Pointwise卷积:使用1 × 1卷积对Depthwise卷积的输出进行通道间融合,输出特征图
,这一过程实现了跨通道的信息整合,使模型能够获得更丰富、更具判别性的语义特征表示,从而提升目标检测的准确性和鲁棒性。
在X光安检场景中,Depthwise卷积增强了模型对目标细粒度边缘和纹理的感知能力,而Pointwise卷积整合多通道信息以获得更全面的特征表示。整个模块在保持空间分辨率的同时,通过分解卷积显著降低了计算量和参数量,实现了高效且轻量化的特征提取,为处理大规模、高分辨率的安检图像提供了有力支持。
2.2. 跨尺度注意力模块
在X光违禁品检测任务中,捕捉不同尺度的特征至关重要。X光图像中目标尺寸变化显著,同一种物品在不同容器中可能呈现出明显差异,同时目标的尺度范围广泛,从小型物品(如刀片或电子元件)到形状不规则的大型物品不等。为了增强模型对不同尺度目标的适应能力,我们在检测框架中引入了跨尺度注意力模块(图3)。该模块采用多分支结构,其中查询(Query)来源于高分辨率特征,以保留精细的定位信息;而键(Key)和值(Value)则来源于下采样特征,用于编码更广泛的上下文信息。通过对高分辨率查询与低分辨率键值对进行对齐,跨尺度注意力能够在降低计算复杂度的同时高效建模长距离依赖关系。
这种设计使得模型能够动态关注不同尺度上的关键区域,提高对小型、密集分布违禁品的敏感性,同时保持对大型目标的稳健识别能力。跨尺度特征的交互有效降低了在复杂背景下遗漏细小目标的风险,并提升了特征表示的鲁棒性。
Figure 3. Cross-scale attention module
图3. 跨尺度注意力模块
3. 实验分析
3.1. 实验环境
所有实验均在Windows 11操作系统下进行,硬件配置为NVIDIA RTX 4090 GPU (24 GB显存),以保证高分辨率X光图像的高效处理。软件环境包括Python 3.10和深度学习框架PyTorch 2.1,提供了完整的模型训练与推理支持。模型训练共进行200个epoch,初始学习率设为1 × 10−4,批次大小为64,同时引入权重衰减1 × 10−4,以防止过拟合并增强模型的泛化能力。在跨尺度注意力模块中,我们采用了四个注意力头,能够充分捕捉不同尺度的特征信息,实现对小型和大型违禁品的精准识别。此外,为进一步稳定训练过程,我们对优化器进行了参数调优,并结合学习率衰减策略,以提升模型在不同复杂场景下的检测性能。
3.2. 数据集
本研究采用了SIXray数据集,该数据集由多个地铁安检点收集,共包含1,059,231张X光安检图像,旨在为违禁品检测研究提供大规模、高真实感的数据支持。数据集涵盖六类常见违禁品,包括手枪(Gun)、刀具(Knife)、扳手(Wrench)、钳子(Pliers)、剪刀(Scissors)和锤子(Hammer),同时包含大量正常样本,用于模拟实际安检环境中违禁品稀少的情况。SIXray数据集的一个显著特点是类别严重不平衡,正常样本数量远远多于违禁品样本,这种设计真实反映了现实安检场景中违禁品的低发生率,增加了目标检测任务的挑战性。
为了确保模型训练的公平性和科学性,本文将数据集按8:1:1的比例划分为训练集、验证集和测试集,并在划分过程中保持正负样本比例的一致性,以避免训练过程中出现偏倚。此外,该数据集提供了丰富的遮挡、重叠及复杂背景样例,使得模型在训练过程中能够学习到多样化的特征模式,从而提高其在实际应用中的泛化能力和鲁棒性。
3.3. 评估指标
在本研究中,我们采用四个评价指标对模型的检测性能进行综合评估,分别为平均精度均值(mean Average Precision, mAP)、每秒帧数(Frames Per Second, FPS)、模型参数量(Params)以及计算量(Giga Floating Point Operations, GFLOPs)。其中,FPS用于衡量模型的推理速度,是评估目标检测算法实时性能的重要指标;Params表示模型的参数规模;GFLOPs则刻画了模型的计算复杂度。在这些指标中,mAP是最关键的精度指标,其数学表达如下:
(1)
(2)
(3)
其中,P (Precision,精确率)表示所有预测为正样本中真正为正样本的比例,反映模型预测结果的准确性;R (Recall,召回率)表示所有实际正样本中被正确识别的比例,反映模型对正样本的检测能力。平均精度(Average Precision, AP)通过积分精确率–召回率曲线来评估模型对特定类别的检测性能,而mAP则为所有类别AP的平均值,用于综合衡量模型的整体检测性能。
3.4. 实验结果
如表1所示,本文在SIXray数据集[21]上对YOLO-XRAY与七种主流目标检测模型进行了系统比较。实验结果表明,YOLO-XRAY实现了最高的检测精度,其中mAP@50达到最佳表现,较次优方法QCFS提高了5.8%,从而验证了其在违禁品检测任务中的有效性。在模型复杂度方面,YOLO-XRAY的参数量为3.59 M,略高于YOLOv5n (2.7 M),但远低于其他复杂模型。这一优势主要得益于网络结构中引入了深度可分离卷积,有效减少了卷积操作中的冗余计算,实现了轻量化设计与高效计算的平衡。在计算复杂度(GFLOPs)方面,YOLO-XRAY的值为11.8,略高于YOLOv5n (8.5)和YOLOv8n (9.3),但仍显著低于大多数其他对比模型,进一步证明了其计算效率。此外,YOLO-XRAY在推理速度(FPS)方面也表现出优越性能,满足实时检测应用的需求。
Table 1. Experimental result
表1. 实验结果
模型 |
P% |
R% |
Params (M) |
FLOPS (G) |
mAP@50 |
FPS |
YOLOv5n |
71.2 |
59.7 |
2.7 |
8.5 |
69.1 |
242 |
YOLOv6n |
61.5 |
65.6 |
4.6 |
12.4 |
70.3 |
186 |
YOLOv7-tiny |
66.8 |
71.3 |
6.2 |
13.8 |
71.6 |
141 |
YOLOv8n |
68.6 |
63.5 |
3.8 |
9.3 |
72.4 |
322 |
Faster R-CNN |
71.6 |
73.6 |
101.7 |
238.2 |
75.7 |
108 |
Improved RetinaNet |
72.3 |
74.6 |
80.1 |
232.4 |
78.9 |
136 |
QCFS |
75.4 |
76.0 |
98.5 |
249.8 |
82.8 |
134 |
YOLO-XRAY(ours) |
80.5 |
82.3 |
3.59 |
11.8 |
87.9 |
305 |
为了更直观地展示YOLO-XRAY的检测能力,本文在测试图像上呈现了其可视化结果(图4)。结果显示,YOLO-XRAY不仅能够准确识别和定位多类别违禁品,还能在目标尺度变化大、部分遮挡以及复杂背景干扰等挑战条件下保持高检测精度和稳定性。
Figure 4. Visualization results of YOLO-XRAY on the test set
图4. YOLO-XRAY在测试集上的可视化结果
3.5. 消融实验
为深入评估所提出模块的有效性,本文基于YOLOv8n作为基线模型,设计并开展了系统性的消融实验,实验结果如表2所示。从结果可以看出,基线模型在未引入任何改进模块的情况下,mAP@50为72.4%,参数量为3.8 M,计算量为9.3 GFLOPs,FPS为322,整体表现有限。
当仅引入深度可分离卷积模块时,mAP@50提升至79.5%,相较基线提升了7.1个百分点;同时参数量由3.8 M降低至3.13 M,计算复杂度也从9.3 GFLOPs降至8.1 GFLOPs,表明深度可分离卷积模块不仅有效提升了特征提取能力,还实现了结构轻量化和计算效率的优化,推理速度提升至343 FPS。当仅引入跨尺度注意力模块时,mAP@50达到83.6%,比基线提高11.2个百分点,显著增强了模型对复杂场景和多尺度目标的检测能力。然而,由于跨尺度注意力机制的计算开销,参数量和FLOPs分别增加至3.42 M和10.4 GFLOPs,FPS降至289,说明跨尺度注意力模块在提升检测精度的同时增加了一定的计算负担。当同时引入深度可分离卷积模块和跨尺度注意力模块时,模型的综合性能达到最优,mAP@50显著提升至87.9%,比基线提高15.5个百分点。与此同时,参数量仅为3.59 M,FLOPs为11.8,仍然保持在较低水平;FPS达到305,充分证明了所提出方法在检测精度与实时性之间取得了良好的平衡。
综上所述,消融实验结果验证了深度可分离卷积模块和跨尺度注意力模块的有效性:前者主要贡献在于降低模型复杂度和提升推理速度,后者则显著增强了跨尺度特征建模能力,提高了检测精度。二者结合能够实现精度与效率的双重优化,为X光违禁品检测提供了更为可靠的解决方案。
Table 2. Results of ablation experiment
表2. 消融实验结果
深度可分离卷积模块 |
跨尺度注意力模块 |
P% |
R% |
Params (M) |
FLOPS (G) |
mAP@50 |
FPS |
× |
× |
68.6 |
63.5 |
3.8 |
9.3 |
72.4 |
322 |
√ |
× |
71.9 |
73.3 |
3.13 |
8.1 |
79.5 |
343 |
× |
√ |
78.4 |
77.9 |
3.42 |
10.4 |
83.6 |
289 |
√ |
√ |
80.5 |
82.3 |
3.59 |
11.8 |
87.9 |
305 |
4. 结论与展望
本文提出了一种面向X光安检任务的改进型轻量化检测模型——YOLO-XRAY。通过引入跨尺度注意力机制、自适应池化以及深度可分离卷积,模型在提升小目标检测能力、增强复杂背景和遮挡场景下的鲁棒性以及降低计算复杂度方面均取得了显著效果。在SIXray数据集上的实验结果表明,YOLO-XRAY在保持实时检测性能和较低模型复杂度的同时,显著提升了检测精度,充分验证了该方法在实际安检系统中的可行性与有效性。
尽管取得了良好表现,本文仍存在一定局限性。首先,SIXray数据集虽然涵盖了典型的违禁品类别,但其类别规模和场景多样性仍有限,模型在更大规模、多模态的安检数据上的泛化性能有待进一步验证。其次,YOLO-XRAY的轻量化设计虽然兼顾了速度与精度,但在极端遮挡或超密集场景下仍可能存在误检与漏检问题。
未来的研究方向包括多模态融合方法的探索,例如结合毫米波成像和红外检测等异质信息,以进一步提升模型在复杂安检环境下的判别能力。同时,可以引入领域自适应和迁移学习策略,从而增强模型在不同安检场景、设备与数据分布之间的适应性。此外,结合模型压缩、量化以及硬件加速技术,有望实现更加高效地部署,满足算力受限环境中的实时应用需求。随着这些方向的持续深入,YOLO-XRAY及其衍生方法将在智能安检领域展现出更广阔的发展前景与应用潜力。