面向电商无人配送复杂场景的感知模型研究
Research on Perception Models for Complex Scenarios in E-Commerce Unmanned Delivery
DOI: 10.12677/ecl.2025.14113592, PDF, HTML, XML,   
作者: 刘予莘:贵州大学大数据与信息工程学院,贵州 贵阳
关键词: 无人配送无人驾驶目标检测RT-DETRAFGCEMAUnmanned Delivery Autonomous Driving Object Detection RT-DETR AFGC EMA
摘要: 在电商高速发展与用工成本上升的背景下,无人配送具备降本增效、全天候运行与无接触服务等优势,但其规模化落地仍受限于复杂环境下的稳健感知。环境感知是保障无人配送车辆安全通行与高效决策的关键,其准确性直接决定配送车对动态场景的理解能力。基于Transformer的RT-DETR依托全局注意力与端到端检测实现了较高效率与精度,但在无人配送典型场景中的多尺度目标与频繁遮挡下,仍存在特征融合与遮挡鲁棒性不足。为此,本文提出面向电商无人配送的RT-DETR改进方案:在骨干网络关键层嵌入自适应聚焦全局上下文注意力模块,通过动态调节感受野增强多尺度表征,从而提升对小目标与遮挡体的可分辨性;并在FPN/PAN中引入指数移动平均增强的跨维度注意力机制,以更稳健地建模长程依赖并优化跨层特征融合。实验结果表明,改进模型在Udacity自动驾驶数据集上实现mAP@50提升25.6%、mAP@50-95提升13%,验证了方法在电商无人配送典型场景中的迁移性与应用价值。
Abstract: Against the backdrop of rapid e-commerce development and rising labor costs, unmanned delivery offers advantages, such as cost reduction, efficiency improvement, 24/7 operation, and contactless services. However, its large-scale deployment remains constrained by robust perception in complex environments. Environmental perception is crucial for ensuring the safe passage and efficient decision-making of unmanned delivery vehicles, with its accuracy directly determining the vehicle’s ability to understand dynamic scenes. While the Transformer-based RT-DETR achieves high efficiency and accuracy through global attention and end-to-end detection, it still suffers from insufficient feature fusion and occlusion robustness when dealing with multi-scale objects and frequent occlusions in typical unmanned delivery scenarios. To address these issues, this paper proposes an improved RT-DETR model tailored for e-commerce unmanned delivery. An adaptive global context attention module is embedded into key layers of the backbone network to enhance multi-scale representation by dynamically adjusting the receptive field, thereby improving discernibility for small objects and occluded targets. Additionally, an exponential moving average-enhanced cross-dimensional attention mechanism is introduced into the FPN/PAN to more robustly model long-range dependencies and optimize cross-layer feature fusion. The experimental results demonstrate that the improved model achieved a 25.6% increase in mAP@50 and a 13% improvement in mAP@50-95 on the Udacity autonomous driving dataset, validating the transferability and application value of the proposed method in typical e-commerce unmanned delivery scenarios.
文章引用:刘予莘. 面向电商无人配送复杂场景的感知模型研究[J]. 电子商务评论, 2025, 14(11): 1533-1541. https://doi.org/10.12677/ecl.2025.14113592

1. 引言

在电商末端无人配送加速落地的背景下[1],配送小车需在复杂且多样化的作业环境中稳定运行,其系统的可靠性与安全性首先取决于环境感知能力。作为感知中枢,目标检测必须在实时约束下对行人、非机动车、车辆等多样目标进行精准识别与定位[2]。在遮挡频繁、光照变化显著、目标尺度长尾且目标密度波动的无人配送场景中,检测的精度与稳定性直接决定系统对潜在风险的前瞻性预判与安全冗余配置,因此持续提升目标检测性能是推动无人配送规模化与常态化运营的关键前提。

尽管深度学习显著推动了目标检测技术的发展,但在无人配送场景中仍存在诸多挑战:小目标检测受限于分辨率约束,密集遮挡易导致特征丢失,而动态环境对实时性能的要求依然严苛。为应对这些问题,学界提出了多种改进方案。例如基于Transformer的DETR [3]模型通过全局注意力机制增强长程依赖建模,YOLO [4]系列则侧重轻量化设计以优化检测速度。然而传统方法仍难以有效平衡精度与速度,且纯Transformer架构的高计算成本制约了其在实时系统中的实用性。因此,开发更高效的解决方案已成为迫切需求。

作为基于Transformer的先进实时检测器,RT-DETR [5]融合了CNN的局部特征提取能力与Transformer的全局建模优势。该模型采用混合编码器架构与动态匹配策略,在保持端到端检测特性的同时显著提升推理速度。相较于传统方法,RT-DETR通过自适应特征选择机制增强多尺度融合效率,在Udacity自动驾驶数据集等基准测试中实现精度与速度的协同提升,为自动驾驶感知提供了可行的技术路径。

尽管RT-DETR性能优异,但在复杂场景中仍存在两个关键局限:(1) 对遮挡目标与小物体的特征表达能力不足;(2) 特征金字塔内部的跨尺度信息交互效率有待提升。针对这些问题,本文提出针对性改进方案:首先,在骨干网络关键层嵌入AFGCAttention [6]模块,通过自适应感受野机制增强多尺度特征聚焦能力;其次,将FPN/PAN中的RepC3模块替换为由EMA [7]改进的EMA_attentionC3结构,利用跨维度注意力与时序特征增强优化信息融合效果。

本文的主要贡献可归纳如下:

(1) 我们采用AFGC注意力模块,通过动态权重分配机制,增强骨干网络对遮挡目标与小目标的特征提取能力。

(2) 我们引入EMA-Attention C3结构,将基于EMA的时间建模与空间–通道双维度注意力结合,以提升特征金字塔中的长程依赖建模能力。

(3) 我们提出的改进方案,强化对遮挡、尺度变化与背景干扰的适应性,从而提升整体检测稳定性。

实验结果表明,改进后的模型性能方面优于原始RT-DETR模型。

2. 相关工作

2.1. 无人配送场景中的目标检测技术发展

无人配送面向复杂且多样化的作业环境,目标呈现长尾、小尺度与遮挡频发等特征[8]。两阶段方法以Faster R-CNN [9]为代表,定位精度较高但推理开销大;单阶段方法以YOLO系列为代表,速度占优但在密集与遮挡场景下小目标易漏检。Transformer检测如DETR及其改进依托全局建模提升复杂场景鲁棒性,但计算成本较高,车载侧实时部署受限。RT-DETR在端到端范式下压缩时延并兼顾精度,更契合无人配送的实时需求,但在多尺度特征融合与遮挡鲁棒性方面仍有提升空间。

2.2. Transformer在目标检测中的应用

Transformer模型在自然语言处理领域的成功,推动了其在计算机视觉中的应用。DETR首次将Transformer架构引入目标检测任务,采用编码器–解码器结构实现端到端检测,摒弃了传统方法中常用的锚框和非极大值抑制等组件。后续研究通过不同方向进行优化:如DINO-DETR [10]则借助对比学习策略提升检测性能。然而,纯Transformer结构仍存在计算开销大的问题。为此,研究者开发了结合CNN优势的混合模型,例如通过分层设计提升效率的Swin Transformer [11],在保持全局建模能力的同时显著改善了计算效率。

2.3. 目标检测模型的优化方法

实时目标检测对自动驾驶系统至关重要。为提升模型效率,研究者提出了多种轻量化设计与结构优化方案。例如YOLO系列通过精简网络深度与宽度实现高速检测。而RT-DETR创新性地融合了CNN的局部特征提取能力与Transformer的全局建模优势,通过混合编码器架构与动态匹配策略实现实时检测。然而,该模型在复杂配送场景下的多尺度特征融合性能仍有提升空间。

3. 方法

本研究基于Ultralytics提出的RT-DETR-l检测框架,构建了面向无人配送场景的改进模型。RT-DETR作为一种结合Transformer编码器–解码器结构与轻量CNN骨干的实时检测器,具备强大的端到端检测能力。该框架采用分层特征提取结构,输出P3 (1/8)、P4 (1/16)和P5 (1/32)三个分辨率层级的特征图,通过多尺度聚合进行特征融合与优化,最终经解码器生成检测结果。

在改进后的架构中,我们对骨干网络和特征融合网络进行了针对性增强:首先,在骨干网络关键阶段嵌入AFGC注意力模块,通过频域感知机制增强全局语义表征,提升对小目标与遮挡物体的感知能力;其次,将特征融合网络中的标准RepC3模块替换为EMA-Attention C3模块,该模块集成轻量级多头注意力与门控融合机制,有效建模空间和通道维度的长程依赖关系。这些改进模块被部署在特征融合流程的P3~P5多个阶段,从而实现更高效的多尺度表征学习。值得注意的是,所有增强措施在保持原有模型轻量化和实时性特点的同时,显著提升了检测精度。完整架构如图1所示。

Figure 1. Improved model architecture. This model represents the overall architecture of the enhanced RT-DETR: the backbone network adopts a hybrid convolutional structure and incorporates the AFGC module to enhance frequency-aware global contextual information; the neck network integrates the EMA-Attention C3 module within the PAN structure to achieve multi-scale feature fusion; the final detection is performed end-to-end by the RT-DETR decoder

1. 改进后的模型架构。该模型为改进版RT-DETR的整体架构:骨干网络采用混合卷积结构并嵌入AFGC模块,以增强频率感知的全局上下文信息;颈部网络在PAN结构中集成EMA-Attention C3模块,实现多尺度特征融合;最终检测由RT-DETR解码器以端到端方式完成

3.1. AFGC Attention

AFGC (Adaptive Fine-Grained Channel,自适应细粒度通道)注意力模块是一个轻量且高效的机制,用于更精确地建模通道间的长程依赖。与传统的通道注意力不同,AFGC在全局池化特征上引入可学习的一维卷积,以自适应地为不同通道分配重要性。该卷积操作使网络能够动态捕获跨通道的细粒度上下文交互,从而提升特征判别力。

在我们的实现中,AFGC模块首先对输入进行全局平均池化以获得按通道的描述子;随后将其送入1D卷积层以提取局部模式,并与另一条通过投影得到的通道注意力分支进行融合,融合方式为可学习的门控混合函数。最终的注意力权重经由sigmoid激活得到,并用于重加权原始输入。其计算流程见公式(1):

Output=Xσ( Conv1D( Mix( f 1 , f 2 ) ) ) (1)

其中 f 1 f 2 分别表示通过卷积运算和矩阵交互得到的两个通道特征表示。最终加权输出结果由门控混合机制计算生成,并用于对原始输入特征图X进行重标定。

AFGC模块部署于RT-DETR主干网络的中高层特征提取阶段,用于增强中尺度和高语义层特征的通道注意力响应能力。在RT-DETR中,Backbone提供多尺度特征用于后续融合,AFGC的引入可在每个尺度内部实现更精准的通道选择,从而提升检测目标的特征可分性。

AFGC注意力模块的优势在于其动态通道加权机制,该机制使模型能够捕捉跨通道的细粒度上下文交互。这种设计显著提升了模型在复杂交通场景下检测小目标与遮挡物体的性能。此外,模块的轻量化设计确保了其在实时检测任务中的高效性。

综上所述,AFGC注意力模块通过融合全局平均池化、一维卷积与门控混合机制,显著增强了特征图的表达能力。该模块在保持计算效率的同时,有效提升了特征判别力——特别是在处理多尺度目标与复杂交通环境时表现突出,为实时目标检测任务提供了显著优势。

3.2. EMA-Attention C3

为增强RT-DETR原有的特征聚合结构,我们设计了一种新型轻量模块EMA-Attention C3,用于替代FPN/PAN颈部网络中的传统RepC3模块。该模块受分组交互与多尺度上下文建模思想启发,引入了跨维度注意力机制。

其核心组件EMA-Attention单元将通道分组,并在空间与通道维度上实施并行注意力计算。该单元通过水平与垂直池化捕获方向感知的上下文信息,结合门控激励与softmax引导的重加权机制,显著增强全局与局部特征的交互效能。辅以分组归一化与基于卷积的特征优化管道,进一步提升了特征判别能力。

EMA-Attention C3模块采用双路径结构设计:其中一条路径通过堆叠的EMA-Attention单元进行特征处理,另一条路径则保留残差连接以实现快捷传播。这种结构在不过度增加计算开销的前提下,既改善了信息流动效率,又实现了动态特征重校准功能。

EMA-Attention C3模块的整体计算过程可抽象为以下公式(2):

(2)

其中 Conv 1 Conv 2 Conv 3 为逐点卷积操作,EMA表示在通道分组内执行的注意力运算。

EMA-Attention C3被部署于RT-DETR的多尺度特征融合路径中,用以替代原有的RepC3模块。在原始 RT-DETR架构中,FPN/PAN负责自底向上融合不同分辨率的语义信息,但在面对复杂场景中尺度不均与长距离依赖建模能力不足的局限时,该结构存在感受野不充分的问题。引入EMA-Attention C3后,不仅增强了尺度间的上下文感知,还通过横纵维度的方向感知池化补全了局部与全局特征的耦合能力,从而优化了模型的检测表现。

4. 实验

4.1. 数据集

本研究使用的数据集为Udacity自动驾驶汽车数据集(由Roboflow提供),专为自动驾驶感知任务设计。该数据集包含15,000张图像,共计97,942个标注边界框,涵盖车辆、行人、交通信号灯、交通标志、骑行等11类常见交通相关目标。其中约1,720张图像为负样本(即不包含可检测目标),此类样本有助于提升模型在无目标场景中的鲁棒性。

原始图像分辨率为1920 × 1200。Roboflow同时提供了下采样版本(512 × 512),该版本兼容YOLO、SSD、Mask R-CNN和MobileNet等主流目标检测模型。本实验选用固定小规模版本——这是一个经过预划分的轻量化子集,支持快速训练与结构对比,被广泛用于模型验证任务。

所有标注均经过Roboflow团队人工校验,确保标注精度。数据集采用YOLO标注格式进行组织,按照8:1:1的比例划分为训练集、验证集和测试集。训练过程中采用了标准数据增强策略,包括随机水平翻转、尺度抖动和亮度扰动。

4.2. 实验结果

为评估所提改进方法的有效性,我们基于Udacity自动驾驶汽车数据集开展了定量与定性结果分析。

图2展示了各类指标在100个训练周期内的学习曲线。损失函数(包括GIoU损失、分类损失和L1损失)持续下降,表明模型收敛稳定。同时,精确率、召回率与mAP等精度指标均呈现稳步上升趋势。最终取得的mAP@0.5 = 76.8%与mAP@50-95 = 39.2%结果,体现了模型在定位精度与分类质量方面的良好平衡。

图3所示,精确率–召回率曲线反映了模型在各类别上的检测性能。改进后的模型在多数类别中表现出高精确度,AP值最高达到0.938。所有类别的综合mAP@0.5指标达到76.8%,验证了模型在处理复杂多类别检测任务方面的强大能力。

图4展示了验证集中的代表性检测结果。该模型能准确识别多种目标类别,包括车辆以及不同状态(如红、绿、黄灯)的交通信号灯。在变化的照明条件与道路纹理下,模型仍保持稳定的预测性能,证明了其在真实驾驶环境中的鲁棒性。

Figure 2. Loss and accuracy metrics training curves

2. 损失与精度指标训练曲线

Figure 3. Precision-recall curves for each category

3. 各类别的精确率–召回率曲线

Figure 4. Visualization of qualitative detection results

4. 定性检测结果可视化

图5改进前后效果对比。左图为基线模型,存在对远处/小目标漏检、框偏移与置信度偏低等问题;右图为改进后的结果,交通灯与车辆目标检测更完整,误检减少,遮挡与光照变化下的小目标置信度明显提升,体现出在复杂道路场景中的整体鲁棒性与精度优势。

Figure 5. Comparison of effects before and after improvement

5. 改进前后效果对比

4.2.1. 对比实验

基于Udacity自动驾驶汽车数据集,我们对改进的RT-DETR模型与基准模型进行了对比研究。实验结果表明,改进模型在精确率、召回率和平均精度均值等指标上均有显著提升。当采用“l”尺度训练100个周期时,改进后的模型mAP@0.5指标提升25.6%,mAP@50-95指标提升13%,其性能表现明显优于基准模型(具体数据见表1)。

Table 1. Detection performance comparison between the original RT-DETR-l model and the improved RT-DETR-l model

1. 原始RT-DETR-l模型与改进RT-DETR-l模型检测性能对比

Model

Evaluation Indicator (100 Epochs)/%

mAP50

mAP50-95

precision

recall

RT-DETR-l

51.2

26.2

64.0

50.4

改进后

76.8

39.2

80.0

70.7

4.2.2. 消融实验

为深入分析各模块的独立贡献,我们通过逐步引入EMA-Attention C3与AFGC模块进行了消融实验,并观测性能指标的变化。

实验结果表明(详见表2),两个模块均对精度提升产生正向影响,而组合使用更能获得协同增强效果,体现了其在特征增强方面的互补性。具体而言,EMA-Attention C3对mAP@0.5指标提升贡献更为显著,而AFGC模块则对mAP@50-95指标增益作用更大,这凸显了其在多尺度目标建模方面的有效性。

Table 2. Performance comparison of models with different improvement methods

2. 不同改进方法的模型性能对比

Configuration

Evaluation Indicator (100 Epochs)/%

mAP50

mAP50-95

Baseline RT-DETR

51.2

26.2

+ EMA-Attention C3

61.8

31.2

+ AFGC

57.4

33.5

+ EMA-Attention C3 + AFGC

76.8

39.2

5. 结论

本文围绕电商末端无人配送的近场多目标检测需求,基于RT-DETR提出感知增强型改进模型。通过在骨干网络引入AFGC注意力以强化频域感知与全局语义建模,并在特征金字塔中采用EMA-Attention C3优化跨层融合与上下文建模,模型在不显著增加参数量与时延的前提下,显著提升了中小尺寸与遮挡目标的检测性能。

在产业层面,该模型有助于无人配送车辆在多样化、半结构化且强动态的作业环境中实现更稳健的环境感知。检测精度与稳定性的提升,可以增强系统对潜在风险的前瞻性预判与避障响应,降低远程接管与异常中断,进而提升履约成功率与时效。轻量高效的设计更契合边缘算力与能耗约束,有助于延长续航并降低整机成本,为大规模车队化运营提供可复制的感知底座。此外,所提模块具备良好的可插拔性,可与现有调度、定位与多传感器融合系统无缝衔接,有望为电商无人配送的规模化落地与长期运维带来可观的成本与安全收益[12]

参考文献

[1] 无人配送在国内商业化的现状、挑战及建议[J]. 智能网联汽车, 2020(2): 60-67.
[2] 王世峰, 戴祥, 徐宁, 等. 无人驾驶汽车环境感知技术综述[J]. 长春理工大学学报(自然科学版), 2017, 40(1): 1-6.
[3] Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A. and Zagoruyko, S. (2020) End-to-End Object Detection with Transformers. In: European Conference on Computer Vision, Springer International Publishing, 213-229. [Google Scholar] [CrossRef
[4] Redmon, J., Divvala, S., Girshick, R. and Farhadi, A. (2016) You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 779-788. [Google Scholar] [CrossRef
[5] Zhao, Y., Lv, W., Xu, S., Wei, J., Wang, G., Dang, Q., et al. (2024) DETRs Beat YOLOs on Real-Time Object Detection. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 17-18 June 2024, 16965-16974. [Google Scholar] [CrossRef
[6] Sun, H., Wen, Y., Feng, H., Zheng, Y., Mei, Q., Ren, D., et al. (2024) Unsupervised Bidirectional Contrastive Reconstruction and Adaptive Fine-Grained Channel Attention Networks for Image Dehazing. Neural Networks, 176, Article ID: 106314. [Google Scholar] [CrossRef] [PubMed]
[7] Ouyang, D., He, S., Zhang, G., Luo, M., Guo, H., Zhan, J., et al. (2023) Efficient Multi-Scale Attention Module with Cross-Spatial Learning. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, 4-10 June 2023, 1-5. [Google Scholar] [CrossRef
[8] 伍景琼, 陈子伟, 岑明睿, 等. 无人机配送模式及关键技术研究综述[J]. 交通信息与安全, 2025, 43(3): 112-127.
[9] Ren, S., He, K., Girshick, R., et al. (2015) Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 1137-1149.
[10] Zhang, H., Li, F., Liu, S., et al. (2022) DINO: DETR with Improved Denoising Anchor Boxes for End-to-End Object Detection.
[11] Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., et al. (2021) Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 10012-10022. [Google Scholar] [CrossRef
[12] 伍景琼, 奠然, 字太升, 等. 无人机配送研究: 关于技术、效益、应用的系统综述[J/OL]. 交通运输系统工程与信息, 1-21.
https://link.cnki.net/urlid/11.4520.u.20250905.0958.008, 2025-10-18.