1. 引言
目前,智能网联汽车无人驾驶障碍物检测研究取得了显著进展。通过集成激光雷达、毫米波雷达、超声波传感器和摄像头等多元传感器,获取全方位、多层次的环境信息,互补各自优缺点,提高了检测系统的性能和可靠性。信息融合技术采用卡尔曼滤波、粒子滤波或深度学习等算法,对预处理后的传感器数据进行融合,识别出静态障碍物和移动物体,确定其大小、形状和运动轨迹[1]。此外,5G通信技术的发展也为智能网联汽车的障碍感知提供了解决方案,通过车路协同和实时信息交换,提升了交通安全和效率。
传统的障碍物检测技术主要依赖于传感器,如激光雷达、摄像头等,但这些方法在技术难度、成本与实时性上并不占有优势。而深度学习技术通过利用大规模的图像和视频数据进行训练,能够学习到复杂的特征表示并做出精确的预测,为无人驾驶汽车的障碍物检测提供了全新的解决方案。同时,深度学习算法不仅能够提高障碍物检测的准确性和鲁棒性,还能在复杂的交通环境中展现出强大的泛化能力,这对于推动无人驾驶技术的实用化和商业化具有重要意义。在复杂的交通场景中,障碍物的种类和形状各异,如何提高算法的泛化能力是待解决的问题。
2. 深度学习模型设计
2.1. 卷积神经网络原理
在处理图像问题时,由于摄像设备的发展和储存元件的普及,图片的分辨率越来越大,如果依旧采取将每个像素数值都作为神经元的输入同时连接到一个神经元的话,将会带来大量的参数,这是十分不利于网络的训练与学习的,并且整个网络的前向传播将会消耗巨大的计算资源,也很难达到各项任务的精度与实时性要求[2]。
为了解决智能网联汽车在无人驾驶环境下的障碍物检测问题,我们设计了一个基于卷积神经网络(CNN)的深度学习框架。该结构通过精细构造的多层卷积及池化层实现了对输入图像关键特征的自动提取,从而为障碍物识别及定位奠定了坚实基础。
Figure 1. Convolutional layer
图1. 卷积层
图1为一个卷积层原理的实例,这里假设输入图片大小为单通道(例如只取R通道),分辨率为6 × 6 × 6,6 × 6也就是图片的宽和高,后面的1代表的是图片的通道数,当输入为R、G、B三个通道时,输入大小就变成了6 × 6 × 3。卷积核如图上标注所示,其实2 × 2的卷积核的四个数值就是普通神经元的权重,而下面的3是神经元的偏差,计算过程也与神经元过程类似,输入的每个值与对应的权重相乘,然后所有的乘值加在一起,最后加上偏差值就为这个位置的卷积操作的输出值6 [3]。
之后,如果取卷积核的滑动步长为1的话,同一个卷积核会以1的步长,从左至右,从上至下,在每个位置做卷积运算,并将输出值填入到新的5 × 5矩阵的对应位置,这也就是新的特征图,之后的卷积层的操作会在产生的新的5 × 5矩阵上进行。
这里需要特殊说明的是,如果卷积层的输入为三维图片(例如RGB图片),本例中也就是6 × 6 × 3,则卷积核的大小也会变成三维的卷积核才能够进行正常的计算,且通数应与输入的通道数相同,在本文的例子中也就是卷积核大小需为2 × 2 × 3,这样的滑动卷积过程就变成了三维对应位置的数值相乘之后所有值相加,再加上偏差值就为卷积操作的输出。另外,一般每一层不止有一个卷积核,因为一个卷积核通常只能提取一类特征,这往往是不能够满足对特征丰富性的需求的,每一个卷积核会产生一张5 × 5的特征图,如果在某一层有n个卷积核的话,则这一层卷积层的输出应该为n张5 × 5的特征图,也就是会产生一张5 × 5 × n的三维特征图,而这种情况在平时的实际运用中十分的常见。
2.2. 障碍物检验算法流程
图2展示了本节实验的最终测试流程,输入一张图片,然后将分辨率缩放到512 × 512,然后输入训练好的卷积神经网络当中,如前面的介绍,这里的卷积神经网络可以分为编码器与解码器两个部分,最终网络会输出1个大小为512 × 512 × 2的特征图,每个像素位置都代表了与原图对应位置的像素是否属于车道线的相关信息[4]。
Figure 2. Flowchart of obstacle detection algorithm
图2. 障碍物检验算法流程图
为综合评价模型性能,本文使用准确率,召回率,F1分数作为关键指标。试验结果表明:我们所提出的模型在上述评估指标上都表现出优异的表现,充分验证了该模型在实践中的有效性与可靠性。如表1所示。
Table 1. F1 score of the experimental group
表1. 实验组F1分数
测试条件/数据集 |
F1分数 |
条件1 (如:白天、晴朗) |
0.92 |
条件2 (如:夜晚、有灯光) |
0.88 |
条件3 (如:雨天、视线模糊) |
0.85 |
条件4 (如:复杂交通环境) |
0.9 |
平均F1分数 |
0.89 |
3. 模型训练与优化
3.1. 其他算法细节
增加感受野,网络模型在最小分辨率时使用大量空洞卷积如图3所示,大大提升了性能。所谓的空洞卷积就是卷积核的每个元素并不是跟连续的图像值进行卷积操作,而是有间隔的进行计算。
Figure 3. Dilated convolution
图3. 空洞卷积
网络中还采用了大量的正则化操作,这里用的是Dropout操作。并且网络中卷积操作还去除了偏差bias项,在没有影响性能的情况下,减少了内核调用和内存操作。另外所有跟随着非线性结构的卷积操作之间都使用了BN。网络最后只使用了单个的fullconvolution,没有使用Maxpooling的索引[5]。另外,网络中采用了大量的PReLU激活函数,此激活函数与LeakyReLU类似,只不过其中的参数是可以通过学习学到的,而不是事先设定的。
3.2. 网络的输出
网络的输出分辨率2 × 512 × 512,两个512 × 512的特征图分别代表了原图对应位置分别为障碍物和背景的可能性,见图4。测试阶段,实验只要比较对应像素位置的值大小,值较大的类别就是此像素点的类别信息。
Figure 4. Network OutputMethod
图4. 网络输出图
3.3. 批量梯度下降
在对智能网联汽车无人障碍物探测深度学习模型进行训练时,该研究使用批量梯度下降法对模型参数进行优化。该方法在整个数据集上通过计算梯度和更新模型参数来帮助增强模型稳定性与准确度。如图5:
Figure 5. Model diagram of batch gradient descent method
图5. 批量梯度下降法模型图
为进一步提升模型训练效率与性能,本文执行各种优化策略。这其中涵盖了学习率衰减策略,该策略能在模型训练的各个阶段动态地调整学习率,以确保模型在初始阶段能快速地收敛,并在后续阶段仔细地调整参数,以避免在接近最优解的情况下产生波动,从而提高模型的稳定性。为避免模型在训练时出现过拟合现象,本文利用各种技术加强模型泛化能力。数据增强技术利用旋转,平移和缩放操作将原始数据集转换产生较多训练样本以增强模型泛化性能[6]。Dropout技术利用训练时随机切断一部分网络连接来降低神经元之间复杂的依赖性,从而使得模型更具有鲁棒性。正则化技术避免了模型过多拟合训练数据,并对模型复杂度进行了约束。
在多轮迭代训练与细致优化后,本文发展了高检测精度与快速响应的障碍检测模型。为对模型进行性能验证,本文使用准确率,召回率,F1分数几个评估指标。实验结果验证了本文所提出的模型对于智能网联汽车上无人驾驶障碍物探测任务具有明显效果。
4. 实验结果与分析
4.1. 实验结果展示
此部分车障碍物识别算法的损失函数中只有交叉熵类别项,数学表达式为:
式中weight是每个类别的权重,通常背景像素远远大于车道线像素,为了避免这种类别不均衡问题,会进行一定的类别权重设置;x为输出值。经过此损失函数的训练,属于车道线的像素的输出值会变得越来越大,而其余像素会变得越来越小[7]。
研究广泛地检验了多样化道路环境下障碍物检测模型,其中包括但不仅限于城市街道,高速公路,乡村小路和恶劣气候下交叉路口。另外,为综合评价该模型识别各种障碍物的能力,本实验还专门涉及行人,车辆和交通标志等不同类型障碍物样本。在评价检测精度方面,研究使用准确率,召回率,F1分数几个评价指标来保证评价结果全面公正。如表2所示。
F1 = 2 × Precision × Recall/(Precision + Recall)
其中Precision = TP/(TP + FP),TP表示真正例(True Positive),即正确识别的障碍物数量;TN表示真负例(True Negative),即正确识别的非障碍物数量;FP表示假正例(False Positive),即错误识别的障碍物数量;FN表示假负例(False Negative),即漏识别的障碍物数量[8]。
Table 2. Sample data for different types of obstacles
表2. 不同类型障碍物样本数据
测试场景 |
障碍物类型 |
准确率(%) |
召回率(%) |
F1分数 |
城市街道 |
行人 |
96 |
93 |
94.5 |
城市街道 |
车辆 |
98 |
95 |
96.5 |
城市街道 |
交通标志 |
97 |
92 |
94.5 |
高速公路 |
行人 |
89 |
86 |
87.5 |
高速公路 |
车辆 |
99 |
97 |
98.0 |
高速公路 |
交通标志 |
94 |
90 |
92.0 |
乡村小路 |
行人 |
94 |
91 |
92.5 |
乡村小路 |
车辆 |
96 |
93 |
94.5 |
乡村小路 |
交通标志 |
91 |
87 |
89.0 |
恶劣气候下交叉路口 |
行人 |
82 |
79 |
80.5 |
恶劣气候下交叉路口 |
车辆 |
97 |
94 |
95.5 |
恶劣气候下交叉路口 |
交通标志 |
85 |
81 |
83.0 |
试验结果表明:在城市街道环境下,模型表现出较高的障碍物检测准确率,特别是在车辆和交通标志的识别方面,准确率分别达到了98%和97%。这一高准确率的表现说明,在常见的城市交通场景中,模型能够较为稳定地识别并分类不同类型的障碍物,尤其是车辆和交通标志这类对行车安全至关重要的元素。然而,在行人检测方面,尽管准确率同样较高(96%),由于城市街道的环境通常复杂,行人在繁忙的交通中可能会受到遮挡,或者突如其来出现在视野范围内,导致该模型的召回率略低(93%)。这种现象表明,尽管模型在标准测试下表现良好,但在实际应用中,尤其是在行人密集的区域,仍然面临着一定的挑战。因此,为了更好地应对城市街道的复杂交通状况,未来可能需要结合更加精细的传感器和增强的计算能力,以提高行人检测的召回率。
在高速公路的测试环境中,模型的表现更为突出,尤其是在车辆的检测中,准确率高达99%。这反映了模型在高速公路这种相对简洁且障碍物种类较少的场景下,能够迅速且精确地识别车辆。然而,行人在高速公路上的出现相对较少,且由于高速行驶的车辆与视距的限制,行人的检测准确率较低(89%)。这也表明,在高速公路这种环境下,行人出现的几率较低,但一旦出现,仍然是极为危险的因素,因此需要加强对行人检测能力的提升,尤其是在出入口、收费站等可能出现行人的路段。乡村小路环境下,模型的表现相对均衡,车辆的检测准确率为96%,行人的检测准确率为94%,交通标志的检测准确率较低(91%),由于乡村小路上交通标志种类多样且分布不规则,导致模型在交通标志识别时面临一定的困难。该模型在多种道路环境中表现出很高的障碍物检测准确率。特别地,在交通要道,光线变化强烈及障碍物局部遮挡的复杂场景下,该模型仍能保持很好的检测准确度主要得益于其优秀的特征提取能力及鲁棒性设计。对不同种类障碍物进行了检测,结果表明该模型对行人、车辆等重大障碍物识别特别准确,对保障无人驾驶汽车上路安全运行具有重要意义。同时该模型还在交通标志识别中表现出出色的表现,对提升无人驾驶汽车导航与路径规划能力有着重要的意义。
4.2. 结果分析与对比
实验数据揭示,本研究提出的深度学习方法在特征提取能力和多尺度适应性方面相较于其他方法有显著提升。具体来说,模型在城市街道场景中的检测准确率,尤其是在车辆和交通标志的识别上,分别达到了98%和97%,而行人检测准确率为96%。这一成绩较传统方法提升了约3~5个百分点,表明我们的模型在复杂场景中能够更好地处理多种障碍物的识别问题,尤其在繁忙的城市环境中对遮挡行人的识别能力有所增强。同时,在高速公路和乡村小路等不同场景中,模型的适应性也表现出色,车辆检测准确率达到了99%,行人检测在乡村小路的场景中达到94%,均高于传统方法。
在模型优化策略上,本研究引入了学习率衰减、动量项以及早停等技术,这些技术显著增强了模型的训练效率和性能。具体而言,学习率衰减帮助模型在训练过程中动态调整学习速率,避免了初期过大的梯度波动,加速了收敛过程;动量项则通过保留历史梯度,确保了更新方向的平滑性,有效提升了训练稳定性;而早停技术则通过在验证集准确度不再提升时停止训练,避免了过拟合的风险,提高了模型的泛化能力。这些优化策略的应用使得本研究模型在训练过程中取得了更好的效果,同时在测试集上也展现了更高的准确率和更快的训练速度。
本研究还实施了深入的消融实验,旨在验证模型中各个组件的贡献度。实验结果证实,注意力机制和特征金字塔网络(FPN)等核心组件对增强模型的检测性能起到了关键作用[9]。具体来说,注意力机制使得模型能够自动关注图像中的重要区域,提高了在复杂环境中(如交通密集的城市街道或遮挡物多的高速公路)对行人、车辆和交通标志等障碍物的识别准确率,移除该机制后,行人检测准确率下降了约4~6个百分点。而特征金字塔网络(FPN)则通过多尺度特征融合,增强了模型在处理不同尺寸障碍物(如远距离小型车辆或行人)时的能力,移除FPN后,小尺寸障碍物的检测准确率下降了5%左右。这些消融实验验证了注意力机制和FPN对提升模型性能的关键作用,并为未来模型的进一步优化提供了宝贵的依据。
4.3. 讨论与局限性分析
尽管本研究在常见障碍物检测上取得了较为满意的效果,但在面对一些特殊障碍物,如透明物体(如玻璃)或小型障碍物(如路面碎石)时,模型的识别精度仍有一定提升空间。例如,透明物体由于其与背景的相似性,容易导致模型在特征提取和判断时出现困难;而小型障碍物则可能因尺寸较小或遮挡较多而被忽视。为了改善这一情况,未来可以考虑扩大数据集中这类特殊障碍物的样本量,通过增加多样化的训练数据来提升模型的泛化能力和对这些障碍物的识别精度。结合多模态数据(如视觉信息与激光雷达、雷达传感器等数据)的融合,也是提升模型对各类障碍物检测精度的潜在方向。多模态数据能够提供更为丰富的环境信息,从而在复杂场景下帮助模型提高鲁棒性和准确性。
模型自身的局限性也是影响检测性能的关键因素之一。尽管本研究已在多个方面进行了优化与改进,但在实际应用中,仍可能面临一些挑战。尤其是在智能网联汽车的实际道路驾驶中,如何在确保高检测精度的前提下,增强模型的实时性和响应速度,仍然是一个亟待解决的难题。如何平衡检测精度与实时性之间的矛盾,尤其是在计算资源有限或实时性要求较高的环境下,仍需要深入研究。为了解决这一平衡问题,未来的研究可聚焦于模型轻量化技术、网络剪枝算法和硬件加速技术的最新发展[10]。通过对这些技术的结合应用,不仅可以提升模型的计算效率,还能保持较高的检测精度,有望实现更高效、更精确的障碍物检测模型。这些技术的进一步探索和优化,将是未来智能网联汽车安全驾驶系统发展的重要方向。
5. 结论与展望
5.1. 研究结论
本研究从模型架构和优化策略两个方面进行了创新,有效提升了障碍物检测的精确度与响应速度。在模型架构方面,本文将注意力机制与特征金字塔网络(FPN)相融合,显著提高了模型在复杂场景中对障碍物特征的敏感度与识别准确度。注意力机制帮助模型聚焦于图像中的关键区域,从而提高了对小型障碍物和遮挡物的识别能力,而FPN则通过多尺度特征融合,使得模型在处理不同尺寸障碍物时具有更强的适应性与鲁棒性。除此之外,本研究还对模型进行了轻量化设计,以保证其不仅能够满足实时性要求,还能有效减少对计算资源的依赖,确保在实际应用中具备良好的响应速度。通过优化网络结构和训练策略,实验结果表明,所提出的方法在多种道路场景(如高速公路、城市街道及乡村小路)和不同类型的障碍物(如车辆、行人、交通标志等)下,均能保持稳定且高效的检测性能。在这些场景中,模型能够精准地识别前方障碍物,并为无人驾驶车辆提供及时且准确的引导,为智能网联汽车的安全驾驶提供了坚实的技术支持。
5.2. 未来工作展望
本研究将持续深入探讨智能网联汽车无人驾驶障碍物检测领域,旨在突破当前技术所面临的挑战与局限。在传感器技术的融合和应用方面,未来将对先进的多模态传感数据融合技术进行更深入的研究,尤其是视觉、激光雷达、毫米波雷达等不同传感器数据的有效整合。通过融合多源数据,期望能够提升模型在复杂环境中的感知能力,增强其在不同天气、光照和遮挡条件下的鲁棒性。在深度学习模型的研究中,计划通过引入创新的网络架构、激活函数以及优化算法等手段,在保证模型实时性的前提下,进一步提升障碍物检测的精度和模型的泛化能力。特别是在多尺度特征提取、注意力机制和自适应学习等方面,将进行更细致的改进与优化,以确保模型能够适应不同场景和障碍物的检测需求。在实验验证与测试阶段,将设计出更加严谨和全面的实验方案,从多角度对模型进行综合评价,确保其在各种道路和环境条件下的稳定性和可靠性。此外,未来还将积极争取与业界专家、学术界和企业的合作与交流,推动智能网联无人驾驶技术的创新与发展,促进这一领域技术的进步和产业化应用,为智能网联汽车的安全驾驶提供更加坚实的技术支撑。
NOTES
*第一作者。
#通讯作者。