1. 引言
随着智能交通与自动驾驶技术的飞速发展,道路安全成为至关重要的议题。智行卫士作为保障车辆行驶安全的关键系统,其核心功能之一——障碍物检测,直接关系到行车的稳定性与人员的生命财产安全。在这一背景下,机器视觉技术凭借独特优势,成为智行卫士障碍物检测的核心支撑,发挥着不可或缺的作用。深入研究机器视觉在智行卫士障碍物检测中的原理及应用,对提升智能交通系统安全性、推动自动驾驶技术发展具有重要的理论意义与实际应用价值。本文将系统阐述机器视觉在智行卫士障碍物检测中的工作原理、技术实现、应用场景以及面临的挑战与应对策略,旨在为相关领域研究与实践提供参考,促进智能交通技术的进一步发展。
2. 智行卫士的组成及工作原理
智行卫士选用性能卓越的stm32f10c8t6作为核心微控制器(MCU),并借助多路输出电源模块构建稳定供电系统。该电源模块输入12 V直流电压,经高效转换后,输出5 V、3.3 V标准电压以及可调直流电压,为整个电路各组件提供适配的稳定电力支持。在程序控制方面,预先在MCU中写入精心编写的程序,通过I2C通信协议向四路编码电机驱动模块发送精确指令。此驱动模块以stm32f1作为I2C从机,能够精准读取指令,进而对四个编码电机的运转状态进行精细调控,实现智行卫士平稳、灵活的行进功能。车头下方安装的四路旋钮巡线传感器,利用红外感应技术对地面状况进行实时监测,通过捕捉地面反射红外信号的差异,实现智行卫士精准的巡线行驶,确保车辆沿预设轨迹稳定前行。车身正前方配置的超声波模块,持续测量车前方障碍物的距离,并将数据及时反馈。一旦所测距离超出预先设定的阈值范围,系统即可控制报警器发出警报信号,第一时间提醒驾驶人采取制动措施,全力保障行车安全的及时性与实时性。视觉模块采用功能强大的OpenMV-H7plus,在超声波模块正上方巧妙安置摄像头,用于识别各类交通标识。例如,当检测到停车标志时,视觉模块通过UART串口通信向MCU发送信号,MCU接收停车信号后,迅速指令四路编码电机驱动模块执行制动操作,使车辆平稳停下;遇到障碍物时,同样发送避障信号给MCU,控制车辆灵活绕开障碍物,继续安全前行。智行卫士具备行车全程记录功能,能够对行车过程进行不间断录制,并将视频数据保存至内存卡中。用户可随时读取内存卡,实现录像回放,满足对行车过程追溯和分析的需求,完整实现行车记录仪的基本功能。在停车过程中,当车身受到异常振动(如碰撞)时,系统会自动触发录像功能,记录现场情况,为后续事故处理提供有力证据。此外,智行卫士还配备遥控器,方便用户进行功能切换。用户可在人工功能和自动驾驶模式之间自由选择。系统总体程序设定开机默认为制动模式,在此模式下,电机制动,异常碰撞不仅会触发警报,还会自动开启录像;前方检测到行人或障碍物时也会触发警报。用户还可按需切换至自动驾驶模式或人工模式。在自动驾驶模式下,智行卫士能够沿着线路巡线前进,前进过程中视觉模块持续扫描识别前方各种交通标识和障碍物,并依据识别结果精准执行相应功能,包括闪灯警示、报警提醒、绕行避障、减速慢行等;在人工模式下,则完全由驾驶员操控,满足不同场景下的驾驶需求。整体效果如图1所示,硬件结构如图2所示[1]。
![]()
Figure 1. Overall effect diagram
图1. 整体效果图
Figure 2. Hardware structure diagram
图2. 硬件结构图
3. 机器视觉在智行卫士障碍物检测中的原理及应用
3.1. 机器视觉的基本原理
3.1.1. 图像采集
图像采集是图像训练的前期准备。由于智行卫士可识别六种不同的交通标识符进而实现六种不同的功能,故需要采集六种模型,且至少需要对每个模型采集大约500张图像才能确保后期模型识别的准确度,其中有20%作为训练模型素材。图像采集分为四大过程,分别为:镜头成像、图像传感器工作、数据传输与处理和存储与显示。1) 镜头成像。镜头将外界场景的光线汇聚到图像传感器上,根据光学原理,把三维空间中的物体成像为传感器平面上的二维图像,就像人眼的晶状体将外界景象聚焦在视网膜上一样。2) 图像传感器工作。图像传感器通常是CMOS (互补金属氧化物半导体)类型。传感器上有大量的像素点,每个像素点能将入射的光信号转换为电信号。比如在光线照射下,像素点中的光电二极管会产生与光强成正比的电荷。光电转换产生的电信号是连续的模拟信号,需要经过采样和量化,转换为数字信号才能被OpenMV处理。采样就是按一定时间间隔对模拟信号取值,量化则是将采样得到的连续信号值映射为有限个离散的数字值。3) 数据传输与处理。数据传输:图像传感器将数字化的图像数据通过总线(如SPI、I2C等)传输给OpenMV的主控芯片。数据处理:主控芯片接收到图像数据后,会进行格式转换、降噪、色彩校正等预处理操作,然后可根据用户编写的程序,进行目标识别、特征提取等更高级的图像处理任务。4) 数据的存储与显示。处理后的图像数据可以存储在OpenMV的内存或外部存储设备中,也可以通过USB、I2C等传输到其他设备进行显示或进一步处理[2]。
3.1.2. 图像训练
Table 1. Key parameters of model training
表1. 模型训练关键参数
关键训练参数 |
策略 |
说明 |
学习率 |
0.001~0.0001 |
初始值可参考预训练模型,过高易震荡 |
批次大小 |
18~22 |
根据显存调整,小批次可提升泛化能力 |
Epochs |
30~50 |
结合早停,防止过拟合 |
优化器 |
SGD + Momentum |
泛化性好 |
数据增强 |
旋转、平移、剪切、噪声 |
显著提升小数据集泛化能力 |
验证集大小 |
20% |
|
图像的训练过程是至关重要的,它直接影响模型识别的精度与准确度。训练模型原理主要涉及以下四个关键方面:特征提取与工程、模型选择与训练、模型评估与优化和模型部署与更新。1) 特征提取与工程。特征提取:采用信号处理和机器学习技术,从预处理后的数据中提取有代表性的特征,即对所有图像中的目标模型进行标记。如图3所示,对不同的模型在不同的光线和背景下进行特征标记。特征工程:对提取的特征进行选择、组合和转换,以创造更具区分度和信息量的特征,提升模型性能。2) 模型选择与训练。模型选择:根据任务类型和数据特点,选择合适的机器学习或深度学习模型。这里选择FOMO基于MobileNetV2 (alpha 0.35)的对象检测模型,将图像粗略分割为背景与目标对象的网格。该型号设计为<100 KB大小,并支持任何分辨率的灰度或RGB输入。模型训练:使用标注好的数据集,通过优化算法调整模型的参数,使模型的预测结果与真实标签之间的误差最小化。训练过程中,模型会学习到数据特征与目标之间的映射关系。关键的训练参数[3]如表1所示,整体模型训练效果如图4(a)所示,绿色点表示被正确识别的测试数据。以及各个模型训练的效果如图4(b)所示,一种颜色对应一种模型,在可视化呈现中,同类色点的聚集程度与对该类别模型的识别准确率呈正相关[4]。3) 模型评估与优化。模型评估:使用验证集和测试集对训练好的模型进行评估,计算准确率、召回率、F1值、均方误差等指标,以衡量模型的性能。当计算准确率、召回率、F1值、均方误差均往一个方向变化,且开始徘徊某一个值时,即为最合适的训练周期数,否则容易造成准确率不高或者过拟合。当训练时间过长时,可以通过缩小图片冲动的分辨率大小降低时间,或者降低训练周期数。实际训练数据结果如图5所示,准确率为96%,召回率为94%,F1值为95%。其中模型4和模型5识别得相对比较准确,准确率高达98.9%。
Figure 3. Tag the target model
图3. 对目标模型进行标记
Figure 4. Model training effect diagram
图4. 模型训练效果图
模型优化:根据评估结果,调整模型的关键参数,如学习率、批次大小、Epochs等,或采用正则化、数据增强等技术,防止模型过拟合,提高模型的泛化能力。此外,现有的基于深度学习的障碍物检测和分类模型,在复杂环境下的鲁棒性和泛化能力还有待进一步提升,可以尝试采用迁移学习、联合训练等方法,扩大训练样本,增强模型在不同场景下的适应性。4) 模型部署与更新。模型部署:将训练好的模型选择合适的版本部署到本地设备上,如OpenMV等,使其能够在本地对新数据进行实时推理和预测。模型更新:随着新数据的不断产生和业务需求的变化,定期收集新数据,重新训练和更新模型,以适应新的情况和提高模型的性能。
Figure 5. Data diagram of model training results
图5. 模型训练结果数据图
3.2. 机器视觉的应用
机器视觉在自动驾驶领域的应用日益广泛,其作为智能驾驶技术的核心组成部分,正引领着汽车行业向更高层次的智能化、自动化方向迈进。智行卫士系统便是这一领域中的佼佼者,它依托先进的机器视觉技术,为自动驾驶车辆提供了全方位、多维度的环境感知与决策支持。
智行卫士系统的核心优势在于其强大的交通标志辨识能力。该系统能够准确识别六种不同的交通标志,包括但不限于限速、禁止通行、转弯指示等关键信息。通过精密的图像处理算法和深度学习模型,智行卫士能够迅速捕捉并分析这些标志,进而精准解析车辆的行驶意图。无论是转弯、停车还是减速等行为,该系统都能提前预判,并据此制定相应的驾驶策略,以满足多样化的功能需求。此外,智行卫士还进一步集成了高清摄像头,用于捕获前方车辆的实时影像。通过运用精密的计算机视觉算法,系统能够解析影像中车辆的大小变化、位置动态等关键信息。结合车辆运动学模型,智行卫士能够精确计算出与前方车辆的实际距离及相对速度,为跟车行驶、制动操作等提供坚实而准确的数据支撑,从而大幅提升驾驶的安全性和舒适性。
在环境感知与障碍物检测方面,机器视觉同样发挥着至关重要的作用。自动驾驶车辆需要实时捕捉周围环境信息,以准确识别道路上的车辆、行人、交通标志和障碍物。特斯拉的Autopilot系统便是这一应用的典型代表。该系统依靠多个高精度摄像头和雷达传感器,能够精确识别道路上的各种元素,包括其他车辆的行驶状态、行人的动态行为以及交通标志的含义等。通过实时数据处理和智能决策算法,Autopilot系统能够作出适时的驾驶决策,有效避免碰撞事故,大幅提升驾驶的安全性。这种基于机器视觉的环境感知技术,不仅提高了驾驶的智能化水平,还为自动驾驶车辆的普及奠定了坚实的基础。
车道保持和自动驾驶功能同样离不开机器视觉的支持。车道保持系统是自动驾驶车辆中的重要组成部分,它借助机器视觉技术,实时识别道路标线和周围环境,帮助车辆在道路上维持稳定的行驶轨迹。即使在复杂的路况和天气条件下,车道保持系统也能确保车辆始终保持在正确的车道内行驶,从而提高驾驶的安全性和稳定性。通用汽车的Super Cruise系统便是这一技术的杰出代表。该系统结合了机器视觉与精确地图数据,可在高速公路上实现L2级自动驾驶。在自动驾驶模式下,车辆能够自主完成加速、减速、转向等操作,而驾驶员在必要时也能轻松接管控制权。这种设计不仅提升了驾驶的安全性,还有效减轻了长途驾驶带来的疲劳感,提高了驾驶的舒适性[5]。
人机交互和驾驶员监控系统中,机器视觉技术同样大显身手。这类系统通过面部识别、眼动追踪等技术,实时监测驾驶员的状态和注意力水平。一旦检测到驾驶员出现疲劳或注意力分散等潜在风险,系统便会及时发出提醒,确保驾驶员在需要时能迅速接管驾驶控制权,进一步保障驾驶安全。福特的Co-Pilot360系统便是这一应用的典范。该系统将视觉和传感器技术相结合,为驾驶员提供了全方位、多层次的安全保障。无论是城市拥堵路况还是高速公路行驶,Co-Pilot360系统都能为驾驶员提供及时、准确的驾驶辅助和支持,确保驾驶过程的安全与舒适。
随着技术的持续创新和发展,机器视觉在自动驾驶领域的应用也在不断拓展和深化。2025年被业界称作“VLA上车元年”,视觉语言动作模型(VLA)的引入为自动驾驶带来了全新的变革。VLA模型融合了视觉语言模型的感知能力和端到端模型的决策能力,通过引入“思维链”技术,实现了全局上下文理解与类人推理。这种模型能够从传感器数据中提取丰富的环境信息,并借助语言模型理解人类指令,生成可解释的决策过程。最终,这些决策过程会被转化为具体的驾驶操作指令,推动自动驾驶技术从“功能时代”迈向“体验时代”。
在未来的发展中,机器视觉技术将继续在自动驾驶领域发挥举足轻重的作用。随着算法的不断优化和硬件性能的持续提升,我们有理由相信,自动驾驶车辆将变得更加智能、安全、舒适和便捷。而机器视觉作为这一过程中的关键技术之一,将继续引领自动驾驶技术的创新和发展方向。
4. 结语
4.1. 机器视觉在自动驾驶上的优势与挑战
4.1.1. 优势
1) 精准的环境感知:机器视觉系统能够实时捕捉道路标志、交通信号灯、行人车辆等关键信息,并通过算法处理转化为自动驾驶车辆可理解的数据。这种精准的感知能力,是自动驾驶车辆实现安全行驶的基础。机器视觉系统可以提供高分辨率的图像信息,帮助系统理解复杂的交通场景,如识别交通信号灯的颜色、道路标志的文字内容,甚至行人的姿态和表情。
2) 智能决策的即时响应:基于机器视觉的感知结果,自动驾驶车辆能够迅速作出决策,如避让障碍物、调整车速等。这种即时响应能力,大大提升了自动驾驶车辆在面对复杂交通环境时的安全性和可靠性。
3) 灵活性与适应性:机器视觉系统能够实时感知和应对不断变化的环境,相比依赖于预先设定地图信息的系统,具有更强的灵活性和适应性。机器视觉系统可以快速对从未遇到过的区域进行感知和理解,无需依赖大量数据更新,降低了对高精度地图的依赖。
4) 成本效益:相比其他传感器(如激光雷达),机器视觉系统主要依赖摄像头等设备,成本相对较低,有助于降低自动驾驶汽车的整体成本。
4.1.2. 挑战
机器视觉在智行卫士障碍物检测应用中也面临诸多挑战。如复杂光照条件下,强光、逆光、阴影等会影响图像质量,干扰障碍物识别;恶劣天气如暴雨、大雾、大雪等,会降低视觉系统的检测精度和可靠性;不同场景下障碍物的多样性、相似物体的误判等问题,也有待进一步解决。尽管存在挑战,但随着人工智能、计算机硬件等技术的不断进步,机器视觉在自动驾驶障碍物检测中的应用前景依然广阔[6]。
基金项目
2024年校级大学生创新创业训练计划项目,项目编号:2024112。
NOTES
*通讯作者。