基于机器视觉的车辆轨迹检测技术

doi:10.12677/csa.2025.151002

期刊菜单

基于机器视觉的车辆轨迹检测技术
Vehicle Trajectory Detection Technology Based on Machine Vision

DOI: 10.12677/csa.2025.151002, PDF, HTML, XML, 科研立项经费支持
作者: 董晔卉, 涂倩怡^*, 周子俊, 罗建书：湖南交通工程学院电气与信息工程学院，湖南衡阳
关键词: 机器视觉；车辆轨迹检测；YOLOv8；ByteTrack；智能交通；Machine Vision； Vehicle Trajectory Detection； YOLOv8； ByteTrack； Intelligent Transportation

摘要: 为了提高智能交通系统中的监控准确性和实时性，解决传统方法在复杂环境中的局限。本文结合YOLOv8和ByteTrack算法，提出一种新的车辆轨迹检测技术。YOLOv8提高了检测速度和准确率，ByteTrack通过深度学习有效跟踪车辆。首先使用YOLOv8算法对视频流中的每一帧进行实时目标检测，以识别和定位车辆；然后，利用ByteTrack算法对检测到的车辆进行特征提取和运动轨迹跟踪，维持车辆在连续帧中的一致性。为智能交通系统提供了一种技术手段。

Abstract: This paper aims to improve the monitoring accuracy and real-time performance in intelligent transportation systems, and solve the limitations of traditional methods in complex environments. Combining YOLOv8 and ByteTrack algorithms, this paper proposes a new vehicle trajectory detection technology. YOLOv8 improves the detection speed and accuracy, while ByteTrack effectively tracks vehicles through deep learning. Firstly, YOLOv8 algorithm is used for each frame of video streaming real-time target detection, in order to identify and locate the vehicle; Then, ByteTrack algorithm is used to extract the features and track the motion trajectory of the detected vehicles to maintain the consistency of the vehicles in consecutive frames. It provides a technical method for the intelligent transportation system.

文章引用：董晔卉, 涂倩怡, 周子俊, 罗建书. 基于机器视觉的车辆轨迹检测技术[J]. 计算机科学与应用, 2025, 15(1): 10-20. https://doi.org/10.12677/csa.2025.151002

1. 引言

智能交通系统(ITS)作为现代城市交通管理的重要组成部分，对于提升交通效率、保障行车安全以及减少交通拥堵具有重要意义。在ITS中，车辆轨迹检测技术扮演着核心角色，它能够实时监控和分析车辆在道路上的运动状态，为交通流量分析、事故预防和应急响应提供关键信息。

然而，现有的车辆轨迹检测方法面临诸多挑战。在复杂的交通路口环境中，车辆之间的相互遮挡、快速运动以及相似的车辆外观特征等因素，给准确检测和跟踪每一辆车带来了难题。传统方法，如基于雷达的检测系统，尽管能够在一定程度上穿透遮挡，却易受天气条件的影响，且成本较高；视频分析技术则受限于光照变化和复杂背景的干扰，难以实现高准确率的检测；而早期的机器学习方法，尽管在特定场景下有效，但往往需要复杂的特征工程，且泛化能力有限。

为了应对这些挑战，许多研究人员对如何提高车辆轨迹检测精度以提高智能交通系统中的监控准确性和实时性开展了诸多研究。杜学峰和高越[1]等人设计了一种基于OpenCV技术的本车前方车辆的识别系统。汪梓豪和蔡英凤[2]等人基于低成本单目视觉感知系统，提出了一种考虑自车运动影响的周边多目标轨迹预测方法。何维堃和彭育辉[3]等人采用YOLOX作为前端检测器，结合优化的DeepSort跟踪算法开展动态车辆多目标跟踪方法研究。贺愉婷和车进[4]等人以DeepSort为基础算法展开研究，来解决跟踪过程中因遮挡导致的目标ID频繁切换的问题。李俊彦和宋焕生[5]等人，提出了一种基于Yolo3目标检测和KCF目标预测相结合，关联历史轨迹预测结果和检测结果的长时间多目标车辆跟踪算法。金沙沙和龙伟[6]等人关注到了多目标跟踪算法在智能交通监控系统中的应用研究。Luo Haitong和Duan Xuehu [7]等人提出了基于摄像头传感器的小尺寸目标检测算法。Jiang Peiyuan和Ergu Daji [8]等人研究了关于YOLO算法及其后续高级版本。张文龙和南新元[9]通过改进JDE跟踪算法，提出了一种道路车辆多目标跟踪算法。田松[10]注意到了视频图像对车辆轨迹检测的影响。刘超和罗如意[11]等人提出了通过路测多个相机获取车辆连续轨迹数据的方法，提高了相机的覆盖区域。

本文提出了一种融合YOLOv8目标检测算法和ByteTrack多目标跟踪算法的车辆轨迹检测技术。为了应对这些挑战，本研究提出了一种融合YOLOv8目标检测算法和ByteTrack多目标跟踪算法的车辆轨迹检测技术，展示该技术在车辆轨迹检测中的优越性能，并探讨其在智能交通系统中的应用潜力。

2. 理论和技术

2.1. 多目标检测跟踪算法原理

实现多目标跟踪的方案通常包括两个核心步骤：目标检测和数据关联。在目标检测阶段，YOLOv8和YOLOv5作为高效的深度学习模型，用于从视频帧中识别出各个目标的位置和类别。这一步是跟踪流程的基础，确保了后续步骤可以在准确检测的基础上进行；对于数据关联，即如何在连续帧中维持目标的身份不变，本文选用的ByteTrack算法通过关联每一个检测框来实现高效跟踪。具体来说，ByteTrack算法优化了传统跟踪算法中的关联策略，即使在目标被遮挡或暂时消失后再次出现时，也能准确地重新识别并继续跟踪，有效地减少了身份切换问题。

2.2. YOLOV8算法原理和ByteTrack算法原理

YOLOv8的架构可以分为三个主要部分：Backbone (主干网络)、Neck (颈部网络)和Head (头部网络)。Backbone负责提取图像中的特征，它是模型识别对象的基础。YOLOv8的Backbone采用了CSP (Cross Stage Partial networks)架构，这是一种高效的神经网络设计，能够在减少计算量的同时，提高特征提取的能力。CSP的设计使得网络中的梯度和信息流可以在多个路径上流动，提高了特征的表达力和网络的学习效率。这种结构使得模型不仅能够捕捉到丰富的上下文信息，还能在处理高分辨率输入时维持高效率。ByteTrack算法是一个前沿的多目标跟踪方法，它建立在强大的目标检测网络之上，以实现高精度的目标检测。ByteTrack的核心思想在于高效的数据关联策略，它采用了一个创新的关联机制，能够在连续的视频帧中稳定地维持目标的身份，即使在复杂的场景中也不会轻易丢失目标的跟踪。传统的多目标跟踪方法往往在数据关联时，仅仅考虑高置信度的检测结果，而忽略了那些置信度较低的检测框。ByteTrack算法的突破性之处在于，它充分利用这些低置信度的检测结果，根据它们的运动一致性和外观信息，辅助跟踪过程。这种方法显著提高了跟踪的连续性和鲁棒性，尤其是在处理遮挡和动态场景时，能够有效地减少ID切换和目标丢失的情况。如图1。

资料来源：https://github.com/ultralytics/ultralytics。

Figure 1. Structural framework of YOLOV8

图1. YOLOV8的结构框架

3. 相关方法的原理及处理过程

3.1. 系统流程

本系统旨在融合尖端深度学习技术与用户界面，赋予用户实时图像分析及目标追踪的能力。设计上，我们采取模块化与响应式策略，确保系统运行高效且具备扩展性。

系统核心基于MainWindow类实例，充当应用主控制器，负责激活界面、设定参数及协调子系统。此类实例的启动，标志着用户交互的开端，为操作提供基础界面。用户得以通过此界面轻松选取视频流、实时摄像或图像文件作为输入，进而触发目标检测。

选定输入源之后，MainWindow将动态激活媒体处理器以配置数据读取。视频和图像文件由处理器从存储设备中提取；实时摄像头数据则需要即时捕获与传输。选择输入源后，系统将进入持续处理循环，负责图像数据的即时获取与分析。

处理循环的首步是图像预处理，包括调整尺寸、转换颜色空间等，以适应YOLO模型输入。经预处理的图像随后输入YOLOv8模型，该模型能迅速准确地识别图像中的多目标。模型输出目标位置与类别信息，为界面更新与用户交互提供依据。

模型持续输出检测结果，界面实时展示这些信息，如检测框与类别标签。界面还提供数据统计分析功能，例如展示目标计数与类别分布。用户可通过界面互动，如保存结果、查询帮助或使用过滤器筛选特定目标类别。

为增强用户体验，系统集成了媒体控制功能，使用户能够开始或暂停视频分析，控制播放或停止摄像头捕获，提供了操作的自由度，增强了系统的灵活性和响应性，如图2。

Figure 2. The system process

图2. 系统流程

3.2. YOLOV8的目标检测过程

YOLOv8作为一种先进的目标检测模型，以其卓越的检测速度和精度而著称。而ByteTrack算法则在多目标跟踪领域展现出了对低置信度检测的有效利用和对遮挡处理的强大能力。

检测阶段：首先，YOLOv8模型被部署以对输入视频帧进行快速且准确的目标检测。该模型能够识别出视频帧中的多个目标，并为每个目标生成边界框、置信度分数和类别标签。这些检测结果随后经过一系列预处理步骤，包括筛选和归一化。具体来说，所有置信度低于0.25的检测结果将被排除，以减少误检。同时：边界框坐标被归一化，以确保与ByteTrack算法的输入规格相匹配。

Figure 3. Process of ByteTrack trajectory detection

图3. ByteTrack轨迹检测的流程

参数优化：在ByteTrack算法中，关键参数被仔细调整以适应YOLOv8的输出。这些参数包括跟踪置信阈值(track_thresh)设定为0.25，以确保只有足够高置信度的检测结果被用于跟踪。跟踪缓冲区大小(track_buffer)设为30帧，以允许短暂的目标遮挡。匹配阈值(match_thresh)设为0.8，以促进轨迹的稳定性。长宽比阈值(aspect_ratio_thresh)设为3.0，以避免不合理的轨迹更新。最小边界框面积(min_box_area)设为1.0平方像素，以排除过小的噪声。

跟踪与更新：经过预处理的YOLOv8检测结果被输入到ByteTrack算法中，其中卡尔曼滤波器被用于预测目标在后续帧中的位置。ByteTrack算法计算预测边界框与当前帧高分边界框之间的交并比(IoU)，并构建一个IoU损失矩阵。匈牙利算法根据此矩阵进行优化匹配，以更新轨迹。在此过程中，未匹配的高分边界框被认定为新出现的目标，并被分配新的轨迹ID。对于连续未匹配的轨迹，若其持续时间超过跟踪缓冲区大小，则被标记为失追并从跟踪列表中移除。

输出与应用：该集成方法最终输出包含唯一ID的已追踪轨迹，为后续的分析和应用提供了准确的目标跟踪信息。通过实验验证，本集成系统不仅在标准数据集上展现了优异的跟踪准确率。此外，该系统在处理复杂场景中的遮挡和交互问题时表现出了显著的鲁棒性。如图3。

4. 系统测试

4.1. 测试指标

性能指标符号说明详情如表1所示。

Table 1. Description of performance indicators symbols and their meanings

表1. 性能指标符号说明及其含义

符号	说明
TP	正确预测的正类样本数
FN	错误预测的正类样本数
FP	错误预测的负类样本数
TN	正确预测的负类样本数

精确率(Precision)：表示模型正确预测为正样本的样本数量占所有预测为正样本的样本数量的比例。

$Precision = TP / (TP + FP)$

召回率(Recall)：表示模型正确预测为正样本的样本数量占所有实际正样本的样本数量的比例。

$Recall = TP / (TP + FN)$

F1分数(F1 Score)：综合考虑精确率和召回率，是精确率和召回率的调和平均数。

IoU (Intersection over Union)：衡量模型检测出的区域与实际目标区域的重叠程度。

$F1 = 2TP / (2TP + FN + FP)$

MOTA：多目标跟踪准确度(Multiple Object Tracking Accuracy, MOTA)是衡量单摄像头多目标跟踪准确度的一个指标，公式表示为：

$MOTA = 1 - \frac{FN + FP + Φ}{T}$

T是指所有帧真正目标数的总和，即假设第t帧有 $g_{t}$ 个目标，则。 $Φ$ 是指所有帧目标发生跳变数(Fragmentation)， $ϕ_{t}$ 为第 $t$ 帧的目标跳变数，则。

MOTP：多目标跟踪精确度(Multiple Object Tracking Precision, MOTP)是衡量单摄像头多目标跟踪位置误差的一个指标，公式表示为：

其中 $c_{t}$ 表示第 $t$ 帧的匹配个数，对每对匹配计算匹配误差 $d_{t}^{i}$ ，表示第 $t$ 帧下目标 $O_{i}$ 与其配对假设位置之间的距离。

MT：多数跟踪数(Mostly tracked)是指跟踪部分大于80%的跟踪轨迹数，数值越大越好。
ML：多数丢失数(Mostly lost)是指丢失部分大于80%的跟踪轨迹数，数值越小越好。

4.2. 测试方案

4.2.1. 测试目标

平均精度均值(mAP)；F1分数；召回率；利用yolo.mp4的视频来测试系统。

4.2.2. 测试结果及分析

功能性测试的结果如图4~6所示。

上面的训练结果展示了训练的模型对车辆识别的准确性高达90%，以及小车预测的精度91%能够很好地完成研究内容，而对于实时性来讲需要一个好的服务器就有很好的改善，能达到30 fps，能够很好地对轨迹进行检测，做出下一步工作。

Figure 4. F1 confidence curve

图4. F1置信曲线

Figure 5. Ratio of correct prediction to total number

图5. 预测正确与全部数量的比值

Figure 6. Training outcome indicators

图6. 训练结果指标

4.2.3. 非功能性分析

此功能展示的是光流法轨迹，通过两个分区可以很好地看出车辆的轨迹，如图7所示。

Figure 7. The main screen

图7. 主界面

单目标检测能够检测车辆的行为的轨迹和状态，如图8所示。

Figure 8. Single object detection

图8. 单目标检测

实时流量折线图可以展示此阶段的车辆的流量，可以对十字路口的红路灯做出动态的调整，如图9所示。

Figure 9. Line chart of real-time traffic

图9. 实时流量折线图

5. 总结

通过对YOLOV8和Bytetrack算法的研究，成功地将YOLOv8目标检测算法与ByteTrack跟踪算法相结合，用于车辆轨迹的检测与跟踪。在复杂的交通路口环境中，尤其是存在遮挡和快速移动的车辆时，显示出超过90%的检测准确率，同时能够在保持高帧率的同时满足实时性的要求，为智能交通系统的实施提供了强有力的技术支持，同时能够为下一步的轨迹分析和预测做好充足的准备。

虽然在十字路口等复杂场景下表现出色，但该技术可能在更加复杂的交通环境中面临挑战，在不同光照和天气条件下的性能尚未得到充分验证，这可能影响其在实际应用中的准确性和可靠性。

未来研究将集中于进一步优化YOLOv8和ByteTrack算法，以提高在各种复杂交通场景下的适应性和鲁棒性。在不同光照和天气条件下的应用，以确保在各种环境中都能保持高准确率和实时性。同时未来能够加上轨迹预测，给自动驾驶的方向提供一种轨迹预测的好方式。

基金项目

衡阳市科技局重点实验室，项目编号：202010041588。

NOTES

^*通讯作者。

参考文献

[1]	杜学峰, 高越, 杨伟, 等. 基于机器视觉的车辆检测[J]. 汽车实用技术, 2021, 46(15): 48-50.
[2]	汪梓豪, 蔡英凤, 王海, 等. 基于单目视觉运动估计的周边多目标轨迹预测方法[J]. 汽车工程, 2022, 44(9): 1318-1326.
[3]	何维堃, 彭育辉, 黄炜, 等. 基于DeepSort的动态车辆多目标跟踪方法研究[J]. 汽车技术, 2023(11): 27-33.
[4]	贺愉婷, 车进, 吴金蔓. 基于YOLOv5和重识别的行人多目标跟踪方法[J]. 液晶与显示, 2022, 37(7): 880-890.
[5]	李俊彦, 宋焕生, 张朝阳, 等. 基于视频的多目标车辆跟踪及轨迹优化[J]. 计算机工程与应用, 2020, 56(5): 194-199.
[6]	金沙沙, 龙伟, 胡灵犀, 等. 多目标检测与跟踪算法在智能交通监控系统中的研究进展[J]. 控制与决策, 2023, 38(4): 890-901.
[7]	Lou, H., Duan, X., Guo, J., Liu, H., Gu, J., Bi, L., et al. (2023) Dc-yolov8: Small-Size Object Detection Algorithm Based on Camera Sensor. Electronics, 12, Article 2323. [Google Scholar] [CrossRef]
[8]	Jiang, P., Ergu, D., Liu, F., Cai, Y. and Ma, B. (2022) A Review of Yolo Algorithm Developments. Procedia Computer Science, 199, 1066-1073. [Google Scholar] [CrossRef]
[9]	张文龙, 南新元. 基于改进YOLOv5的道路车辆跟踪算法[J]. 广西师范大学学报(自然科学版), 2022, 40(2): 49-57.
[10]	田松. 基于视频图像的车辆行为轨迹检测技术研究[D]: [硕士学位论文]. 天津: 天津工业大学, 2016.
[11]	刘超, 罗如意, 刘春青, 等. 基于路侧多机视频目标关联与轨迹拼接的车辆连续轨迹构建方法[J]. 交通信息与安全, 2023, 41(3): 80-91.

为你推荐

友情链接