1. 引言
随着人口老龄化加剧与残障人士服务需求的增长,室内服务机器人及智能辅助设备的自主导航能力成为研究热点。视觉SLAM技术作为机器人自主导航的核心技术,近年来在算法框架与多传感器融合方面取得显著进展。以ORB-SLAM3为代表的系统通过多地图管理与多模态数据融合,显著提升了静态场景下的定位与建图精度[1]。然而,传统视觉SLAM算法基于静态环境假设,在动态场景中面临严峻挑战:行人、移动物体等动态元素会干扰特征点匹配,导致定位漂移与地图失真,误差累积可达30%以上,严重制约了实际应用效果。现有研究主要通过两类方法应对动态环境[2] [3]:1) 基于几何约束的离群点剔除,如RANSAC算法;2) 基于深度学习的语义分割。前者依赖运动连续性假设,难以区分缓慢移动物体;后者计算复杂度高,难以满足实时性需求。此外,动态物体的持续运动与半静态物体的干扰进一步增加了算法的复杂度。
在室内服务机器人领域,视觉SLAM技术支撑了智能轮椅、物流机器人等设备的自主导航与任务执行[4]。例如,医院场景中机器人需在动态人流中规划路径,家庭服务机器人需在狭窄空间内避让移动家具。然而,室内环境存在光照变化、纹理单一、动态干扰密集等问题,传统SLAM算法易失效。研究表明,动态场景下ORB-SLAM3的轨迹误差可达0.154米,显著影响导航安全性[5]。因此,提升动态环境下的鲁棒性与实时性成为室内服务机器人落地的关键需求。本文旨在提出一种面向室内服务机器人的轻量化的动态特征筛选策略,通过多模态数据融合与轻量化语义分析,实现动态特征的高效识别与剔除,在降低计算开销的同时,显著提升系统在动态场景中的鲁棒性。
2. 视觉SLAM技术概述
传统的视觉SLAM技术通过特征提取、位姿估计与地图构建实现环境建模。典型的解决方法,如表1所示,包括:1) 特征点法,如ORB-SLAM3就是通过比对两幅图像中特征点对应关系,利用几何方法计算相机的位姿变化,主要依赖ORB特征点匹配,计算效率高但动态鲁棒性差[6]。2) 直接法如LSD-SLAM,利用像素灰度信息,对光照变化敏感。3) 多传感器融合法,结合IMU、激光雷达等提升稳定性,但硬件成本较高。
Table 1. Comparison of typical SLAM methods
表1. 典型SLAM方法对比
方法 |
优点 |
局限性 |
特征点法 |
计算效率高 |
无法处理匀速运动物体 |
直接法 |
动态物体识别准确 |
依赖GPU,实时性差 |
多传感器融合法 |
鲁棒性强 |
硬件成本高 |
视觉SLAM技术通过摄像头实时捕捉环境信息,结合特征提取、数据关联与非线性优化算法,实现机器人在未知环境中的自主定位与地图构建。其核心框架通常分为前端和后端,前端负责特征点提取与帧间位姿估计,后端通过图优化或滤波器对位姿和地图进行全局优化,并利用闭环检测修正累积误差[7]。图1为一种经典的视觉SLAM框架,通常包括传感器数据、视觉里程计、后端优化、地图构建、回环检测几大部分。
Figure 1. The classic visual SLAM framework
图1. 经典的视觉SLAM框架
随着多传感器融合技术的发展,视觉SLAM常与IMU、激光雷达等结合,提升在弱纹理或动态场景下的鲁棒性[8]。该技术已广泛应用于室内服务机器人、自动驾驶和无人机导航等领域,但其在动态物体干扰、实时性约束及大尺度场景下的稳定性仍是研究重点。近年来,动态特征处理与轻量化嵌入式部署成为主要突破方向,为智能设备在复杂场景中的应用奠定基础[9]。室内服务机器人应用场景中普遍存在的动态物体如行人、移动设备,对传统视觉SLAM系统构成严峻挑战[10]。动态物体携带的特征点,如人体轮廓、移动物体表面纹理在连续帧间产生非刚体运动,导致特征匹配关系违反运动一致性假设。实验表明,当场景中动态特征占比超过15%时,ORB-SLAM3的位姿估计误差将呈指数增长。动态物体被错误建模为静态地标后,将导致地图出现“鬼影”效应,严重影响后续导航路径规划的安全性[11]。针对动态环境问题,研究学者主要提出三类解决方案,如表2所示各具优势与局限性。
Table 2. Comparison of dynamic SLAM methods
表2. 动态SLAM方法对比
方法类型 |
典型算法 |
优势 |
局限性 |
几何一致性检测 |
RANSAC |
计算效率高 |
无法检测匀速运动物体 |
深度学习驱动 |
DynaSLAM |
动态区域识别准确率高 |
依赖GPU |
多传感器融合 |
VINS-Fusion |
鲁棒性强 |
硬件成本增加30%~50% |
几何一致性检测方法以RANSAC算法为典型代表,该方法通过几何模型验证实现动态特征筛选。其核心优势在于算法复杂度较低,具有较高的计算效率,特别适用于资源受限的嵌入式平台[12] [13]。然而该方法的检测机制存在运动敏感性,当目标物体保持匀速运动时,漏检率达32%以上。深度学习驱动方法以DynaSLAM为技术标杆,通过卷积神经网络实现像素级动态区域分割,但需注意的是,其网络推理过程依赖专用图形处理器。多传感器融合方案采用VINS-Fusion作为实施框架,通过IMU与视觉数据的紧耦合提升系统鲁棒性。但该方案需配置多模态传感器阵列,相较于单目系统,硬件成本增加30%~50%,需要额外配置硬件同步模块。
3. 动态环境下的视觉SLAM改进方法
本研究提出的改进方法通过多模态数据融合与分层动态特征筛选机制,有效解决了传统视觉SLAM在动态环境下的性能退化问题。系统采用RGB-D相机与IMU数据紧耦合架构,通过轻量化MobileNetv3网络提取潜在动态区域语义信息,对检测区域内ORB特征点赋予动态概率初值。该方法结合光流场分析与IMU角速度积分,建立运动一致性验证模型,计算特征点光流速度与IMU估计速度的矢量偏差,构建动态概率融合模型,该模型如公式(1)所示。
(1)
其中,
——语义得分;
——特征点光流速度;
——IMU估算速度;
——权重系数。
在动态概率融合模型中,当动态概率超过自适应阈值时剔除异常特征点。设定阈值
,当
时,将该特征点从优化问题中剔除。该方法创新性地将语义先验与几何约束相结合,在Jetson Xavier NX嵌入式平台实现31.6 ms的单帧处理速度,较传统ORB-SLAM3算法减少38.9%的BA优化计算量,同时将高动态场景定位误差从9.8 cm降至2.1 cm,验证了动态特征筛选机制在计算效率与定位精度间的平衡优化能力。改进后的算法框架如图2所示。
Figure 2. Shows the improved algorithm framework
图2. 改进后的算法框架
4. 实验设计
4.1. 实验平台搭建
本研究依托吉林省大学生创新创业项目“基于视觉SLAM技术的智能辅助轮椅”的实验平台,结合Kinect v2 RGB-D相机与Jetson Xavier NX嵌入式系统,验证基于动态特征筛选的视觉SLAM改进算法在动态环境下的定位精度提升效果;评估改进算法对地图重建完整性的优化程度;测试系统在嵌入式平台(Jetson Xavier NX)的实时性表现;验证多模态传感器融合策略对动态障碍物识别的有效性。硬件配置为:传感器:Kinect v2 (分辨率512 × 424,30 Hz) + Xsens MTi-30 IMU;处理器:NVIDIA Jetson Xavier NX;软件环境:ROS Melodic + OpenCV 4.5。实验平台结构如图3所示。
Figure 3. Structure of the experimental platform
图3. 实验平台结构
4.2. 实验变量及评估方法
为评估改进算法的性能,本研究在典型室内环境如走廊、会议室进行数据采集。静态场景用于验证基础定位精度,低动态场景模拟日常轻度干扰环境,高动态场景复现复杂人流密集场景。针对不同场景特性,采用多维度评估指标,绝对轨迹误差,通过EVO工具计算轨迹与RTK基准的欧氏距离,定量分析定位精度;地图覆盖率基于激光雷达扫描点云与SLAM重建地图的ICP配准重合度,评估环境建模完整性;实时性指标通过ROS时间戳记录单帧数据处理延迟,验证系统在嵌入式平台的部署可行性[14]。三类指标的协同分析,全面揭示了动态特征筛选机制在精度、完整性与计算效率间的平衡优化能力(表3和表4)。
Table 3. Statistical table of experimental variables
表3. 实验变量统计表
变量类型 |
操作定义 |
测量方法 |
自变量 |
动态特征筛选算法的启用状态 (改进算法vs ORB-SLAM3) |
通过配置文件切换算法模块 |
因变量 |
绝对轨迹误差(ATE) |
使用EVO工具计算轨迹与RTK基准的欧氏距离 |
地图覆盖率(%) |
激光雷达扫描真实环境与SLAM地图的ICP配准重合度 |
实时性(ms) |
ROS时间戳差值统计 |
控制变量 |
传感器配置(Kinect v2 + MTi-30 IMU) |
硬件固件版本锁定为SDK 2.4 |
环境光照强度(500~800 lux) |
实验室恒光系统调控 |
Table 4. Statistical table of experimental groups
表4. 实验分组统计表
组别 |
算法版本 |
场景复杂度 |
重复次数 |
对照组G1 |
ORB-SLAM3 |
静态环境(无行人) |
5次 |
实验组E1 |
改进算法 |
静态环境(无行人) |
5次 |
对照组G2 |
ORB-SLAM3 |
低动态环境(1~2人) |
5次 |
实验组E2 |
改进算法 |
低动态环境(1~2人) |
5次 |
对照组G3 |
ORB-SLAM3 |
高动态环境(3人 + AGV) |
5次 |
实验组E3 |
改进算法 |
高动态环境(3人 + AGV) |
5次 |
5. 实验结果分析
5.1. 定位精度对比
为验证本文提出的动态特征筛选机制的有效性,分别在静态场景、低动态场景、高动态场景三种实验场景下测试改进算法与传统ORB-SLAM3算法的绝对轨迹误差(ATE),结果如表5所示:
Table 5. Statistical table of positioning accuracy data in different scenarios
表5. 不同场景下的定位精度数据统计表
场景类型 |
ORB-SLAM3均值 ± σ |
改进算法均值 ± σ |
误差降低率 |
静态场景 |
1.2 ± 0.3 |
1.1 ± 0.2 |
8.3% |
低动态场景 |
4.7 ± 1.1 |
2.3 ± 0.5 |
51.1% |
高动态场景 |
9.8 ± 2.4 |
2.1 ± 0.6 |
78.6% |
通过表5实验数据可知,改进算法在不同动态强度场景下均展现出显著的定位精度提升。在静态场景中,算法定位误差由1.2 ± 0.3 cm优化至1.1 ± 0.2 cm,降低8.3%,验证了动态特征筛选机制对系统基础性能无负面影响。低动态场景下,误差从4.7 ± 1.1 cm降至2.3 ± 0.5 cm,降低51.1%,表明改进算法可有效过滤缓速移动干扰特征。高动态场景改进最为显著,误差由9.8 ± 2.4 cm大幅缩减至2.1 ± 0.6 cm,降低78.6%,证明改进算法在复杂动态环境下具有较强的鲁棒性。实验数据表明,改进算法的误差波动范围σ ≤ 0.6 cm,优于传统算法。从静态场景到高动态场景改进算法的误差降低率由8.3%降低至78.6%,研究表明算法对场景动态性具有较强的自适应能力,为服务机器人在医院、商场等动态密集场景的应用提供了技术保障。
5.2. 地图覆盖率对比
为验证本文提出的动态特征筛选机制的有效性,通过激光雷达扫描数据与SLAM重建地图的ICP配准,分别计算改进算法与传统ORB-SLAM3算法的地图覆盖率指标,计算结果如表6所示。
Table 6. Quantitative analysis table of map integrity
表6. 地图完整性量化分析表
评估指标 |
ORB-SLAM3 |
改进算法 |
提升幅度 |
覆盖率(%) |
72.4 |
92.8 |
28.2% |
动态误建模点数 |
158 ± 23 |
27 ± 9 |
−82.9% |
闭环检测成功率 |
68% |
89% |
21% |
通过表6实验数据可知,在地图覆盖率指标中,改进算法达到92.8%,较传统ORB-SLAM3提升了28.2%,表明动态特征筛选机制有效保留了静态结构特征,如墙体、固定家具等。动态误建模点数从158 ± 23个降低至27 ± 9个,下降82.9%,表明了改进算法对行人、移动设备等动态干扰源具有较强的识别准确性。闭环检测成功率从68%提升至89%,表明改进算法在动态场景下仍能维持准确的场景识别能力。
5.3. 系统实时性对比
为验证改进算法与传统ORB-SLAM3算法的系统实时性,在Jetson Xavier NX嵌入式平台测试单帧处理延迟,关键数据如表7所示。
Table 7. Comparison table of computing resource consumption
表7. 计算资源消耗对比表
模块 |
ORB-SLAM3 |
改进算法 |
增量 |
特征提取 |
8.2 ms |
8.5 ms |
3.7% |
语义分割 |
- |
14.7 ms |
/ |
动态特征剔除 |
- |
5.3 ms |
/ |
BA优化 |
19.8 ms |
12.1 ms |
−38.9% |
总耗时 |
28.0 ms |
31.6 ms |
12.9% |
通过表7实验数据可知,改进算法通过动态特征筛选机制实现了计算资源的优化配置。ORB特征提取耗时仅增加3.7%,表明轻量化语义分割模块未显著影响基础特征检测效率。BA优化时间从19.8 ms降至12.1 ms,降幅38.9%。改进算法的总处理延迟控制在31.6 ms,没有大幅增加,满足服务机器人30 Hz实时性需求。
5.4. 局限性讨论
尽管本文提出的动态特征筛选机制在动态环境下显著提升了视觉SLAM的性能,但仍存在一些局限性需要在未来工作中进一步探索:
1) 语义分割可靠性依赖:动态特征初值依赖于轻量化语义分割网络(MobileNetv3)的输出。若语义分割出现错误(如将静态物体误识别为动态类别,或将动态物体误识别为静态背景),将直接影响动态概率初值的准确性,进而可能导致错误的特征点剔除或保留[15]。在光照剧烈变化、物体外观与训练数据差异大或存在遮挡的情况下,语义分割出错的风险会增加,可能对系统鲁棒性构成挑战。
2) 时动时停物体处理:对于运动状态频繁变化的物体,本方法基于单帧或短时序的运动一致性检测可能不够灵敏。物体静止时,其光流速度与IMU估算速度偏差较小,可能被错误地判定为静态特征而保留;当其突然开始运动时,检测可能存在滞后。这可能导致此类物体在部分帧中被建模,产生短暂或局部的“鬼影”效应。
3) 光照变化的鲁棒性:虽然融合了IMU数据,但视觉前端(特征提取、光流计算)仍可能受到剧烈光照变化的影响。强光、阴影或低光照条件可能导致特征点提取数量减少或质量下降,光流计算误差增大,间接影响运动一致性验证的准确性,进而对动态特征筛选的效果产生负面影响。
6. 结论与展望
本研究针对室内服务机器人在动态场景下的视觉SLAM性能优化,提出了一种基于动态特征筛选的改进方法。通过融合轻量化语义分割与光流-IMU运动一致性验证,有效降低了动态物体对SLAM系统的干扰。实验表明,该方法将高动态场景的绝对轨迹误差(ATE)从传统ORB-SLAM3的9.8 cm显著降至2.1 cm,降低78.6%。同时,地图覆盖率从72.4%提升至92.8%,动态物体误建模点数减少82.9%,有效减轻了移动行人等导致的“鬼影”现象。在Jetson Xavier NX嵌入式平台实现了实时处理,其中BA优化时间从19.8 ms降至12.1 ms,降幅38.9%,验证了方法的计算效率。本研究证实了所提出的动态特征筛选机制在提升服务机器人导航鲁棒性方面的有效性。
基金项目
吉林省大学生创新创业训练计划项目“基于动态特征筛选的室内服务机器人视觉SLAM改进”(202410201126)。
NOTES
*通讯作者。