1. 引言
在海洋科考与水下生态环境监测任务中,复杂海底地貌和极端水文条件可能对水下机器人的长期稳定性造成威胁,导致传感器失灵、信号丢失、机器人受损等问题。目前,水下环境监测主要依赖潜水员人工巡检或传统遥控潜水器(Remote Operated Vehicle, ROV)。潜水员作业受水深、流速和能见度限制,且存在安全风险;传统ROV在强流环境下的运动受限,难以完成精细的仪器巡检和采样,且其作业范围受限于线缆长度,难以满足大范围生态监测需求。
针对上述问题,近年来研究者们在ROV结构设计、控制算法优化与任务适应性方面展开了大量探索。例如,Zhao等人基于ArduSub开源系统构建了一套小型ROV控制系统,采用Pixhawk2主控平台与扩展卡尔曼滤波(Extended Kalman Filter, EKF)算法,实现了良好的姿态保持与抗流能力,显著缩短了开发周期并降低了成本[1]。Qiu等人提出了一种级联控制框架,结合模糊控制与神经网络PID控制器,有效提升了ROV在扰动环境下的抗干扰能力与控制精度[2]。此外,Chen等人采用粒子群优化(Particle Swarm Optimization, PSO)模糊PID控制策略,显著增强了ROV在水流扰动下的自适应性与鲁棒性,实验表明该方法在动态环境中具有更好的稳定性与响应速度[3]。
在结构与任务适应性方面,Ashford等人提出一种基于社区科学与低成本ROV的“幽灵笼”回收系统,结合众包数据与ROV精准作业,显著降低了传统海洋垃圾清理的成本与门槛[4]。Qasem等人则开发了一套多传感器ROV系统,集成温度、电导率、溶解氧与氧化还原电位传感器,用于海洋油污监测与水质评估,拓展了ROV在环境监测中的应用维度[5]。此外,Xue等人基于BlueROV2平台提出一种壁面爬行ROV设计,通过加装履带式底盘与垂直推进器,实现了船体水下部分的稳定附着与爬行,显著提升了ROV在强流环境下的作业稳定性[6]。
在控制策略方面,Song等人设计了一款低成本六边形ROV,采用STM32主控与图像识别模块,实现了基础的水下目标识别与姿态控制,适用于教育与科研场景[7]。而Kuo等人则提出了一种基于PID控制的水下机器人定点保持方法,结合压力传感器与嵌入式系统,实现了在设定深度下的稳定悬停,验证了PID控制在小型ROV中的实用性与稳定性[8]。
综上所述,尽管当前ROV技术在控制精度、结构设计与任务适应性方面已取得显著进展,但在生态监测场景下对低功耗、高机动性、智能化识别与作业能力的需求仍未被充分满足。为此,本研究提出了一种面向水域生态观测的5自由度(5-DOF)小型ROV系统,采用“线–浮标”中继式有缆遥控操作架构,结合轻量化结构与低功耗推进系统,旨在实现复杂水域环境下的高效、稳定、可持续生态监测。该ROV系统通过优化推进器布局与舵机协同控制,以3台推进器实现5-DOF运动,显著降低能耗与系统复杂度。同时,系统搭载多模态传感器,并集成YOLOX深度学习模型,实现水下目标的智能识别与跟踪。为进一步提升作业能力,该ROV配备柔性机械夹爪,可完成精密仪器的布放与生物样本的采集任务,显著增强其在生态监测、科研采样等实际应用场景中的适应性与操作精度。通过将部分能源与通信模块转移至浮标端,系统不仅减轻了ROV本体负载,还提升了整体续航能力与作业灵活性。本研究提出的ROV系统在结构紧凑性、能源效率、智能识别与作业能力等方面均具有明显优势,为水域生态观测提供了一种高效、可靠的技术解决方案,具备良好的应用前景与推广价值。
2. 结构设计方案
本研究提出的水下ROV系统采用模块化设计架构,包含两大核心模块:水下ROV和浮标系统,其设计方案介绍如后。
2.1. ROV机体设计
水下ROV的机体设计可以从主体设计与推进系统来说明。
(一) ROV主体设计
ROV主体分为核心舱体和外壳两部分,其整体尺寸为700 × 386 × 237 mm。核心舱体主体结构和密封环采用亚克力材质,平均厚度达10 mm,可使隔板在水下20 m处抵抗水压。核心部分的穹顶采用透明材质制成,可经过10 MPa水压测试,舱体后部设有3个用于舵机和推进器电缆穿过的孔洞。电缆采用IP68防水等级的PG11黄铜密封圈密封,可承受高达5 bar,约50 m的水压。外壳主要用于连接核心舱、舵机与推进器,以及放置配重块和外设,例如机械臂、探照灯等。本ROV形态选用最主流的鱼雷式圆柱体结构,如图1所示,此种设计特别适合自主航行——既能沿水平轴高速移动,又能通过舵机实现斜向下潜[9]。由于本ROV含核心舱内所有组件的总密度几乎与水密度相当,可采用中性浮力设计,无需持续使用垂直推进器维持目标水深,因此能显著降低能耗。此外,对称紧凑的设计使本ROV的重心位于3个推进器的质心位置,该重心点被定义为本ROV局部坐标系的原点,从而能让ROV能以最小力量自由绕任意轴旋转,并实现5-DOF的灵活机动。
Figure 1. ROV main body
图1. ROV主体
(二) 推进系统
一般而言,推进器的数量和布局决定着ROV的自由度[10]。通常,ROV至少配备3个推进器:1个垂直推进器和2个水平推进器,可实现对横滚、俯仰和偏航的控制,如图2所示,具体的6-DOF运动方式为:
Figure 2. ROV motion schematic
图2. ROV运动示意图
1) 纵荡:ROV沿X轴作直线移动的运动方式,又可称为进退运动。沿X轴正方向移动为前进,沿X轴负方向移动为后退;
2) 横荡:ROV沿Y轴作直线移动的运动方式,又可称为横移运动。沿Y轴正方向移动为右移,沿Y轴负方向移动为左移;
3) 垂荡:ROV沿Z轴作直线移动的运动方式,又可称为潜浮运动。沿Z轴正方向移动为下潜,沿Z轴负方向移动为上浮;
4) 横摇:ROV绕X轴作旋转转动的运动方式,又可称为翻滚运动。从X轴正方向看,逆时针旋转为正方向运动,横摇角增大,顺时针旋转为负方向运动,横摇角减小;
5) 纵摇:ROV绕Y轴作旋转转动的运动方式,又可称为俯仰运动。从Y轴正方向看,逆时针旋转为正方向运动,纵摇角增大,顺时针旋转为负方向运动,纵摇角减小;
6) 艏摇:ROV绕Z轴作旋转转动的运动方式,又可称为偏航运动。从Z轴正方向看,逆时针旋转为正方向运动,艏摇角增大,顺时针旋转为负方向运动,艏摇角减小。
整理定义如表1所示。
Table 1. Definition of the 6-DOF motion modes of ROV
表1. ROV的6-DOF运动方式定义
运动方式 |
X轴 |
Y轴 |
Z轴 |
平动 |
纵荡 |
横荡 |
垂荡 |
转动 |
横摇 |
纵摇 |
艏摇 |
推进器数量较少可降低能耗,从而减少脐带缆的额定功率和直径[11]。尽管实现5-DOF至少需要4个固定推进器,但本研究旨在开发新型检测级水下机器人,目标以最少推进器数量实现5-DOF的操控性。首先,本研究采用3台ROVMAKER推进器T型布局,以极少推进器和能耗实现5-DOF,推进器的具体技术参数如表2所示。其次,适当规划推进器的布局如下:1个尾部垂直推进器,可使ROV沿局部Z轴平移,主要用于垂直运动控制和俯仰;另有2台位于水平对称两侧的推进器,此2台推进器各连接一个舵机,如图3所示,舵机可以带动推进器沿Y轴旋转,改变推力角度,并能以此通过2个推进器合成矢量推力在水下实现平面运动控制,达到沿X轴平移及偏航,以及实现水平平衡和滚转。最后,推进器采用脉冲宽度调制(Pulse Width Modulation, PWM)技术,并配备专用驱动器。因此,完成了仅需要3个推进器即可提供5-DOF的设计方案,是本研究的设计优势,具体的运动状态与推进器转向及其角度分配关系如表3所示。
Figure 3. Schematic diagram of servo positions and ROV main body coordinate system
图3. 舵机位置与ROV主体坐标示意图
Table 2. Specific technical parameters of the ROVMAKER
表2. ROVMAKER推进器具体技术参数
详细描述 |
技术参数 |
尺寸 |
101 × 83.3 × 72.7 mm |
重量 |
0.08 kg |
额定电压 |
24 V |
功率 |
最高300 W |
推力 |
正向20 N,反向18 N |
供电电压 |
12~26 V |
Table 3. The relationship between the motion state of ROV and the rotation and angles of its thrusters
表3. ROV的运动状态与推进器转向及其角度分配关系
自由度 |
运行动作 |
T1 |
T2 |
T3 |
左、右舵机旋转角度 |
纵荡 |
前进 |
正转 |
正转 |
正转 |
(0, ) |
纵荡 |
后退 |
反转 |
反转 |
正转 |
(0, ) |
垂荡 |
上浮 |
正转 |
正转 |
正转 |
|
垂荡 |
下潜 |
反转 |
反转 |
反转 |
|
艏摇 |
左转 |
正转 |
反转 |
正转 |
0 |
艏摇 |
右转 |
反转 |
正转 |
正转 |
0 |
横摇 |
左翻滚 |
正转 |
反转 |
正转 |
|
横摇 |
右翻滚 |
反转 |
正转 |
正转 |
|
纵摇 |
前俯后仰 |
反转 |
反转 |
正转 |
|
纵摇 |
前仰后俯 |
正转 |
正转 |
反转 |
|
2.2. 浮标系统
浮标系统作为通信中继站,为ROV与陆基控制系统的互联进行转接。浮标主要功能包括:
1) 接收并处理来自云端服务器的实时控制指令,将其转发至水下ROV系统;
2) 整合水下ROV系统传输的视频流和传感器数据,并将其上传至云端服务器[12];
3) 在保证机动性的同时,可以将电池等硬件放置到浮标上,通过减轻ROV重量来提升作业效率、优化资源管理。
本研究设计利用在浮块上放置有承载能力的PETG打印件和水面摄像头来构成浮标,如图4所示,此外,通过水下脐带电缆与ROV相连传接信号,大幅简化连接复杂度和提高自由度。此种电缆具有三大功能:实时双向通信、为ROV供电、保持与ROV的安全连接以防止丢失。因此,脐带电缆是浮标系统的关键部分。然而水下电缆存在诸多需要考虑的问题:可能与外部物体发生碰撞、缠绕、脐带惯性等。受到Viel提出利用滑动浮标及止动装置实现ROV脐带缆自主管理的启发[13],本研究设计了在缆绳上加装滑动小浮标,采用滑动浮标与脐带缆结合的设计,明确划定ROV可自由移动且不会缠绕缆绳的作业区域。如此一来,无需电机驱动或牵引管理系统(Transportation Management System, TMS),去除较复杂的操作,实现了脐带缆的被动自管理功能。
Figure 4. Buoy system schematic
图4. 浮标系统图
3. 系统设计方案
在系统设计方面,本研究采用如图5所示的模块化控制架构,结合树莓派主控、ESP32辅助控制,实现对ROV运动、照明、图像采集及传感器数据处理的综合控制。
Figure 5. System control diagram
图5. 系统控制图
3.1. 控制系统设计
系统分为水上控制端与水下执行端,通过有缆方式实现数据通信与供电,兹就各部分组成简要说明。
1) 系统组成与通信架构
水上控制端通过PS2接收端与水下机器人实现无线遥控通信,操作者可通过手柄实时控制机器人运动状态。水下主控系统以树莓派为核心,负责图像采集、任务调度及传感器数据处理;ESP32作为辅助控制器,承担照明灯控制、舵机驱动及低功耗模块管理任务。图像采集由摄像头模块完成,分别安装于机器人前后方向,实现多角度水下环境监控。视频数据通过树莓派处理后,经由通信模块实时传输至水上显示终端,便于操作者判断水下环境与目标位置。
2) 执行机构控制
本系统配备3台推进器,分别控制机器人前进、转向及浮沉运动。推进器由主控系统通过电调模块(Electronic Speed Control, ESC)进行PWM调速控制,实现精确的速度与方向调节。系统支持多种运动模式,包括前进、后退、左转、右转、上浮、下潜及悬停。此外,系统配备4台舵机,用于控制摄像头角度及机器人姿态调整。舵机控制信号由ESP32产生,实现多角度定位与实时调节,增强机器人在复杂环境下的适应能力。
3) 照明与视觉系统
系统配备2盏高亮度水下LED照明灯,由ESP32通过PWM信号控制亮度,适应不同水质与光照条件。照明系统与摄像头协同工作,确保在浑浊或弱光环境下仍可获得清晰图像。摄像头模块通过USB接口与树莓派连接,可实时图像采集与本地存储。图像数据可用于水下目标识别、结构巡检或人工操作辅助。
4) 传感器系统集成
系统集成MS5837水深传感器,实时采集水下压力数据,用于计算当前深度信息。深度数据通过I2C接口传输至树莓派,可用于实现定深控制或深度记录功能。传感器数据与运动控制系统联动,用以实现基础的深度保持与姿态稳定功能。
5) 电源管理
系统采用双电源供电架构:24 V电池为推进器、照明灯等大功率设备供电;5 V电池为树莓派、ESP32、摄像头及传感器等低功耗模块供电。电源开关设于主控舱内,支持整体系统上下电控制,并具备过流保护与电压隔离功能,确保系统安全稳定运行。
3.2. 视觉系统设计
本研究的设计是面向水域生态的观测,因此视觉系统必然成为不可忽视的部分。在视觉识别实现方案中,需要经过数据集处理,并采用YOLOX模型训练来完成图像的识别。
1) 数据集处理
数据集是指在特定领域或任务中收集和整理的一组数据样本,它可以包含各种类型的数据,例如图像、文本、音频或视频等。数据集通常用于机器学习和数据分析等领域,用于训练和评估模型的性能。本研究采用PASCAL VOC数据集的格式来完成数据集创建与目标识别的任务,视觉对象类数据集(Visual Object Classes, VOC)是一种常用的计算机视觉数据集,用于目标检测和图像分割任务。通常情况下,数据集的创建过程包括两个主要步骤:
Step 1. 图片数据采集与合成
本研究使用高清摄像头采集了10段视频,每段视频是在不同时段的水域中、目标鱼群不同、多角度拍摄而成,并将每段视频按照平均间隔选取了一共200张图片,且拍摄了目标物体的多角度高清图,以此完成数据集的创建。
Step 2. 信息标注
训练前,采用人工标注的方式,将数据制作成PASCAL VOC数据集的格式,这个数据集主要包括三个文件:Images,用于存放训练和测试的图片;Annotations,用于存放图片的标签;以及ImageSets,用于存放训练和测试图片的信息。在数据集中,原始的标签信息以字典的形式保存在JSON文件中,其中包含了边界框、边界顶点和类别标签等相关信息。这样的数据集格式有助于训练和评估目标检测算法,提供了丰富的标注信息以支持模型的学习和性能评估。
2) 图像预处理
在视觉识别中,图像预处理是指对输入的图像进行一系列的操作和转换,以改善后续的图像分析和识别任务的性能。图像预处理旨在消除图像中的噪声、增强图像的特征、标准化图像的尺寸和对比度等,以提供更好的输入数据给后续的识别算法。本研究设计进行图像预处理的步骤为[14]:
Step 1. 去噪
通过滤波器、降噪算法等方法去除图像中的噪声,以减少后续处理的干扰。
Step 2. 图像增强
基于具有尺度不变性色彩恢复Retinex算法,调整图像的对比度、亮度、颜色饱和度等,以提升图像的可识别性和特征的清晰度。
Step 3. 尺寸标准化
将图像缩放到相同的尺寸,以便于算法对不同大小的图像进行处理。
Step 4. 色彩空间转换
将图像从一种色彩空间转换为另一种,例如将彩色图像转换为灰度图像或将RGB图像转换为HSV图像,以便更好地提取特定的特征。
Step 5. 图像裁剪和旋转
根据需求,对图像进行裁剪和旋转操作,以去除不必要的部分或调整图像的方向。
3) YOLOX模型训练与图像识别
本研究使用1台配备英伟达GTX3060显卡的硬件环境进行识别系统模型的训练,该显卡与CUDA16.2进行了配合,并在Windows11操作系统下进行操作[15]。软件环境方面,选择了Python3.10作为开发语言,并使用了PyTorch 1.13深度学习框架进行代码编写。其环境配置可提供稳定和高效的训练平台,使模型能够进行有效且快速进行训练,最终本研究创建的数据集配合YOLOX模型训练的训练结果如图6、图7所示。图6为训练损失曲线,由图中可知,训练损失与验证损失均呈快速下降并逐渐平稳的趋势,且二者差异较小,这表明模型在训练过程中对数据的拟合能力持续增强,同时有效避免了过拟合现象,具备较好的泛化性能。图7显示的是训练平均精度(Mean Average Precision, MAP)曲线,由此曲线可以看出,模型的MAP 0.5在极短的训练轮次内就达到了1并保持稳定,这说明模型对目标的检测精度极高,且收敛速度快。
将经过训练的YOLOX模型保存到指定的文件夹中,接着,便可运行程序,使用YOLOX网络对于从摄像头采集到的视频数据进行目标物体识别。通过对视频流逐帧进行处理,YOLOX网络能够有效地检测出视频中的目标物体,并给出相应的识别结果。
本视频流传输方案采用树莓派4B和1080 p无畸变工业摄像头模组,并使用以太网电缆将树莓派4B与笔记本电脑进行通讯连接,此外,利用MobaXterm终端工具远程控制树莓派开启摄像头初始化服务,搭配TCP/IP通讯的方式监听树莓派端摄像头回传的视频流,从中获取图像数据,并将其用于上述的图像处理和分析。图8是使用Python语言编写的计算机图像获取的流程图。
Figure 6. Training loss curve plot
图6. 训练损失曲线图
Figure 7. Training map curve plot
图7. 训练平均精度曲线图
Figure 8. Flowchart for computer image acquisition
图8. 计算机图像获取的流程图
4. 仿真结果
本研究使用ANSYS Fluent软件对ROV进行计算流体动力学(Computational Fluid Dynamics, CFD)仿真,以模拟ROV在特定状态下的运动状态,并运用Coupled算法,能精确模拟不同物理场之间的相互作用,减少误差累积,进而提供更高的解的精度。本研究仅仿真机器人在前进方向水平面的阻力情况,即沿机器人X轴方向,为了分析机器人在前进时的水平面周围水流状态,将ROV的3D模型插入到一个宽度6倍于机身宽度、长度12倍于机身长度、高度5倍于机身高度的矩形通道中,作为机器人流体仿真的稳速流域,并设定流域中的水流速度固定为5 m/s。为了对机器人有一个良好的仿真质量,较高的网格质量可以实现对流场较为真实的模拟,但网格质量较高时网格的总数也会增多,庞大的网格总数在计算中会产生很大的CPU消耗,影响计算效率。因此在网格划分中,应在保证网格质量的前提下降低网格的总数[16] [17]。为了提高网格整体质量,减少网格总数,本研究采用分块混合网格划分方式:由于动压力仿真的主要针对的区域为机器人壁面,所以对水下机器人的壁面采用三角形网格进行划分,网格尺寸设置5 mm;对机器人附近流体区域采用四面体网格划分,网格尺寸设置10 mm,有效地实现了近壁面网格的细划;剩下的区域采用六面体网格进行划分,网格尺寸设置为30 mm。
由以上设置,经过500次仿真计算,数值收敛,最终得到如图9的前进方向水平面动压力分布图与图10的前进方向水平面湍流粘度分布图。从图9可以看出,ROV的表面设计较为光滑且为流线型,流体在其表面流动时相对顺畅,但其附近水流有着明显的变化,在ROV的前部侧面有明显的压力集中,由仿真显示,其前圆顶侧面和推进器边界受到243 hPa,可以推断出机器人该区域附近水流速度有明显差异,通过图10进一步验证得到,该区域形成涡流,产生涡流损耗,对ROV产生阻力,同时由于涡流的产生,使ROV后方区域压力降低,形成低压区域,从而产生黏性阻力,增加ROV行走的阻力。图10中显示在ROV的圆顶侧面、尾部和推进器后面存在较高的湍流粘度,达到约2.37 kg/(m*s),表现出在这些区域的湍流强度较大,流体的湍流混合和动量传递更为剧烈。由仿真显示ROV受到不少湍流的影响,推测是其推进器后方产生了较大的影响,后续仍有改进空间。
Figure 9. Dynamic pressure distribution diagram
图9. 前进方向水平面动压力分布图
Figure 10. Turbulent viscosity distribution diagram
图10. 前进方向水平面湍流粘度分布图
5. 结论
本研究围绕复杂水域生态环境监测需求,设计了一个面向生态观测的5-DOF小型ROV系统。系统采用“线–浮标”中继式有缆遥控架构,结合鱼雷式中性浮力布局与3推进器矢量控制方案,在保障机动性能的同时显著降低了能耗与结构复杂度。主控系统基于树莓派 + ESP32双核架构,集成图像采集、传感器数据处理与运动控制功能,可实现100 ms级实时视频回传与多任务协同作业。
在结构设计方面,ROV本体采用模块化设计,核心舱体选用亚克力材料并配备透明穹顶,兼顾密封性与观测视野;推进系统通过3台ROVMAKER推进器与4台舵机协同工作,实现5-DOF运动控制,具备良好的机动性与抗流能力。浮标系统作为通信中继与能源补充平台,有效简化了脐带缆管理,提升了系统作业半径与安全性。
在视觉识别方面,系统集成YOLOX深度学习模型,配合双摄像头与PWM调光LED,实现水下鱼类目标的实时识别与跟踪。通过自建数据集训练与图像预处理优化,识别帧率与准确率满足生态观测任务需求。CFD仿真结果表明,ROV流线型壳体在水平航行中具备良好减阻性能,尾部涡流区域对整体阻力影响较小,验证了结构设计的合理性。
未来工作中,将进一步优化推进器布局与控制算法,提升系统在强流环境下的稳定性;同时扩展传感器类型与AI识别模型,支持多类水生生物识别与行为分析;并探索延长系统续航时间的相关技术,推动其在长期生态监测与科研任务中的实际部署与应用。
基金项目
广东省科技创新战略专项资金(“攀登计划”) (项目编号:pdjh2024a362)。
NOTES
*通讯作者。