基于鱼群涌现行为启发的集群机器人有限交互深度模型

doi:10.12677/mos.2025.142167

期刊菜单

基于鱼群涌现行为启发的集群机器人有限交互深度模型
A Finite Interaction Depth Model for Swarm Robotics Inspired by Fish Schooling Behavior

DOI: 10.12677/mos.2025.142167, PDF, HTML, XML,
作者: 蔡佳浩：上海理工大学光电信息与计算机工程学院，上海；刘磊：上海理工大学光电信息与计算机工程学院，上海；上海理工大学管理学院，上海
关键词: 集群机器人；智能系统；深度强化学习；Swarm Robotics； Intelligent Systems； Deep Reinforcement Learning

摘要: 在人工智能和机器学习技术的推动下，集群机器人系统作为一种先进的智能系统在多个应用领域表现出了显著的潜力。特别是在环境探测、搜索救援及灾害响应等领域，集群机器人通过其高度的协同性和灵活性，能够有效提高操作效率和安全性。然而，实现有效的集群机器人控制在动态和不确定环境中仍面临诸多挑战，如计算资源的大量需求和系统的鲁棒性问题。本研究提出了一种新型的基于Transformer的有限交互集群机器人控制模型，灵感来源于自然界鱼群的涌现行为。我们采用深度强化学习方法，结合生物群体动态数据，对模型进行训练和优化，进而在复杂环境中实施精确的路径规划和动态避障。通过大量实验验证，结果表明该模型能够显著提升机器人群体的协同操作性能和环境适应性。

Abstract: With the advancement of artificial intelligence and machine learning technologies, swarm robotic systems have demonstrated significant potential as advanced intelligent systems in various application domains. Particularly in areas such as environmental exploration, search and rescue, and disaster response, swarm robots, with their high degree of coordination and flexibility, can effectively enhance operational efficiency and safety. However, achieving effective swarm robot control in dynamic and uncertain environments still faces many challenges, such as high computational demands and system robustness issues. This study proposes a novel Transformer-based hard attention swarm robot control model, inspired by the emergent behavior of natural fish schools. We employ deep reinforcement learning methods, combined with dynamic biological swarm data, to train and optimize the model, enabling precise path planning and dynamic obstacle avoidance in complex environments. Extensive experimental validation demonstrates that the model significantly improves the swarm’s cooperative performance and adaptability to environmental changes.

文章引用：蔡佳浩, 刘磊. 基于鱼群涌现行为启发的集群机器人有限交互深度模型[J]. 建模与仿真, 2025, 14(2): 460-474. https://doi.org/10.12677/mos.2025.142167

1. 引言

随着人工智能和机器人技术的飞速进展，集群机器人作为一种创新的智能系统在多个领域获得了广泛的应用和关注[1]-[3]。集群机器人系统由多个协作机器人单元组成，能够通过分布式的合作完成复杂任务，如环境监测、搜索救援和智能制造[4]等。与传统的单机器人系统相比，集群机器人展示了更高的灵活性和适应性，尤其在复杂和动态的环境中，其性能和效率有显著优势。然而要在实际应用中有效部署集群机器人，必须实现集群运动的协同控制，包括优化集群内各个机器人的行为协调、任务分配、路径规划、动态避障等关键任务。

已有研究的集群控制策略多倾向使用自动控制方法：如浙江大学湖州研究院提出的基于深度强化学习的动态路径规划方法[5]，以及Miguel Quinones-Ramirez探讨了各种路径规划策略，包括基于图的方法和基于势场的方法，用于在不同知识水平的环境中导航机器人。强调了深度强化学习在处理动态障碍物和实时路径规划中的应用[6]。尽管上述方法能够形成较为成熟的运动控制，但是现有的控制方案计算资源需求高、集群的灵活适应性不足。与之形成鲜明对比的是生物集群单体简单，却能在宏观层面展现出集群运动的高适应灵活性[7]。

为此利用生物集群运动启发机器人协同控制就具有重要实践意义[8]。从Reynolds提出的Boids模型开始[9]，先后出现了Vicsek模型[10]、Couzin模型[11]、Calovi模型[12]等经典集群理论，上述研究总结了集群行为的基本原则：即单体通过社会性交互可以涌现集群秩序，并给出了信息交互的具体数学表达。但是由于生物集群运动复杂，传统的集群建模研究方法主观性较强，在微观层面建立单体的社会交互模型还存在挑战。

近年来昆虫群、鱼群、鸟群的实验数据的完善[13]，基于数据驱动建模技术的深灰交互行为模型逐渐成为研究热点[14]，当前深度学习技术在各领域的应用日益增多，如何利用深度学习技术来构建集群机器人生物启发协同控制方法将具有更强的数据驱动能力。深度学习应用于集群控制能够完成路径规划[7]、目标识别等复杂任务[15]，这些方法利用神经网络对环境建模，并学习机器人之间的协同策略、尽管这些方法具有一定的有效性，但是计算资源依赖高、传感数据复杂、模型训练收敛慢、机器运动鲁棒性不高，为此基于实验室鱼群数据，提出了一种基于有限交互的生物启发深度网络模型，用于真实集群机器人的运动控制，以期获得灵活、鲁棒、有序的宏观机器人协同控制效果。

2. 基于有限交互深度网络模型

2.1. 鱼群数据采集实验

在本鱼群实验中，采用红鼻剪刀鱼作为实验对象，因其体型小巧、行动敏捷，成年体长约3厘米，且有良好的集群特性，即使少量单体也能产生较强的集群运动效果。为方便实时记录鱼群实验过程，在实验室中搭建一个边长120 cm的正方形透明玻璃水箱作为实验平台，水箱四周安装多块LED灯板提供辅助照明，水箱底部使用白色PVC材料以避免光线反射对实验数据的干扰，实验平台周围布置着不透光的灰色窗帘防止外界因素的影响。平台下方为一个二维位移装置，使用LabVIEW进行控制系统编程，通过控制二维位移台的电机控制X轴、Y轴运动，可以实现驱动仿制鱼的效果，整个鱼群韧性运动装置的架构如图1。

红鼻剪刀鱼在实验时的运动行为分为三个状态：静止、慢游和游动，其中游动为实验鱼速度大于6.6 mm/s (约每秒2倍体长)的运动状态。实验数据分析发现红鼻剪刀鱼具有瞬间转向加速、直线滑行的运动模式，为方便决策建模，可将单体运动简化为连续交替的转向–直游运动决策，最终将五鱼运动轨迹离散化为五组决策线段，单体在线段的端点处进行决策转向，这种运动模式与轮式机器人的运动方式相符，能够有效地弥补轮式机器人面临的非完整性约束限制。由于实验鱼群多数时间处于休息状态，不利于集群运动的机器学习模式提取，所以保留鱼群单体游动状态的轨迹数据，最后根据11小时五鱼集群运动数据，总共分离出6万余条合格数据用于模型训练。本实验严格遵守了伦理审查的规定，确保了所有实验操作的合法性和对参与生物的权益保护。

Figure 1. Experimental platform

图1. 实验平台

2.2. 鱼群运动参数定义

图2展示了鱼群运动过程中各参数的定义。如图2(a)，将轨迹的坐标系原点设定在圆形实验环境中心，环境半径为 $R_{w} = 25 cm$ ，设计将鱼群顺时针运动方向为正。如图2(b)，在 $t$ 时刻单体 $i$ 与单体 $j$ 的位置分别记为 $(x_{i} (t), y_{i} (t))$ 和 $(x_{j} (t), y_{j} (t))$ ，如图所示。单体 $i$ 的朝向角为 $ϕ_{i}^{t}$ ， $r_{i}^{w} (t)$ 为单体 $i$ 相对边界的距离， $θ_{i}^{w} (t)$ 为单体 $i$ 相对边界的角度，这两个参数在微观层面决定了单体的环境交互行为，可由单体 $i$ 的位置与环境半径 $R_{w}$ 计算得出：

$r_{i}^{w} (t) = R_{w} - \sqrt{x_{i} {(t)}^{2} + y_{i} {(t)}^{2}} ， \otimes$ (1)

$θ_{i}^{w} (t) = ϕ_{i} (t) - \arctan (y_{i} (t) / x_{i} (t)) .$ (2)

单体的社会交互如图2(c)，在 $t$ 时刻单体通过视觉观察来探测邻居 $j$ 的信息，其中 $d_{i j} (t)$ 为单体 $i$ 相对邻居 $j$ 的激励， $ψ_{i j} ((t))$ 为单体 $i$ 观察邻居 $j$ 的视角， $Δ ϕ_{i j} (t)$ 为邻居 $j$ 相对单体 $i$ 的朝向角差，该参数用于表征两单体之间的对齐程度，特别是当 $Δ ϕ_{i j} = 0$ 时表明两鱼平行，从而具有较一致的运动方向，是鱼群协同运动的主要方式，上述三参数对建模单体的社会交互行为至关重要，具体计算方法如下：

$d_{i j} (t) = \sqrt{{(x_{j} (t) - x_{i} (t))}^{2} + {(y_{j} (t) - y_{i} (t))}^{2}},$ (3)

$I_{1} = - (x_{j} (t) - x_{i} (t)) \sin (ϕ_{i} (t)),$ (4)

$I_{2} = (y_{j} (t) - y_{i} (t)) \cos (ϕ_{i} (t)),$ (5)

$Ι_{3} = (x_{j} (t) - x_{i} (t)) \cos (ϕ_{i} (t)),$ (6)

$I_{4} = (y_{j} (t) - y_{i} (t)) \sin (ϕ_{i} (t)),$ (7)

$ψ_{i j} (t) = \arctan (\frac{I_{1} + I_{2}}{I_{3} + I_{4}}),$ (8)

$Δ ϕ_{i j} (t) = ϕ_{j} (t) - ϕ_{i} (t) .$ (9)

单体 $i$ 在获取环境与社交信息后，会在决策时刻生成新一次的转向角度，以满足集群运动的需要。假定 $t$ 时刻为单体 $i$ 的决策时刻，如图2(d)。 $δ ϕ_{i}^{t}$ 表示单体 $i$ 表示单体 $i$ 的转角决策，体现了单体决策前后的航向角变化。规定 $K T_{i}^{t}$ 为单体 $i$ 的游动时长，体现为到达下一决策的运动时间，所以 $(t + K T_{i}^{t})$ 决策时刻 $t$ 相邻的下次决策时刻，在下次决策之前，单体 $i$ 保持航向角不变的直线游动，具体航向可用 $ϕ_{i} (t + K T_{i}^{t})$ 表示，其大小可以由前后两次决策单体 $i$ 的位置计算：

$ϕ_{i} (t + K T_{i}^{t}) = arctan (\frac{y_{i} (t + K T_{i}^{t}) - y_{i} (t)}{x_{i} (t + K T_{i}^{t}) - x_{i} (t)}) ，$ (10)

根据式6可得出单体 $i$ 的转角决策：

$δ ϕ_{i}^{t} = ϕ_{i} (t + K T_{i}^{t}) - ϕ_{i}^{t} .$ (11)

为建模方便，实验鱼群在圆形实验环境中顺时针和逆时针运动时，其运动决策应具有对称性。由于鱼群运动轨迹是由摄像机自上而下拍摄采集，如果自下而上采集镜像轨迹，获得的镜像数据即与原始数据对称，所得鱼群运动分析模型也就没有方向选择的偏好。通过对坐标系Y轴数据取负生成镜像数据，再将原始数据与镜像数据结合就可以消除实验数据的不对称问题。数据的镜像操作会影响与角度参数相关的数据，这些角度参数包括中单体 $i$ 相对边界的角度 $θ_{i}^{w}$ 、中单体 $i$ 观察邻居 $j$ 的视角 $ψ_{i j}$ 和邻居 $j$ 相对单体 $i$ 的朝向角差 $Δ ϕ_{i j}$ ，所以镜像轨迹中所有角度参数 $θ_{i}^{w}$ 、 $ψ_{i j}$ 和 $Δ ϕ_{i j}$ 的符号均与原始轨迹数据相反，因此图中单体 $i$ 的转交决策 $δ ϕ_{i}$ 也需进行镜像操作。通过添加镜像操作产生对称数据，能够有效去除因数据不足而使实验鱼产生运动方向偏好，同时还能得到双倍的数据集用于实验分析。

Figure 2. Fish movement and related motion parameters

图2. 鱼群运动和相关运动参数

3. 有限交互深度网络模型构建

通过大量实验观察和深入研究发现，红鼻剪刀鱼在集群运动中至多只需参考两个邻居的信息便能形成大规模的有序运动。这一发现基于之前鱼群软注意力研究的基础上，进一步构建了能够揭示鱼群交互行为原理的有限交互深度网络模型，该模型主要用于单体的转向决策。

然而，对于转角决策而言，转角方向与转角大小分别属于定性和定量两层次的输出。由于模型是连续函数，其输出应当是一个连续变化的量，而不是如从179度突然跳变到0度的角度。因此，采用相移编码对输入角度进行解析，具体计算输入角度的三个不同相移的余弦值，以解决该问题。

$θ_{1}^{w} = \cos (φ + 120^{°}),$ (12)

$θ_{2}^{w} = \cos (φ + 240^{°}),$ (13)

$θ_{3}^{w} = \cos (φ) .$ (14)

网络对这三个相移余弦值进行预测，再根据式换回角度。

$δ ϕ^{t} = - \arctan \frac{\sum_{1}^{3} δ ϕ_{n}^{t} \sin (\frac{2 n π}{3})}{\sum_{1}^{3} δ ϕ_{n}^{t} \cos (\frac{2 n π}{3})} .$ (15)

网络模型结构如图3，核心网络是实现集群有限交互解耦的关键部分，是整个自动建模方法的核心，分别嵌入在转向网络和直游网络中。核心网络包括编码器网络、图注意力网络、信息聚合组件以及预解码网络四个部分，其中编码器网络部分借鉴了Transformer结构。该部分接收环境信息 $X_{i}^{t}$ 和邻居信息 $X_{i j}^{t}$ ， $j \in N_{i}$ ，将这些信息排列组合成 $N_{i} + 1$ 个三元组列表，列表的第一项代表焦点单体自身，其余项表征邻居信息，然后将输入列表复制到三个同构的全连接网络：分别为查询编码器 $Q$ ，键值编码器 $K$ 以及数值编码器 $V$ ，这三组编码器采用了相同的结构参数[3, 128, 40]，其中输入层3神经元代表网络输入为三元组，输出层40神经元用于将输入信息提升到高维编码空间，各隐藏层之间使用Mish激活函数：

$y = x \cdot \tanh (\ln (1 + e^{x})) .$ (16)

Figure 3. Structure of the Finite Interaction Depth Network Model

图3. 有限交互深度网络模型结构

该激活函数具有类Relu函数的特点，可保证较深的梯度传播能力，同时该函数还具有拐点光滑、正向单调的特性，既能较好地保持模型的输出稳定性，又能避免反向传播的梯度消失，有利于节点导数计算，因此适用于复杂系统的可解释自动建模。环境数据(可看作焦点单体信息)经查询编码器 $Q$ 升维并复制 $N_{i} + 1$ 次可构成查询表 $[Q_{i}, Q_{i 1}, \dots, Q_{i N_{i}}]$ ，输入列表经键值编码器 $K$ 处理后会生成具有 $N_{i} + 1$ 项的键值表 $[K_{i}, K_{i 1}, \dots, K_{i N_{i}}]$ ，输入列表会被数值网络 $V$ 转换成 $N_{i} + 1$ 项的高维向量表 $[V_{i}, V_{i 1}, \dots, V_{i N_{i}}]$ 。

由于鱼类的脑神经系统具有有限的信息处理能力，这导致单体在集群中无法同时处理所有邻居的信息。根据文献的研究结论，单体仅与一到两个邻居交互即可生成集群运动，因此在核心网络中设计有限交互单元来强制单体仅与两个以内的重点邻居交互。同时，要保证单体基于少量邻居信息做出的决策能符合宏观有序集群运动的生成。为此将查询表 $[Q_{i}, Q_{i 1}, \dots, Q_{i N_{i}}]$ 与键值表 $[K_{i}, K_{i 1}, \dots, K_{i N_{i}}]$ 拼接，按行输入到负责注意力识别的全连接网络 $f_{M}$ 中，该网络各层的神经元数目设置为[80, 64, 32, 1]，由于Tanh激活函数的收敛速度较快，所以隐藏层之间使用Tanh激活函数，为将注意力值映射到(0, 1)之间，输出层采用Sigmoid激活函数，其中输入函数80代表查询表与键值表拼接后的元组维度，该网络经数据训练后能解析出焦点单体 $i$ 对环境的注意力 $k_{i}$ 和 $N_{i}$ 个对邻居的注意力 $k_{i j}$ ：

$k_{i} = σ (f_{M} (K_{i}, Q_{i})) ，$ (17)

$k_{i j} = σ (f_{M} (K_{i j}, Q_{i})) .$ (18)

其中 $k_{i j}$ 反映了单体 $i$ 对不同邻居 $j$ 的注意力程度，为将鱼类整体的注意力约束在一个固定容量，将其进一步归一化获得权重 $W_{i j}$ :

$W_{i j} = \frac{k_{i j}}{\sum k_{i j}} ，$ $W_{i j} = \frac{k_{i j}}{\sum k_{i j}} .$ (19)

找出邻居注意力权重 $W_{i j}$ 最大的两个邻居(当只有1个邻居时选1个)，最终得到焦点单体 $i$ 对环境和

两个邻居的权重 $[W_{i i}, W_{i j_{\max 1}}, W_{i j_{\max 2}}]$ (只有1个邻居就使用1个 $W_{i j}$ )用于后续信息融合，具体可根据有限交互网络的权重 $[W_{i j_{\max 1}}, W_{i j_{\max 2}}]$ 的邻居标号选出数值网络 $V_{i j}$ (只有1个邻居就使用1个 $V_{i j}$ )，然后融合得出

焦点单体 $i$ 用于网络决策解码的信息强度 $h_{i}$ 和 $H_{i}$ ：

$h_{i} = W_{i i} V_{i i} ，$ (20)

$H_{i} = \sum_{k = 1}^{m} W_{i j_{\max k}} V_{i j_{\max k}} .$ (21)

最后将拼接 $h_{i} \oplus H_{i}$ 强度输入到预解码网络中来获取决策解码的输入信息，其中预解码网络的神经元参数被设计成[80, 128, 128]，输入神经元维度80代表聚合环境与邻居的信息 $h_{i} \oplus H_{i}$ 的拼合维度，输出神经元维度128的设计目的是为了将单体 $i$ 的聚合信息推升至高维，以便后续具体的转向决策解码具有较高的训练灵活性，由于解码器会根据决策输出采用不同的设计，所以相同结构的预解码器可提高代码的复用能力。最终解码器再利用结构为[128, 64, 1]的不同全连接网络将高维预解码信息转换成转角决策 $δ ϕ_{i}^{t}$ 。深度神经网络在应对由于深度神经网络在应对多层次、多模态输出时具有较差的学习性能，为此转角网络解码器被设计成一个独立的全连接神经网络，网络用于量化输入角度经过解析后生成的相移余弦值 $θ_{i}^{w}$ ，生成的决策 $δ ϕ_{n}^{t}$ 在根据公式换回决策角度 $δ ϕ^{t}$ ，转角回归网络的参数结构为[128, 64, 1]，输入层设计128神经元用于承接上节聚合单元的预解码网络输出。

4. 有限交互深度网络模型仿真

利用自主研发的多智能体仿真平台验证有限交互模型的集群运动效果，其中仿真程序由两部分组成，一是由Python语言编写的智能体决策模块，有限交互模型训练由Python支持的Pytorch框架实现；二是由LabVIEW语言编写的多智能体仿真界面，由于LabVIEW是一种易于图形用户界面程序设计和面向对象编程的程序设计语言，能够便捷搭建多智能体仿真实验平台的人机交互界面。

多智能体仿真实验平台采用C/S架构，LabVIEW语言编写的仿真界面作为客户端，提供多智能体仿真、轨迹显示和数据记录功能；Python语言编写的有限交互模型作为服务器，接收LabVIEW客户端的智能体决策请求，通过对关键邻居的选择和模型的计算，控制多智能体的决策进行仿真实验。客户端与服务器使用自制通信协议，通过Socket通信进行数据传输。

在LabVIEW客户端中，所有智能体都受仿真时间的控制。每当仿真智能体需要进行决策时，它们会异步地向Python发送请求，希望获取新的动作决策。Python服务器会从LabVIEW客户端接收环境信息和所有的邻居信息，通过有限交互模型筛选出关键邻居的局部信息，采用Pytorch框架计算出转向网络的决策信息 $δ ϕ^{t}$ ，将该决策信息传输到LabVIEW客户端，然后将决策异步地发送给每个仿真智能体以控制其运动。为验证有限交互模型的集群性能，通过提出六种不同的宏观指标对集群运动进行描述，以量化评价智能体的集群运动效果，五种指标分别为智能体对墙距离 $r_{w}$ ，智能体对墙角度 $θ_{w}$ ，群体极性 $P_{(t)}$ ，群体大小 $C_{(t)}$ 和智能体转角决策 $δ ϕ$ 。

定义多智能体的重心位置为 $p_{G} = (x_{G}, y_{G})$ ，然后可计算出多智能体中心的速度 $v_{G} = (v_{G}^{x} (t), v_{G}^{y} (t))$ ，具体计算方法如下：

$x_{G} (t) = \frac{\sum_{i = 1}^{N} x_{i} (t)}{N}, y_{G} (t) = \frac{\sum_{i = 1}^{N} y_{i} (t)}{N} .$ (22)

$v_{G}^{x} (t) = \frac{\sum_{i = 1}^{N} v_{i}^{x} (t)}{N}, v_{G}^{y} (t) = \frac{\sum_{i = 1}^{N} v_{i}^{y} (t)}{N} .$ (23)

其中 $N$ 为智能体总数， $Δ t$ 为仿真周期，智能体 $i$ 的速度由向后一步差分定义，即

$v_{i}^{x} (t) = \frac{x_{i} (t) - x_{i} (t - Δ t)}{Δ t},$ (24)

$v_{i}^{y} (t) = \frac{y_{i} (t) - y_{i} (t - Δ t)}{Δ t} .$ (25)

集群重心给出了群体的集中特性信息，有助于集群运动的指标设定。在全局坐标系中，定义的六种不同的宏观指标如下：

智能体对墙距离 $r_{w} = {r_{i}^{w} (t) | i = 1, 2, \dots, N}$ 。

智能体对墙角度 $θ_{w}^{+} = {θ_{i}^{w} (t) | i = 1, 2, \dots, N}$ 。

群体极性 $P = \frac{1}{N} \sum_{i = 1}^{N} ‖ (\cos ϕ_{i}, \sin ϕ_{i}) ‖, P \in [0, 1],$ $ϕ_{i} = \arctan \frac{v_{i}^{y}}{v_{i}^{x}}$ 表示智能体 $i$ 的运动方向， $P = 1$ 代表多智能

体的航向一致， $P = 0$ 代表多智能体的航向角各不相同。

群体大小 $C = \frac{1}{N} \sum_{i = 1}^{N} ‖ p_{i} - p_{M} ‖$ ，其中 $‖ p_{i} - p_{M} ‖$ 代表着智能体 $i$ 相对离重心位置 $G$ 的距离， $C$ 值越小代

表着多智能体越紧密，反之分散。

智能体转角决策 $δ ϕ_{i}^{t} = {δ ϕ_{i} (t) | i = 1, 2, \dots, N}$ 。

多智能体交互仿真分析

图4为五仿真智能体一小时的运动轨迹图，展示了在有限交互模型控制下仿真体可进行类鱼群的环游运动，由于LabVIEW仿真时的避墙机制，仿真体展现出比鱼群更为保守的运动决策。

图5展示了五仿真智能体交互实验的4种宏观属性，图5(a)显示了真鱼与仿真体对墙距离 $r_{w}$ 的概率密度曲线。受LabVIEW仿真时避墙机制的影响，当预测的目标位置超出环境边界时，智能体会重新决策及时调整避墙动作，所以模型决策相对真鱼实验而言更为保守，导致仿真时对墙距离数据较真鱼实验更远。图5(b)显示了真鱼实验与模型仿真中单体对墙角度 $θ_{w +}$ 的分布曲线，峰值均处于 $90^{\circ}$ 附近，表明仿真体可像真鱼一样具有良好的沿墙运动特性。图5(c)显示了真实鱼群与仿真体的群体极性大小。相较于真实鱼群，仿真体的群体极性一直保持在较高水平，这是因为仿真过程中，有限交互模型滤除了成对交互中的一些干扰项，提取了生物数据中的共性特征。同理，图5(d)表明仿真体的集群紧密性相对真实鱼群更好，是模型训练的数据集中将干扰项去除的结果，仿真效果更符合项目预期。

Figure 4. Heatmap of the five-agent simulation

图4. 五智能体仿真热力图

Figure 5. Simulation analysis of the five fish and the agent

图5. 五鱼与智能体仿真分析

对比经典集群运动的IAT模型、最大影响力模型和最强视觉DNN模型，有限交互模型属于自动建模方法，具有客观、直接的微观分析效果。将上述3种模型写入仿真系统，进行相同规模的集群运动对比实验1小时，记录集群运动指标。表1展示了集群运动极性 $P$ 值，两鱼间距 $d_{12}$ 和两鱼航向角差 $ϕ_{12}$ ，这些参数体现出鱼群运动过程中单体运动的社会交互协同行为。

表1极性 $P$ 值能衡量鱼群运动的一致性，数值越接近1表示鱼群的运动方向越相同，其中最强视觉模型表现出了极高的均值和极低的方差，这是因为该模型利用了自由运动的鱼群数据训练，DNN模型能充分复现自由运动的整体秩序，最大影响力模型利用的是数学公式建模，由于具有一定的主观性，所以整体极性相较于深度学习模型有略微下降，基于图神经网络的IAT模型由于内部考虑的连接系数更多，所以性能也与最大影响力模型接近，这些自由模型的极性均能达到0.95，而所提有限交互模型能保持0.97以上的极性，表明所提模型的集群运动能力达到了较高水平。在运动的过程中，两鱼的运行间距 $d_{12}$ 、航向角差 $ϕ_{12}$ 也是处于众多集群运动模型的平均水平，表明所提有限交互模型能提供较为稳定的运动秩序。

Table 1. Motion coordination of different swarm movement simulations

表1. 不同集群运动仿真的运动协同性

	最大影响力模型	IAT模型	最强视觉DNN模型	有限交互深度网络模型
$P$	[0.95 ± 0.07]	[0.95 ± 0.03]	[0.99 ± 0.01]	[0.986 ± 0.012]
$d_{12}$	[0.10 ± 0.08]	[0.10 ± 4.26]	[0.02 ± 0.16]	[0.06 ± 0.22]
$ϕ_{12}$	[2.73e−17 ± 0.33]	[8.71e−18 ± 0.44]	[0 ± 0.07]	[4.08e−18 ± 0.11]

5. 机器人集群运动实验分析

作为多智能体仿真环境的硬件在环扩展，集群机器人实验平台由两部分组成：集群机器人硬件平台与嵌入仿真环境的LabVIEW控制软件。其中，机器人硬件平台采用自主研发的Cuboids机器人系统，运行环境为直径约2米的方形空间，上方装有一台1600万像素的工业相机。

该方形空间由36块GOB集成模组组成的P2.5 LED显示屏构成，具有色彩显示功能。显示屏作为外接显示屏通过屏幕控制器及HDMI接口连接至控制电脑，在控制电脑上通过LabVIEW软件使平台拥有黑色背景，并在背景中生成一个实际半径约1米、程序中半径约384像素点的圆形实验空间。

在实验进行时，LabVIEW与Python模型程序通过TCP/IP协议在本地地址的6340端口进行通信，实现数据交换。YOLOv7obb技术也被应用于集群机器人硬件平台中，该技术在检测模型的基础上加入了Oriented Bounding Box (OBB)功能，对物体的识别边框带有方向，能够在通过训练标签后精确判断被识别机器人的位置与朝向角。同时，该技术能够在检测任务中预测目标位置，实现对机器人的实时检测和跟踪，确保输出结果的高度准确，特别适合对运动中的多机器人系统。LabVIEW控制软件与实验相机相连，以100毫秒周期进行图像采集，YOLO模型对采集到的图像进行识别追踪，最终获得每台机器人的位置与朝向。

由于机器人与鱼类在性能和外形上的差异，直接进行有限交互模型的迁移控制会导致阻塞现象。鉴于上述机器人自身的物理、性能及其在运动时的动态环境方面的约束，为验证所提方法的控制有效性并降低集群的复杂度，采用五台Cuboids机器人在120毫米轨道上进行强化训练，并加入不同期望安全比率的集群运动实验。

在实验开始前，分别启动LabVIEW平台、实验平台、YOLOobb程序和Python模型程序。然后将用于实验的五台机器人打开，确保其拨码值不同，再将其放入实验平台并初始化，使得在LabVIEW平台中拍摄到的所有机器人均被顺利识别并标号。在实验过程中，YOLOobb模型会识别来自于LabVIEW获取的机器人运动照片，获取焦点机器人 $i$ 在决策时刻的自身图像数据 $[x_{i}, y_{i}, ϕ_{i}]$ 以及邻居的位姿信息，随后上位机可将所得信息换算映射成机载传感的环境信息 $[r_{i}^{w}, θ_{i}^{w}, 0]$ 与邻居信息 $[d_{i j}, ψ_{i j}, Δ ϕ_{i j}]$ ，再将上述信息打包成JSON格式发送到Python网络的通讯程序中，通过该程序计算经过有限交互模型后的输出转角决策 $δ ϕ_{i}^{t}$ ，通过JSON数据格式回传给LabVIEW控制软件，然后利用无线路由器，将具体的运动指令传输给Cuboids机器人。当来自LabVIEW控制软件的指令下达后，机器人会先旋转角度 $δ ϕ_{i}^{t}$ ，随后以预设速度直行3倍身长的距离，如果成功到达指定位置则会触发下一轮决策，如果运动前方出现环境障碍或邻居闯入，则焦点机器人会停下请求新的决策。实验时，机器人与实验平台环境在LabVIEW平台上如图6所示。

Figure 6. Experimental platform with multiple agents

图6. 实验平台与多智能体

5.1. Cuboids机器人设计

将具有自主知识产权的Cuboids机器人作为集群运动实验对象，如图7。这种微型轮式机器人的长宽高分别为[55 mm, 55 mm, 55 mm]，可实现类鱼运动。一片ESP32-C6芯片位于机器人侧边，主要用于与上位机进行数据交互，将包含机器人自身信息与机器人决策信息的数据池发送至上位机中，再接收上位机的决策指令进行下一运动；将摄像头采集的实时观测图像发送至上位机中，便于后续基于深度学习研究的开展；一片STM32芯片位于机器人底部，用于对底部四个颜色传感器进行数据分析，为后续的集群韧性研究的开展提供有力的实验条件，如表2。

Figure 7. Physical diagram of the robot

图7. 机器人实物图

Table 2. Composition of the data pool

表2. 数据池构成

信息池地址	内容
0	控制字
1	拨码开关地址(0~255)
2	电机1设定值(−127~128)
3	电机1实际值(−127~128)
4	电机2设定值(−127~128)
5	电机2实际值(−127~128)
6~7	四个三色LED灯状态
8~9	电子罗盘角度
10~21	待定
22~23	电池电压(单位：mV)

5.1.1. 机器人上层控制模块

在整个机器人系统中，上层控制模块扮演着至关重要的角色，类似于机器人的大脑核心，负责整合处理来自机器人其他部分及模块的信息。该模块有一个具有高性能的ARTIX7-XC7A100T核心板作为主控，能够在纳秒级别内快速响应各种控制程序，实现对机器人行为的精确控制和调度。该芯片还具备出众的并行计算能力，能够同时处理多个不同的任务程序，可以提升机器人处理数据能力，为机器人的高效运行提供了坚实基础。

在模块中间焊有一个HWT101姿态传感器，该传感器基于MEMS技术，该技术广泛应用于精密定位系统，使得该传感器拥有较高的灵敏度以及精确度。HWT101的加入，增强了机器人的感知能力，为机器人提供了精确的朝向角、对墙角度等关键信息，有助于机器人在复杂环境内的运动过程中的空间定位以及行为决策。

模块还通过DVP接口与一个OV5640摄像头相连，为机器人视觉系统提供硬件支持，强化了机器人的视觉感知能力。该摄像头使用SCCB协议进行通信控制，拥有自动调焦、自动图像控制等功能，能够有效减少由光学造成的图像噪声、拖尾等现象的出现，确保机器人能够获取清晰稳定的彩色图像。

为实现在多机器人系统中的有效通信和协作，模块集成有一个8bit的拨码开关，共可表示256个不同的值。通过对拨码的改变，赋予机器人唯一的身份标识，这种身份标识能够在多机器人系统运行过程中，精确识别每个机器人单体，从而有效协调群体行为，优化任务分配，实现更高效的群体协同工作。

此外，模块的四个角各布置有一个RGB三色LED灯，根据三色灯不同颜色的组合变化，可以展示出机器人的运动状态等，为机器人提供了一种直观的状态反馈方式。这种即时视觉反馈有助于实验过程中时刻监督机器人的运动状态，形成一种新的交互方式。

5.1.2. 机器人中层供电显示模块

中层模块主要起到了承上启下的作用。由于上层的FPGA芯片需要5 V的启动电压，而锂电池只能提供3.7 V的电压，因而需要将锂电池电压升压至5 V。此外，该模块还嵌有一个线性稳压管TPS72501，将锂电池电压降压至3.3 V，用于给上层控制模块中的摄像头OV5640、姿态传感器HWT101以及中层模块的OLED显示屏供电。

5.1.3. 机器人下层驱动模块

下层模块是机器人运动控制的核心，安装有两个带霍尔传感器编码的伺服电机，转速最高可达到150转/分钟，FPGA通过TB6612FNG驱动芯片对两个电机进行独立控制，支持双向驱动，能实现电机的前进、后退和制动功能。

模块还拥有一片TP4056芯片，能够对锂聚合物电池提供最大1A的可编程充电电流进行充电，拥有过充保护、过放保护、过流保护和短路保护等功能，确保电池充电的安全可靠。TP4056还拥有充电提示功能，可以通过LED灯的亮灭指示充电状态信息。

为实现对机器人的远程控制以及与机器人的通信，模块边上还装配有ESP32模组，该模组能够通过WIFI将机器人的控制指令以及机器人的信息与上位机进行交互，同时，ESP32还通过IO引脚与电池电压被分压后的电路信号线相连接，能够使用内置ADC测量电池电压，实时监控电量状态。

5.2. 集群机器人的运动实验分析

为验证有限交互模型在机器人平台上的控制效果，使用五个Cuboids机器人进行了为期一小时的分布式控制实验，取得了良好的集群运动效果。五台机器人的运动轨迹如图8所示，从中可以看出，有限交互模型在物理层面上成功验证了仿真实验结果。通过利用鱼群运动数据，该模型实现了集群行为的涌现，并产生了内圈超越现象。这种涌现机制是实现集群机器人自组织控制的核心要点。

Figure 8. Multi-agent swarm data

图8. 多智能体集群数据

根据所提四种宏观指标对有限交互模型控制的五机器人集群运动效果进行描述，以衡量有限交互模型的集群性能，四种宏观指标的概率函数如图所示，图8(a)显示了机器人对墙距离 $r_{w}$ 分布的峰值约为70 mm，离墙距离较小；图8(b)显示了机器人对墙角度 $θ_{w +}$ 分布的峰值约为 $90^{\circ}$ ，表明机器人运动时多与墙壁边界平行，具有良好稳定的沿墙运动特性；图8(c)显示了机器人群体极性 $P \approx 0.98$ ，与真实鱼群的 $P \approx 1$ 类似，表明机器人运动方向都较为一致；图8(d)显示了机器人群体大小的C值约为55 mm，表明机器人在保持安全距离的条件下集群效果仍较为紧密，这与智能体仿真实验结果类似。

6. 总结

本研究受自然鱼群集群运动的启发，深入探索了集群机器人控制领域，成功开发出一种新型的有限交互集群机器人控制模型。该模型巧妙融合了Transformer架构与深度学习技术，通过精心设计的鱼群数据采集实验获取关键数据，严谨定义鱼群运动参数，构建并细致仿真有限交互深度网络模型，最终在机器人集群运动实验中全面验证了模型的有效性与实用性。

通过系统的研究与实验过程，得出以下具有重要意义的主要结论：

1. 模型的有效性与可行性得到充分验证：经过大量实验与仿真实验的严格考验，该模型在处理复杂多变的环境动态方面展现出显著优势。在机器人集群运动实验中，成功实现了集群行为的涌现，产生了内圈超越现象，这一结果有力地证明了模型在物理层面的有效性，为其在实际场景中的应用奠定了坚实基础。

2. 高效协同与决策优化：模型精准模仿鱼群的集群行为，使得机器人之间能够实现高效协同，在动态环境中保持集群的稳定性和有序性。同时，深度学习技术的引入赋予机器人敏锐的环境感知与快速决策能力，使其能根据环境变化迅速调整决策，极大地提高了在复杂场景中的适应性，确保机器人集群在各种任务场景下均能高效运作。

3. 强大的鲁棒性与效率提升：在多场景仿真实验中，模型表现出卓越的鲁棒性，能够沉着应对环境中的不确定性和突发情况，确保集群机器人系统的稳定运行。与传统的集群控制方法相比，本模型显著提升了集群机器人的运动效率，大幅减少了路径规划和动态避障过程中的计算开销，使机器人集群能够更迅速、更准确地完成任务。

展望未来，我们将继续深化研究，致力于进一步提高模型的可扩展性和通用性，以满足更为广泛和复杂的实际应用需求。具体而言，我们将集中精力优化算法性能，不断提升模型的计算效率和准确性；增强模型的鲁棒性，确保其在各种极端环境和复杂任务条件下均能稳定可靠运行；积极扩展模型的应用范围，如智能交通、农业自动化和灾害应对等领域，为这些领域的发展提供强有力的技术支持。通过这些持续的努力，我们期望为集群机器人系统在实际应用中的广泛部署奠定更加坚实的基础，推动集群机器人技术不断向前发展。

参考文献

[1]	Gutiérrez, Á. (2022) Recent Advances in Swarm Robotics Coordination: Communication and Memory Challenges. Applied Sciences, 12, Article 11116. [Google Scholar] [CrossRef]
[2]	Hasselmann, M., Duarte, M., Gomes, J., et al. (2021) Evolving Control for Swarm Robotics: The Case of Modular Con-trollers. Artificial Life, 27, 92-108.
[3]	Global Market Insights (2023) Swarm Robotics Market Report. Swarm Robotics Market Size, Share & Global Forecast—2032.
[4]	Dorigo, M., Trianni, V., Şahin, E., Groß, R., Labella, T.H., Baldassarre, G., et al. (2004) Evolving Self-Organizing Behaviors for a Swarm-Bot. Autonomous Robots, 17, 223-245. [Google Scholar] [CrossRef]
[5]	Schmid, K., Rückin, J. and Mascarich, F. (2022) Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning. arXiv: 2402.04894. https://arxiv.org/abs/2402.04894
[6]	Sanchez-Ibanez, M., Rios-Martinez, J. and Uc-Cetina, V. (2023) Robot Path Planning Using Deep Reinforcement Learning. arXiv: 2302.09120. https://arxiv.org/abs/2302.09120
[7]	Berdahl, A.M., Kao, A.B., Flack, A., Westley, P.A.H., Codling, E.A., Couzin, I.D., et al. (2018) Collective Animal Navigation and Migratory Culture: From Theoretical Models to Empirical Evidence. Philosophical Transactions of the Royal Society B: Biological Sciences, 373, Article 20170009. [Google Scholar] [CrossRef] [PubMed]
[8]	Hamann, H., Khaluf, Y., Botev, J., Divband Soorati, M., Ferrante, E., Kosak, O., et al. (2016) Hybrid Societies: Challenges and Perspectives in the Design of Collective Behavior in Self-Organizing Systems. Frontiers in Robotics and AI, 3, Article 14. [Google Scholar] [CrossRef]
[9]	Reynolds, C.W. (1987) Flocks, Herds and Schools: A Distributed Behavioral Model. Proceedings of the 14th Annual Conference on Computer Graphics and Interactive Techniques, Anaheim, 27-31 July 1987, 25-34. [Google Scholar] [CrossRef]
[10]	Vicsek, T., Czirók, A., Ben-Jacob, E., Cohen, I. and Shochet, O. (1995) Novel Type of Phase Transition in a System of Self-Driven Particles. Physical Review Letters, 75, 1226-1229. [Google Scholar] [CrossRef] [PubMed]
[11]	Couzin, I.D., Krause, J., James, R., Ruxton, G.D. and Franks, N.R. (2002) Collective Memory and Spatial Sorting in Animal Groups. Journal of Theoretical Biology, 218, 1-11. [Google Scholar] [CrossRef] [PubMed]
[12]	Calovi, D.S., Litchinko, A., Lecheval, V., Lopez, U., Pérez Escudero, A., Chaté, H., et al. (2018) Disentangling and Modeling Interactions in Fish with Burst-and-Coast Swimming Reveal Distinct Alignment and Attraction Behaviors. PLOS Computational Biology, 14, e1005933. [Google Scholar] [CrossRef] [PubMed]
[13]	Giannini, J.A. and Puckett, J.G. (2020) Testing a Thermodynamic Approach to Collective Animal Behavior in Laboratory Fish Schools. Physical Review E, 101, Article 062605. [Google Scholar] [CrossRef] [PubMed]
[14]	刘磊, 张浩翔, 陈若妍, 等. 鱼群涌现机制下集群机器人运动强化的迁移控制[J]. 控制与决策, 2023, 38(3): 621-630.
[15]	Dorigo, M., Floreano, D., Gambardella, L.M., Mondada, F., Nolfi, S., Baaboura, T., et al. (2013) Swarmanoid: A Novel Concept for the Study of Heterogeneous Robotic Swarms. IEEE Robotics & Automation Magazine, 20, 60-71. [Google Scholar] [CrossRef]

为你推荐

友情链接