基于近端策略优化算法及视觉感知的机械臂导纳控制研究
Research on Admittance Control of Manipulator Based on Proximal Policy Optimization Algorithm and Visual Perception
DOI: 10.12677/mos.2024.136595, PDF, HTML, XML,    国家自然科学基金支持
作者: 黄一超, 赵宇涵, 卢 洋:上海理工大学健康科学与工程学院,上海;上海健康医学院协同科研中心,上海;张嘉琪, 赵文龙*, 周 亮*:上海健康医学院协同科研中心,上海
关键词: 深度强化学习近端策略优化导纳控制视觉伺服控制MuJoCo仿真Deep Reinforcement Learning Proximal Policy Optimization Admittance Control Visual Servo Control MuJoCo Simulation
摘要: 现代机械臂交互任务中,由于环境的复杂性和不确定性,精确的物体表面建模常常难以实现。因此,如何在不依赖精确模型的情况下,提高机械臂与环境交互时的适应性和稳定性成为机械臂与环境交互任务的研究重点之一。本文针对机械臂交互任务,旨在实现视觉引导下的精细力控。研究工作首先基于MuJoCo (Multi-Joint Dynamics with Contact)物理引擎搭建了机械臂交互仿真环境,并创新性的融合了基于位置的视觉伺服(Position-Based Visual Servo, PBVS)控制和导纳控制。通过深度强化学习(Deep Reinforcement Learning, DRL)中的近端策略优化(Proximal Policy Optimization, PPO)算法,有效整合了视觉信息和力信息,从而提出了一种结合了视觉感知的导纳控制策略。通过对比实验验证,结合视觉感知的导纳控制相较于视觉伺服控制,力控整体性能提升68.75%;相较于经典的导纳控制,峰值力控制精度提高15%。实验结果表明,结合视觉感知的导纳控制在平面和不规则凹面环境中均表现出色:不仅能精确执行视觉引导下的力控任务,还能在多样化的接触面上保持稳定的交互力并迅速适应环境变化。在精密装配、医疗辅助和服务机械臂等领域,能够提高机械臂在复杂、不确定环境中的适应性和稳定性,从而推动智能机械臂自主操作的进一步发展。
Abstract: In modern manipulator interaction tasks, due to the complexity and uncertainty of the environment, accurate object surface modeling is often difficult to achieve. Therefore, improving the adaptability and stability of the interaction between the manipulator and the environment has become one of the research focuses of the interaction task. Aiming at the interactive task of the manipulator, this paper aims to realize the fine force control under visual guidance. Therefore, based on the MuJoCo (Multi-Joint Dynamics with Contact) physics engine, we built an interactive simulation environment for the manipulator, and innovatively integrated the position-based visual servo control and admittance control. Through the Proximal Policy Optimization (PPO) algorithm in Deep Reinforcement Learning (DRL), the visual information and force information are effectively integrated, and an admittance control strategy combining visual perception is proposed. Through comparative experiments, the admittance control combined with visual perception is compared with visual servo control, and the overall performance of force control is improved by 68.75%. Compared with the classical admittance control, the peak force control accuracy is improved by 15%. The experimental results showed that the admittance control combined with visual perception performs well in both flat and irregular concave environments: it can not only accurately perform visual-guided force control tasks, but also maintain stable interaction forces on a variety of contact surfaces and quickly adapt to environmental changes. In the fields of precision assembly, medical assistance and service manipulator, it can improve the adaptability and stability of manipulator in complex and uncertain environments, thus promoting the further development of autonomous operation of intelligent manipulator.
文章引用:黄一超, 张嘉琪, 赵宇涵, 卢洋, 赵文龙, 周亮. 基于近端策略优化算法及视觉感知的机械臂导纳控制研究[J]. 建模与仿真, 2024, 13(6): 6512-6524. https://doi.org/10.12677/mos.2024.136595

1. 引言

在实际应用中,机器人与环境的交互对任务执行至关重要。无论是轴孔装配还是表面抛光,精确控制接触点的力度和位置都是确保准确性和安全性的关键。为此,研究人员通常在机器人末端集成多种传感器,以采集详细的交互信息,从而优化控制[1]

然而,复杂的操作环境给机器人控制带来了挑战。传统控制器将环境交互视为干扰,可能导致过大的接触力和碰撞,降低任务的安全性和可靠性。为应对非结构化环境、不确定性和外部扰动,柔顺控制应运而生。柔顺控制允许机器人动态调整刚度和阻尼特性[2],相比传统刚性控制更适合各种任务环境下的稳定交互[3] [4]。这种方法显著提高了任务执行的成功率,为机器人在复杂环境中的应用开辟了新的可能。

为了增强机器人在复杂环境中的操作能力,同时减少对环境精确建模的依赖,现代机器人系统通常配备视觉传感器[5]。这使机器人能直接感知和理解周围环境,从而更有效地完成任务[6]。然而,将视觉信息与力信息有效结合并用于机器人控制是当前研究中的一个重要挑战,因为这两种信息在模态和传输速率上存在显著差异。为应对这一挑战,以视觉为主导的控制方法逐渐成为主流。例如,利用视觉特征引导机器人执行装配任务,使机器人的顺应性沿视觉任务方向调整[7]。但这种方法也面临局限性,主要是视觉传输速率与机器人控制频率的同步问题,可能影响运动过程中的人机交互安全。这种基于视觉的控制策略虽然有一定创新性,但仍需进一步优化以解决实时性和安全性的问题,特别是在需要快速动态响应的应用场景。

近年来,研究者们致力于整合视觉和力信息以提升机器人控制效果[8]。目前已经有提出基于视觉的速度观测器来估计相对速度并将其集成到视觉阻抗中[9]。利用视觉信息生成位置和速度序列,通过动力学模型转化为驱动力矩[10]。有人则提出了一种混合控制方案,在任务方向上采用力控制,其余方向则使用视觉控制[11]。然而,这些方法都未能充分发挥视觉和力信息的互补性。为解决这一问题,深度强化学习成为新的研究焦点[12]。Min Wu等提出基于深度强化学习的共享阻抗控制方案,优化人机协作的阻抗参数[13]。Kozlovsky探讨了使用强化学习优化阻抗矩阵以提升控制器性能[14]。Bogdanovic通过深度强化学习优化交互任务中的输出阻抗和期望位置策略[15]。Shir Kozlovsky用深度强化学习训练的大语言模型优化非对称阻抗矩阵于小型Peg-in-Hole任务[16]。S.A. Khader引入了一种受Cross-Entropy方法启发的变阻抗控制策略搜索算法[17]。Xiaoxin Feng使用双延迟深度确定性策略梯度调整刚度参数,确保装配任务中的安全性[18]。DRL结合神经网络和强化学习算法,能在复杂环境中学习和优化决策策略。它通过观测空间(OB)获取环境信息,选择最佳行动(Action)驱动智能体运动,以获得最大奖励(Reward)。这种方法使机器人能更好地适应任务的动态性和复杂性,从而更有效地完成任务。

本研究将深度强化学习算法与加入了视觉感知的导纳控制相结合,提出了一种新型的机械臂力控制方法,旨在实现不同表面下的定点力控和移动过程中的精确力控任务。在仿真器选择中,MuJoCo物理引擎相比于Gazebo和Webots的动力学计算更为迅速,能够更好地处理物体间的相互接触,且搭建深度强化学习环境更为简单。首先,将基于位置的视觉伺服与导纳控制相结合,设计出一个创新的导纳控制器。通过深度强化学习中的PPO算法,在视觉引导的力控过程中,不断优化导纳控制器的关键参数。这些经过学习的最佳参数随即被整合到下一个控制周期的导纳控制器中,形成一个动态优化的闭环系统。最后,通过该控制器能够精确计算并输出所需的力矩,从而驱动机械臂准确执行各种复杂的力控任务。

2. 基于PPO和视觉感知的导纳控制器设计

2.1. 经典导纳控制器设计

导纳控制是基于位置的阻抗控制,将机械臂末端与环境接触的六维力作为导纳控制的输入,输出则为基于目标位置的位置,速度和加速度偏移量。该方法通常需要在末端执行器上安装六维力/力矩传感器以获取实时接触力信息。导纳控制通常需要在机械臂末端建立一个虚拟的二阶弹簧–质量–阻尼模型,表达式如下:

M d ( x ¨ d x ¨ )+ D d ( x ˙ d x ˙ )+ K d ( x d x )= F d F (1)

F表示机械臂末端当前六维力传感器的检测到的外部环境力, F d 表示机械臂末端六维力传感器期望保持的外力,和基于力的阻抗控制相同 M d D d K d 都为正定对角矩阵,也代表着导纳系统中的惯性,阻尼和刚度。

其中, F d F 是接触力误差为已知量,x既表示机械臂真实位置,又代表发送给位置控制内环的期望位置。假设位置控制内环无误差,通过输出x实现柔顺控制。对位置误差的高阶导数项进行泰勒展开,得到仅包含 x 项的表达式,可得到更为简洁的控制方程。

其一阶导数展开表示为:

x ˙ e ( t ) x e ( t ) x e ( t1 ) Δt (2)

基于上式将二阶导数展开为:

x ¨ e ( t ) x e ( t )2 x e ( t1 )+ x e ( t2 ) Δ t 2 (3)

x ¨ e t x ˙ e t 分别展开包含 t1 时刻的 x e t2 时刻的 x e ,将式(2),(3)代入至(1)中并简化得出:

x e t = F e Δ 2 t+( 2 M d + D d Δt ) x e t1 M d x e t2 M d + D d Δt+ K d Δ 2 t (4)

x e t 表示在力控内环中通过输入接触力误差最终得到的期望轨迹偏移量。

图1为导纳控制系统框图,导纳控制系统以目标位置为输入,通过轨迹规划生成目标速度和轨迹。这些信息经运动学转换到关节空间后输入PD控制器。控制器输出经机械臂动力学系统转化为驱动力矩。同时,系统利用机械臂反馈的笛卡尔空间位置、速度和加速度信息,结合环境输入的力误差,通过导纳模型计算位置修正量。修正后的位置再次输入轨迹规划,形成闭环控制,该方法可实现机械臂的柔顺运动控制,并能够有效适应环境变化。

Figure 1. Admittance control system block diagram

1. 导纳控制系统框图

2.2. 结合视觉感知的导纳控制器设计

视觉信息具有显著增强机器人在人机交互环境中的适应能力的优势,本文采用结合视觉和导纳控制的控制策略设计一种新型的导纳控制器,巧妙地整合了末端力传感器和视觉系统的输入信息。该导纳控制器能够同时处理力信息和图像信息来计算位置偏差,从而生成精确的控制信号以驱动机械臂。特别是在基于位置的视觉伺服框架下,该方法能够实现对机器人末端执行器位置的高精度控制。

e( t )=s( t ) s * (5)

V c =λ L e + e (6)

在式(5)中,s代表摄像机采集的视觉信息,e表示视觉信息误差, L e + 为特征雅可比矩阵,描述相机速度与误差的关系, λ 是增益项,PBVS的核心是通过比较末端执行器的实际位置与期望位置,利用位置控制算法减小误差,使系统收敛。

将式(5)带入式(6)能得到新的表达式:

V c =λ L e + ( s( t ) s * ) (7)

s表示相机坐标系相对于期望位置的位姿,是由被跟踪物体坐标经过变换得到,其表达式如下:

s=( c * t c ,θu ) (8)

L e =[ R 0 0 L θu ] (9)

又因为 s * =0 e=s V c =( v c , ω c )

v c =λ R T c * t c (10)

ω c =λθu (11)

在此基础上对 v c 转换到关节空间并对其积分就能得到关节空间期望位置:

q d =μ J 1 λ L e + s( t )dt+ q c (12)

将式(12)代入至具有动力学前馈的关节PD控制中能得出结合视觉感知的导纳控制控制闭环:

M( q ) q ¨ +C( q, q ˙ ) q ˙ +G( q ) K P ( qμ J 1 λ L e + s( t )dt+ q c ) K D q ˜ ˙ =τ (13)

式(13)表示了结合视觉感知的导纳控制系统的内环,它集成了视觉引导、动力学前馈补偿和关节PD控制,从而形成了一个综合的控制策略。

2.3. 基于PPO及视觉感知的导纳控制器设计

本文提出基于PPO及视觉感知的导纳控制和关节PD控制器,PPO算法通过策略梯度优化,结合视觉反馈调整机器人末端执行器的力和位置。在结合视觉感知的导纳控制中,利用视觉信息实时估计环境特征,并根据接触力动态调整阻抗参数,以确保机器人在复杂环境中实现柔顺交互控制。

本文中深度强化学习训练过程如下:智能体输入期望的刚度随着力的变化量 F var ,期望位置的误差 P e 来决定,在输出期望的刚度后计算出阻尼和预先规划的轨迹到自适应策略中会输出末端笛卡尔空间位置,将笛卡尔空间位置转换到关节空间经过力矩环最终输出到机械臂,基于PPO算法优化与视觉感知的导纳控制策略框图如图2所示。

在深度强化学习的奖励函数设计中,距离偏差和力变化量是两个关键参数,距离偏差 P e 越小,奖励越大。同样,力变化量 F var 越小,表示外力越稳定,系统越平衡,奖励也越高。通过L2范数将这两个二维向量映射为一维标量,并采用双曲正切函数(tanh)进行归一化处理,可有效约束奖励值的范围,从而提高控制优化的稳定性和有效性。具体表达式为:

R norm =tanh R( x ) (14)

其中,R是奖励函数,其表达式为:

R=0.25 R P e norm +0.75 R F var norm (15)

在奖励函数的权重配置中,位置误差与力变化量的比例设定为1:3,该配置策略强调力控制的稳定性,同时对位置精度施加适度约束,有助于在训练过程中保证机械臂的稳定性和位置精度的平衡。

Figure 2. Admittance control strategy block diagram based on PPO algorithm optimization and visual perception

2. 基于PPO算法优化与视觉感知的导纳控制策略框图

3. 仿真实验

MuJoCo (Multi-Joint Dynamics with Contact)专为动力学模拟而设计。它通过优化的物理模拟模块提升了仿真运算速度,同时提供精确的动力学仿真结果。以此成为研究人员和开发者探索复杂物理交互和动力学系统的重要工具。本研究采用其作为仿真平台的底层物理引擎。

本文采用了球–转–球(Spherical-Revolute-Spherical, SRS)构型的七自由度冗余机械臂,其仿真环境浮动基座平滑平面障碍物环境如图3所示,机械臂的末端执行器为一个附加了摄像头的刚性杆结构。刚性杆末端集成了力反馈传感器,通过采集数据设计模型最终可以得到机械臂法兰受力。

Figure 3. Floating base smooth plane obstacle environment

3. 浮动基座平滑平面障碍物仿真环境

图3所示的浮动基座平滑平面障碍物仿真环境中,实验设计包含两组对比实验:一组是定点力控实验,用于评估算法的稳定性和收敛速度;另一组是沿相同轨迹的移动力控实验,用于比较不同算法的力控性能。

为评估机械臂力控算法在不规则曲面上的性能,设计一个机械臂在不规则凹曲面障碍物的移动力控性能测试的实验仿真环境,如图4所示。该环境由一个正方形平面构成,其中心被加工成凹球面形状。为模拟真实世界的复杂表面特性,整个模型被精确划分为142个小块并重新拼接,从而创造出一个具有粗糙表面特征的凹球面。

Figure 4. Irregular concave surface obstacle environment

4. 不规则凹曲面障碍物仿真环境

图3图4所示的仿真环境中,通过优化PPO算法超参数配置进行强化学习训练,以实现稳定性和收敛速度之间的平衡,相关参数设置如表1所示:

Table 1. Super parameter setting of PPO algorithm

1. PPO算法相关超参数设置

参数

学习率

3e−4

折扣因子

0.99

GAE折扣率

0.95

Mini批尺寸

131,072 (2048 × 64)

优化损失函数的回合数

10

其中,学习率为3e−4保证模型更新稳定,折扣因子为0.99适合长期决策问题,GAE折扣率0.95平衡偏差和方差,较大的Mini批尺寸131,072有助于平滑梯度,减少过拟合风险,而10个回合损失函数更新则确保策略能充分学习样本而不过度拟合。

图5展示了在3,000,000个时间步中的训练学习曲线,从图5可以清楚看到,在大约1,000,000个时间步后,奖励函数趋于收敛。此外,奖励函数的值收敛到约2100,表明在成功完成训练后,机械臂能够通过图像信息和力信息与工作平面交互,且在稳定性和收敛速度都有一定的提高,从而有效完成目标任务。

Figure 5. PPO algorithm training reward graph

5. PPO算法训练奖励图

结合视觉感知的导纳控制在浮动基座环境下接触力对比分析如图6所示,经过优化后的导纳控制算法在经过150个时间步后机械臂末端刚性杆与浮动基座障碍物产生接触,在经过短暂的超调后力迅速平稳,机械臂在ArUco的引导下进行移动,移动过程中产生力偏差也能迅速收敛。

图7中机械臂在与不规则凹球面环境接触中接触力迅速增大,并且在腔道内与粗糙表面接触后进行移动,在移动过程中的接触力可以稳定在0.8 N上下,达到了期望目标。

Figure 6. Contact force comparison of admittance control combined with visual perception in floating base environment

6. 结合视觉感知的导纳控制在浮动基座环境下接触力对比

Figure 7. Contact force comparison of admittance control combined with visual perception in concave spherical environment

7. 结合视觉感知的导纳控制在凹球面环境下接触力对比

图8是视觉伺服控制在ArUco的引导下与腔道进行接触的接触力变化图,视觉伺服控制在力响应特性方面存在明显局限性,表现为接触初期的显著震荡和较长的稳定时间。与结合视觉感知的导纳控制算法相比,其力控精度和动态响应特性都有较大差距。在平稳过后最终末端力大致稳定在0.25 N,量化分析表明,结合视觉感知的导纳控制与视觉伺服相比在力控性能上提升了68.75%。

Figure 8. Comparison of contact force of visual servo in concave spherical environment

8. 视觉伺服在凹球面环境下接触力对比

图9对比了经典导纳控制和结合视觉感知的导纳控制在定点力控任务中的表现。实验设置了1 N和1.5 N两种期望力情况,结果显示在约2,000,000个时间步时机械臂与环境发生接触。两种方法均在接触后产生了力响应。相比传统方法,自适应方法将最大力突变从超过期望力的20%显著降低到5%以下,极大地提高了力控制的精确度。此外,自适应方法在力突变后表现出更快的收敛速度。这一改进不仅提高了力控制的精度,还显著减小了接触力突变,有效降低了机械臂与环境碰撞可能造成的损害,从而增强了系统的安全性和稳定性。

(a) 期望力1 N

(b) 期望力1.5 N

Figure 9. Comparison of contact force between classical admittance and visual admittance under floating base environment

9. 不同期望力下的经典导纳和结合视觉感知的导纳控制浮动基座环境下接触力对比

图10展示了在浮动基座环境中,机械臂执行视觉伺服控制与结合视觉感知的导纳控制对比实验的位置轨迹。这些轨迹描绘了ArUco标记引导下机械臂末端执行器的运动路径。在此环境中,即使机械臂与环境发生接触后,仍保持较长的移动距离,该方法有助于更全面地比较视觉伺服控制和新提出方法的环境适应能力。通过比较不同控制策略下机械臂的运动表现,以更好地评估它们在复杂动态环境中的性能差异。

图11展示了在不规则凹球面环境中,设置腔道环境位置位于世界坐标系下的 x=1.07 y=0.0 z=0.3 ,腔道摩擦力系数设置为 friction=0.3,0.005,0.001 ,通过增加平移摩擦力以更精确地模拟口腔复杂环境。初始力控参数设置为 M d =100 D d =1000 D d =3000 ,期望接触力 F d =0.6 。在图中:红色实线表示期望轨迹,绿色实线表示传统导纳控制的轨迹,蓝色实线代表基于PPO和视觉感知的导纳控制的轨迹。在与环境发生交互时,可明显看出经过优化后的导纳控制在轨迹偏移上比传统方法更小,能够更好地处理表面形状的变化,其在力控过程中具有更强的稳定性。

Figure 10. Position trajectory of floating base environment experiment

10. 浮动基座环境实验位置轨迹

(a) x方向

(b) y方向

(c) z方向

Figure 11. Comparison between the expected trajectory and the actual trajectory under visual guidance: performance comparison between admittance control and adaptive admittance control

11. 视觉引导下的期望轨迹与实际轨迹对比:导纳控制和自适应导纳控制的性能比较

4. 结论

为提高机械臂力控性能和交互任务中的环境适应能力,本文提出了一种基于近端策略优化算法和视觉感知的导纳控制方法。该方法融合视觉感知的导纳控制与PPO算法,以提高机械臂对环境的感知能力。这使得系统能够实时反馈复杂多变的工作环境,利用PPO算法实现了对导纳控制中二阶弹簧质量阻尼模型的刚度和阻尼参数的动态优化,提升了系统的稳定性和力控精度。实验结果表明,相较于传统的视觉伺服控制,该方法在浮动基座环境下的定点力控任务和移动力控任务中,整体力控性能上提升了68.75%;与经典导纳控制相比,在峰值力抑制方面改善了15%。同时,本文证实了基于力变化量和位置误差设计的奖励函数能够有效地将视觉信息与力反馈结合,实现了更精确的力反馈控制。这些发现为解决机械臂在复杂环境下的高精度力控问题提供了新的研究思路和方法。

基金项目

国家自然科学基金(No. 92048205),上海市科学技术委员会(No. 23640770100)。

NOTES

*通讯作者。

参考文献

[1] Prasanth, N., Shrivastava, K., Sharma, A., Basu, A., Sinha, R.A. and Raja, S.P. (2023) Gesture-Based Mouse Control System Based on MPU6050 and Kalman Filter Technique. International Journal of Intelligent Systems Technologies and Applications, 21, 56-71.
https://doi.org/10.1504/ijista.2023.130556
[2] Duan, J., Gan, Y., Chen, M. and Dai, X. (2018) Adaptive Variable Impedance Control for Dynamic Contact Force Tracking in Uncertain Environment. Robotics and Autonomous Systems, 102, 54-65.
https://doi.org/10.1016/j.robot.2018.01.009
[3] 孟奥, 吴志宇, 周州, 张付超, 胡冰山, 喻洪流. 变刚度关节机构设计与变阻抗增益控制仿真研究[J]. 建模与仿真, 2023, 12(6): 5165-5176.
[4] Ferraguti, F., Talignani Landi, C., Sabattini, L., Bonfè, M., Fantuzzi, C. and Secchi, C. (2019) A Variable Admittance Control Strategy for Stable Physical Human-Robot Interaction. The International Journal of Robotics Research, 38, 747-765.
https://doi.org/10.1177/0278364919840415
[5] Wen, K., Necsulescu, D. and Sasiadek, J. (2007) Haptic Force Control Based on Impedance/Admittance Control Aided by Visual Feedback. Multimedia Tools and Applications, 37, 39-52.
https://doi.org/10.1007/s11042-007-0172-1
[6] Qi, J., Xu, Z., Chu, J., Zhu, M. and Teng, Y. (2023) Visual-Admittance-Based Model Predictive Control for Nuclear Collaborative Robots. Frontiers in Energy Research, 11, Article ID: 1203904.
https://doi.org/10.3389/fenrg.2023.1203904
[7] Seraji, H. (1994) Adaptive Admittance Control: An Approach to Explicit Force Control in Compliant Motion. Proceedings of the 1994 IEEE International Conference on Robotics and Automation, San Diego, 8-13 May 1994, 2705-2712.
https://doi.org/10.1109/robot.1994.350927
[8] Alshbatat, A.I.N. (2021) Adaptive Vision-Based System for Landing an Autonomous Hexacopter Drone on a Specific Landing Platform. International Journal of Intelligent Systems Technologies and Applications, 20, 245-270.
https://doi.org/10.1504/ijista.2021.120525
[9] Ott, C., Mukherjee, R. and Nakamura, Y. (2014) A Hybrid System Framework for Unified Impedance and Admittance Control. Journal of Intelligent & Robotic Systems, 78, 359-375.
https://doi.org/10.1007/s10846-014-0082-1
[10] Xu, M., Hu, A. and Wang, H. (2023) Visual-Impedance-Based Human-Robot Cotransportation with a Tethered Aerial Vehicle. IEEE Transactions on Industrial Informatics, 19, 10356-10365.
https://doi.org/10.1109/tii.2023.3240582
[11] Zimmermann, S., Poranne, R. and Coros, S. (2021) Go Fetch!—Dynamic Grasps Using Boston Dynamics Spot with External Robotic Arm. 2021 IEEE International Conference on Robotics and Automation (ICRA), Xi’an, 30 May-5 June 2021, 4488-4494.
https://doi.org/10.1109/icra48506.2021.9561835
[12] De Schutter, J. and Baeten, J. (2003) Integrated Visual Servoing and Force Control: The Task Frame Approach. Springer Science & Business Media.
[13] Wu, M., He, Y. and Liu, S. (2019) Shared Impedance Control Based on Reinforcement Learning in a Human-Robot Collaboration Task. In: Berns, K. and Görges, D., Eds., Advances in Intelligent Systems and Computing, Springer International Publishing, 95-103.
https://doi.org/10.1007/978-3-030-19648-6_12
[14] Kozlovsky, S., Newman, E. and Zacksenhouse, M. (2022) Reinforcement Learning of Impedance Policies for Peg-In-Hole Tasks: Role of Asymmetric Matrices. IEEE Robotics and Automation Letters, 7, 10898-10905.
https://doi.org/10.1109/lra.2022.3191070
[15] Bogdanovic, M., Khadiv, M. and Righetti, L. (2020) Learning Variable Impedance Control for Contact Sensitive Tasks. IEEE Robotics and Automation Letters, 5, 6129-6136.
https://doi.org/10.1109/lra.2020.3011379
[16] Joglekar, O., Kozlovsky, S., Lancewicki, T., et al. (2024) Towards Natural Language-Driven Industrial Assembly Using Foundation Models. ICLR 2024 Workshop on Large Language Model (LLM) Agents, Vienna, 7-11 May 2024.
[17] Khader, S.A., Yin, H., Falco, P. and Kragic, D. (2021) Stability-Guaranteed Reinforcement Learning for Contact-Rich Manipulation. IEEE Robotics and Automation Letters, 6, 1-8.
https://doi.org/10.1109/lra.2020.3028529
[18] Feng, X., Shi, T., Li, W., Lu, P. and Pan, Y. (2022) Reinforcement Learning-Based Impedance Learning for Robot Admittance Control in Industrial Assembly. 2022 International Conference on Advanced Robotics and Mechatronics (ICARM), Guilin, 9-11 July 2022, 1092-1097.
https://doi.org/10.1109/icarm54641.2022.9959152