[发明专利]一种超越专家演示的阻抗控制模仿学习训练方法有效

申请号：	202110787181.7	申请日：	2021-07-13
公开（公告）号：	CN113641099B	公开（公告）日：	2023-02-10
发明（设计）人：	黄攀峰;武曦;刘正雄;马志强	申请（专利权）人：	西北工业大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	西安凯多思知识产权代理事务所(普通合伙) 61290	代理人：	刘新琼
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种超越专家演示阻抗控制模仿学习训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种超越专家演示的阻抗控制模仿学习训练方法，属于机器人智能控制领域。首先通过直接接触并引导、通过操纵杆引导或手工设计等任意方式收集专家演示轨迹，放入专家演示区；将专家演示轨迹和之后用策略重新采样得到的轨迹放入重放缓冲区；通过事后经验重放，将演示数据的成功率提高；通过生成性对抗模仿学习，将训练出的策略和演示数据之间的误差逐步缩小，最终得到期望的训练策略。

技术领域

本发明属于机器人智能控制领域，具体涉及一种超越专家演示的阻抗控制模仿学习训练方法。

背景技术

机器人技术越来越多地部署到了各种各样的非结构化场景中，在这些环境中机器人需要以安全稳定的方式与未知环境进行交互，进而完成复杂的任务。为使机器人与环境的相互作用力保持在合理的范围内，阻抗控制被广泛应用。特别地，在复杂任务中，根据不同的任务阶段和环境约束调整阻抗的能力对于安全性和性能至关重要，因此通常需要进行变阻抗控制。

通过模仿学习得到阻抗参数的变化策略或许是一种好的方法，但大量高质量的演示并不容易获得，并且学习到的策略的成功率往往受限于用来进行训练的演示的成功率。

发明内容

要解决的技术问题

为了弥补现有变阻抗控制方法的不足，本发明采用鲁棒对抗性模仿学习方法，提出一种超越专家演示的阻抗控制模仿学习训练方法，可以获得比专家演示成功率更高的变阻抗控制策略。

技术方案

一种超越专家演示的阻抗控制模仿学习训练方法，其特征在于步骤如下：

步骤1：收集专家演示轨迹

阻抗控制模型表达式为

其中，e＝x-x₀，x为实际位置，x₀为初始位置，e、和分别为末端执行器的位移、速度和加速度，M、B和K分别为惯性矩阵、阻尼矩阵和刚度矩阵，F为实际接触力；

定义s_t为当前状态，即当前跟踪位置误差e_t，速度跟踪误差和接触力F_t，a_t为当前动作，即阻抗参数M，B，K的值；奖励函数r_t可根据任务进行设置；

将(s_t,a_t,r_t,s_t+1)定义为演示轨迹的一个点，专家演示轨迹即为若干个点组成的一串连续轨迹；进行训练之前需要收集尽量多的专家演示轨迹；

步骤2：建立重放缓冲区