[发明专利]一种超越专家演示的阻抗控制模仿学习训练方法有效
| 申请号: | 202110787181.7 | 申请日: | 2021-07-13 |
| 公开(公告)号: | CN113641099B | 公开(公告)日: | 2023-02-10 |
| 发明(设计)人: | 黄攀峰;武曦;刘正雄;马志强 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 超越 专家 演示 阻抗 控制 模仿 学习 训练 方法 | ||
本发明涉及一种超越专家演示的阻抗控制模仿学习训练方法,属于机器人智能控制领域。首先通过直接接触并引导、通过操纵杆引导或手工设计等任意方式收集专家演示轨迹,放入专家演示区;将专家演示轨迹和之后用策略重新采样得到的轨迹放入重放缓冲区;通过事后经验重放,将演示数据的成功率提高;通过生成性对抗模仿学习,将训练出的策略和演示数据之间的误差逐步缩小,最终得到期望的训练策略。
技术领域
本发明属于机器人智能控制领域,具体涉及一种超越专家演示的阻抗控制模仿学习训练方法。
背景技术
机器人技术越来越多地部署到了各种各样的非结构化场景中,在这些环境中机器人需要以安全稳定的方式与未知环境进行交互,进而完成复杂的任务。为使机器人与 环境的相互作用力保持在合理的范围内,阻抗控制被广泛应用。特别地,在复杂任务 中,根据不同的任务阶段和环境约束调整阻抗的能力对于安全性和性能至关重要,因 此通常需要进行变阻抗控制。
通过模仿学习得到阻抗参数的变化策略或许是一种好的方法,但大量高质量的演示并不容易获得,并且学习到的策略的成功率往往受限于用来进行训练的演示的成功 率。
发明内容
要解决的技术问题
为了弥补现有变阻抗控制方法的不足,本发明采用鲁棒对抗性模仿学习方法,提出一种超越专家演示的阻抗控制模仿学习训练方法,可以获得比专家演示成功率更高 的变阻抗控制策略。
技术方案
一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于步骤如下:
步骤1:收集专家演示轨迹
阻抗控制模型表达式为
其中,e=x-x0,x为实际位置,x0为初始位置,e、和分别为末端执行器的 位移、速度和加速度,M、B和K分别为惯性矩阵、阻尼矩阵和刚度矩阵,F为实际接 触力;
定义st为当前状态,即当前跟踪位置误差et,速度跟踪误差和接触力Ft,at为当前动作,即阻抗参数M,B,K的值;奖励函数rt可根据任务进行设置;
将(st,at,rt,st+1)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一 串连续轨迹;进行训练之前需要收集尽量多的专家演示轨迹;
步骤2:建立重放缓冲区
将步骤1所获得的所有专家演示轨迹归入专家演示区E;建立重放缓冲区R,同样将专家演示轨迹归入,即此时专家演示区与重放缓冲区相同;
对于多目标设置,期望状态由目标g∈G描述,不同的轨迹可以有不同的目标,并且每个目标对应一个声明fg,用来代表目标是否已经实现;所训练智能体的真正目标 即达到状态st+1,使得fg(st+1)=1;
从目标集合G中采样目标g,并在目标为g的情况下应用当前策略π,获得若干采样轨迹,加入重放缓冲区中;
步骤3:基于生成性对抗模仿学习通过占用度量匹配更新鉴别器
利用下式在专家演示区和重放缓冲区采样,得到在专家演示区采样,得到(st,at)E;在重放缓冲区采样,得到(st,at)R;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110787181.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车身接附点的动刚度评估及测试方法
- 下一篇:一种新能源汽车充电接口





