[发明专利]一种超越专家演示的阻抗控制模仿学习训练方法有效
| 申请号: | 202110787181.7 | 申请日: | 2021-07-13 |
| 公开(公告)号: | CN113641099B | 公开(公告)日: | 2023-02-10 |
| 发明(设计)人: | 黄攀峰;武曦;刘正雄;马志强 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘新琼 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 超越 专家 演示 阻抗 控制 模仿 学习 训练 方法 | ||
1.一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于步骤如下:
步骤1:收集专家演示轨迹
阻抗控制模型表达式为
其中,e=x-x0,x为实际位置,x0为初始位置,e、和分别为末端执行器的位移、速度和加速度,M、B和K分别为惯性矩阵、阻尼矩阵和刚度矩阵,F为实际接触力;
定义st为当前状态,即当前跟踪位置误差et,速度跟踪误差和接触力Ft,at为当前动作,即阻抗参数M,B,K的值;奖励函数rt可根据任务进行设置;
将(st,at,rt,st+1)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一串连续轨迹;进行训练之前需要收集尽量多的专家演示轨迹;
步骤2:建立重放缓冲区
将步骤1所获得的所有专家演示轨迹归入专家演示区E;建立重放缓冲区R,同样将专家演示轨迹归入,即此时专家演示区与重放缓冲区相同;
对于多目标设置,期望状态由目标g∈G描述,不同的轨迹可以有不同的目标,并且每个目标对应一个声明fg,用来代表目标是否已经实现;所训练智能体的真正目标即达到状态st+1,使得fg(st+1)=1;
从目标集合G中采样目标g,并在目标为g的情况下应用当前策略π,获得若干采样轨迹,加入重放缓冲区中;
步骤3:基于生成性对抗模仿学习通过占用度量匹配更新鉴别器
利用下式在专家演示区和重放缓冲区采样,得到在专家演示区采样,得到(st,at)E;在重放缓冲区采样,得到(st,at)R;
生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法,生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态-动作对,在步骤4中产生,鉴别器D(st,at)是一个二进制分类器,试图区分状态-动作对是来自专家还是来自经过训练的策略;鉴别器参数可以通过下式更新:
其中H(πβ)是熵正则项;
步骤4:通过深度确定性策略梯度获得目标策略
演员网络πβ(st)的目的是学习使动作价值函数最大的策略,用参数β控制;批评家网络Qα(st,at)的目的是评估当前状态下动作的价值,从而指导演员采取最佳行动,由参数α控制;二者相互促进,最终获得目标策略;为了使学习过程稳定,采用参数分别为α′和β′的批评家网络和演员网络作为目标网络;
1)批评家网络参数更新
通过最小化损失函数来更新批评家网络Qα(st,at);批评家网络的损失函数为
其中,Qα(st,at)为预测的动作价值函数,y为时间差分目标;y可由目标网络计算;
y=rt+γQα′(st+1,πβ′(st+1))
γ是一个预定义的折扣因子,奖励rt由鉴别器奖励和额外的后见之明奖励构成,k1和k2为其对应系数;
因此可用下式更新批评家网络和目标网络:
α′=τα+(1-τ)α′
2)演员网络参数更新
类似于批评家网络,演员网络πβ(st)也通过最小化损失函数来更新;演员网络的损失函数为
其中,是用于加速学习的退火奖励;
因此可用下式更新演员网络和目标网络:
β′=τβ+(1-τ)β′
获得期望结果通常需重复执行一定次数,需要重新采样并扩充重放缓冲区进行进一步循环;循环若干次之后演员网络πβ(st)所代表的策略即为最终所得目标策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110787181.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车身接附点的动刚度评估及测试方法
- 下一篇:一种新能源汽车充电接口





