首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种超越专家演示的阻抗控制模仿学习训练方法有效

申请号：	202110787181.7	申请日：	2021-07-13
公开（公告）号：	CN113641099B	公开（公告）日：	2023-02-10
发明（设计）人：	黄攀峰;武曦;刘正雄;马志强	申请（专利权）人：	西北工业大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	西安凯多思知识产权代理事务所(普通合伙) 61290	代理人：	刘新琼
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种超越专家演示阻抗控制模仿学习训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种超越专家演示的阻抗控制模仿学习训练方法，其特征在于步骤如下：

步骤1：收集专家演示轨迹

阻抗控制模型表达式为

其中，e＝x-x₀，x为实际位置，x₀为初始位置，e、和分别为末端执行器的位移、速度和加速度，M、B和K分别为惯性矩阵、阻尼矩阵和刚度矩阵，F为实际接触力；

定义s_t为当前状态，即当前跟踪位置误差e_t，速度跟踪误差和接触力F_t，a_t为当前动作，即阻抗参数M，B，K的值；奖励函数r_t可根据任务进行设置；

将(s_t，a_t，r_t，s_t+1)定义为演示轨迹的一个点，专家演示轨迹即为若干个点组成的一串连续轨迹；进行训练之前需要收集尽量多的专家演示轨迹；

步骤2：建立重放缓冲区

将步骤1所获得的所有专家演示轨迹归入专家演示区E；建立重放缓冲区R，同样将专家演示轨迹归入，即此时专家演示区与重放缓冲区相同；

对于多目标设置，期望状态由目标g∈G描述，不同的轨迹可以有不同的目标，并且每个目标对应一个声明f_g，用来代表目标是否已经实现；所训练智能体的真正目标即达到状态s_t+1，使得f_g(s_t+1)＝1；

从目标集合G中采样目标g，并在目标为g的情况下应用当前策略π，获得若干采样轨迹，加入重放缓冲区中；

步骤3：基于生成性对抗模仿学习通过占用度量匹配更新鉴别器

利用下式在专家演示区和重放缓冲区采样，得到在专家演示区采样，得到(s_t，a_t)_E；在重放缓冲区采样，得到(s_t，a_t)_R；

生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法，生成性对抗模仿学习包括鉴别器和生成器，生成器产生一系列状态-动作对，在步骤4中产生，鉴别器D(s_t，a_t)是一个二进制分类器，试图区分状态-动作对是来自专家还是来自经过训练的策略；鉴别器参数可以通过下式更新：

其中H(π_β)是熵正则项；

步骤4：通过深度确定性策略梯度获得目标策略

演员网络π_β(s_t)的目的是学习使动作价值函数最大的策略，用参数β控制；批评家网络Q_α(s_t，a_t)的目的是评估当前状态下动作的价值，从而指导演员采取最佳行动，由参数α控制；二者相互促进，最终获得目标策略；为了使学习过程稳定，采用参数分别为α′和β′的批评家网络和演员网络作为目标网络；

1)批评家网络参数更新

通过最小化损失函数来更新批评家网络Q_α(s_t，a_t)；批评家网络的损失函数为

其中，Q_α(s_t，a_t)为预测的动作价值函数，y为时间差分目标；y可由目标网络计算；

y＝r_t+γQ_α′(s_t+1，π_β′(s_t+1))

γ是一个预定义的折扣因子，奖励r_t由鉴别器奖励和额外的后见之明奖励构成，k₁和k₂为其对应系数；

因此可用下式更新批评家网络和目标网络：

α′＝τα+(1-τ)α′

2)演员网络参数更新

类似于批评家网络，演员网络π_β(s_t)也通过最小化损失函数来更新；演员网络的损失函数为

其中，是用于加速学习的退火奖励；

因此可用下式更新演员网络和目标网络：

β′＝τβ+(1-τ)β′

获得期望结果通常需重复执行一定次数，需要重新采样并扩充重放缓冲区进行进一步循环；循环若干次之后演员网络π_β(s_t)所代表的策略即为最终所得目标策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110787181.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种车身接附点的动刚度评估及测试方法
下一篇：一种新能源汽车充电接口

同类专利

专利分类

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top