[发明专利]基于一致性约束建模的强化学习机器人控制方法及系统有效

专利信息
申请号: 202110768179.5 申请日: 2021-07-05
公开(公告)号: CN113485107B 公开(公告)日: 2023-08-22
发明(设计)人: 李秀;贾若楠 申请(专利权)人: 清华大学深圳国际研究生院
主分类号: G05B13/04 分类号: G05B13/04
代理公司: 北京纪凯知识产权代理有限公司 11245 代理人: 孙楠
地址: 518071 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 一致性 约束 建模 强化 学习 机器人 控制 方法 系统
【权利要求书】:

1.一种基于一致性约束建模的强化学习机器人控制方法,其特征在于,包括:

步骤1、初始化环境和各网络参数;

步骤2、利用与真实环境的交互数据训练环境模型;

步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;

步骤4、根据环境模型,采用Soft Actor-Critic方法进行策略训练;

步骤5、重复执行步骤2至步骤4,直至收敛;

所述步骤4中,训练方法包括以下步骤:

步骤41、Critic部分对状态动作进行评估,Actor部分为选择动作的策略;

Critic的损失函数JQ(ψ)为:

其中,α表示调节因子,r表示奖励值,s表示状态信息,a表示动作信息,γ表示折扣因子,H表示策略的熵函数;

Actor部分的损失函数Jπ(φ)为:

Jπ(φ)=E[(DKLφ(·|st)||exp(Qψ(st,·)-log Z(st)))]

其中,Z函数为配分函数,对Q值进行归一化分布;DKL表示计算和两个分布之间的KL距离;

步骤42、更新Q函数网络Qψ和策略网络πφ的参数,并每隔预先设定时间更新Q-target函数网络参数;

更新方法为:

其中,表示Q-target函数网络参数,φ表示策略网络参数,ψ表示Q网络参数,表示对JQ的参数ψ求梯度,表示对Jπ的参数φ求梯度,ω,ωπ和ωQ分别相应的更新步长,Dmodel为预测环境模型的数据存放器。

2.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤1中,初始化构建策略网络πφ,Q函数网络Qψ,Q-target函数网络及环境模型以及构建真实环境的数据存放器Denv←φ和预测环境模型的数据存放器Dmodel←φ。

3.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤2中,环境模型的训练方法包括以下步骤:

步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv

步骤22、从真实环境的数据存放器Denv中自助采样N批数据{D1,D2,…,DN},并在N批数据中随机采样一批数据{Ds};

步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型。

4.如权利要求3所述强化学习机器人控制方法,其特征在于,所述步骤23中,在N批数据{D1,D2,…,DN}上通过极大似然方法分布训练N个环境模型同时,将随机采样数据{Ds}复制N份,通过一致性约束训练N个环境模型。

5.如权利要求4所述强化学习机器人控制方法,其特征在于,所述N个环境模型的更新方式为:

式中,ωL表示更新步长的调节因子,表示对Ltotal的θ求梯度,Ltotal为整体的环境模型训练损失函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110768179.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top