[发明专利]基于一致性约束建模的强化学习机器人控制方法及系统有效
| 申请号: | 202110768179.5 | 申请日: | 2021-07-05 |
| 公开(公告)号: | CN113485107B | 公开(公告)日: | 2023-08-22 |
| 发明(设计)人: | 李秀;贾若楠 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 孙楠 |
| 地址: | 518071 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 一致性 约束 建模 强化 学习 机器人 控制 方法 系统 | ||
1.一种基于一致性约束建模的强化学习机器人控制方法,其特征在于,包括:
步骤1、初始化环境和各网络参数;
步骤2、利用与真实环境的交互数据训练环境模型;
步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
步骤4、根据环境模型,采用Soft Actor-Critic方法进行策略训练;
步骤5、重复执行步骤2至步骤4,直至收敛;
所述步骤4中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分为选择动作的策略;
Critic的损失函数JQ(ψ)为:
其中,α表示调节因子,r表示奖励值,s表示状态信息,a表示动作信息,γ表示折扣因子,H表示策略的熵函数;
Actor部分的损失函数Jπ(φ)为:
Jπ(φ)=E[(DKL(πφ(·|st)||exp(Qψ(st,·)-log Z(st)))]
其中,Z函数为配分函数,对Q值进行归一化分布;DKL表示计算和两个分布之间的KL距离;
步骤42、更新Q函数网络Qψ和策略网络πφ的参数,并每隔预先设定时间更新Q-target函数网络参数;
更新方法为:
其中,表示Q-target函数网络参数,φ表示策略网络参数,ψ表示Q网络参数,表示对JQ的参数ψ求梯度,表示对Jπ的参数φ求梯度,ω,ωπ和ωQ分别相应的更新步长,Dmodel为预测环境模型的数据存放器。
2.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤1中,初始化构建策略网络πφ,Q函数网络Qψ,Q-target函数网络及环境模型以及构建真实环境的数据存放器Denv←φ和预测环境模型的数据存放器Dmodel←φ。
3.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤2中,环境模型的训练方法包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv;
步骤22、从真实环境的数据存放器Denv中自助采样N批数据{D1,D2,…,DN},并在N批数据中随机采样一批数据{Ds};
步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型。
4.如权利要求3所述强化学习机器人控制方法,其特征在于,所述步骤23中,在N批数据{D1,D2,…,DN}上通过极大似然方法分布训练N个环境模型同时,将随机采样数据{Ds}复制N份,通过一致性约束训练N个环境模型。
5.如权利要求4所述强化学习机器人控制方法,其特征在于,所述N个环境模型的更新方式为:
式中,ωL表示更新步长的调节因子,表示对Ltotal的θ求梯度,Ltotal为整体的环境模型训练损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110768179.5/1.html,转载请声明来源钻瓜专利网。





