[发明专利]用于目标控制的离线强化学习方法、装置和设备在审

申请号：	202111256006.1	申请日：	2021-10-27
公开（公告）号：	CN114186474A	公开（公告）日：	2022-03-15
发明（设计）人：	詹仙园;徐浩然;李健雄	申请（专利权）人：	清华大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06N20/00;G06Q10/04;G06Q10/06;G06Q50/30;G06F111/04
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	耿向宇
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及深度学习技术领域，具体提供一种用于目标控制的离线强化学习方法、装置和设备。其中，用于目标控制的离线强化学习方法，包括：获取历史数据；基于历史数据，更新预设的行为策略模拟器，确定行为策略、和行为策略的奖励期望；基于历史数据、行为策略和策略优化目标函数，通过预设的智能体进行行为优化，得到优化策略；其中，策略优化目标函数为基于约束项和策略性能提升项构造的；约束项为基于最大似然估计的方法构造的；策略性能提升项为基于行为策略的奖励期望构造的。如此，基于最大似然估计法构造的约束项，约束了优化策略的最大化概率分布为行为策略，允许优化策略在高置信的状态下产生较大偏移，提高了优化策略的表现力。
搜索关键词：	用于目标控制离线强化学习方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202111256006.1/，转载请声明来源钻瓜专利网。

上一篇：一种基于非线性介质中的涡旋光拓扑荷数检测装置
下一篇：一种改进的冰箱发泡设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于目标控制的离线强化学习方法、装置和设备在审

专利文献下载