[发明专利]用于目标控制的离线强化学习方法、装置和设备在审

申请号：	202111256006.1	申请日：	2021-10-27
公开（公告）号：	CN114186474A	公开（公告）日：	2022-03-15
发明（设计）人：	詹仙园;徐浩然;李健雄	申请（专利权）人：	清华大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06N20/00;G06Q10/04;G06Q10/06;G06Q50/30;G06F111/04
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	耿向宇
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于目标控制离线强化学习方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及深度学习技术领域，具体提供一种用于目标控制的离线强化学习方法、装置和设备。其中，用于目标控制的离线强化学习方法，包括：获取历史数据；基于历史数据，更新预设的行为策略模拟器，确定行为策略、和行为策略的奖励期望；基于历史数据、行为策略和策略优化目标函数，通过预设的智能体进行行为优化，得到优化策略；其中，策略优化目标函数为基于约束项和策略性能提升项构造的；约束项为基于最大似然估计的方法构造的；策略性能提升项为基于行为策略的奖励期望构造的。如此，基于最大似然估计法构造的约束项，约束了优化策略的最大化概率分布为行为策略，允许优化策略在高置信的状态下产生较大偏移，提高了优化策略的表现力。

技术领域

本发明涉及深度学习技术领域，尤其涉及一种用于目标控制的离线强化学习方法、装置和设备。

背景技术

随着科技的进步和社会的发展，自动驾驶已经开始走入人们的生活。

为了实现自动驾驶，需要获取车辆的行驶环境信息和对应的司机的操作信息。之后基于这些信息进行强化学习，得到行为策略和优化策略，通过优化策略支持车辆进行自动驾驶。

但是现有的方案中，采用的离线强化学习一般基于采用KL散度对优化策略进行约束，不允许优化策略相较于行为策略出现较大的偏移，限制的十分严格，不利于寻求优化策略以控制车辆自动驾驶。

发明内容

本发明提供一种用于目标控制的离线强化学习方法、装置和设备，用以解决现有技术采用KL散度对优化策略进行约束，不允许优化策略相较于行为策略出现较大的偏移，限制的十分严格，不利于寻求优化策略以控制车辆自动驾驶缺陷。

第一方面，本发明提供一种用于目标控制的离线强化学习方法，包括：

获取历史数据；

基于所述历史数据，更新预设的行为策略模拟器，确定行为策略和所述行为策略的奖励期望；

基于所述历史数据、所述行为策略和策略优化目标函数，通过预设的智能体进行行为优化，得到优化策略；其中，所述策略优化目标函数为基于约束项和策略性能提升项构造的；所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的；所述策略性能提升项被构造为与行为策略的奖励期望相关。