[发明专利]用于目标控制的离线强化学习方法、装置和设备在审
申请号: | 202111256006.1 | 申请日: | 2021-10-27 |
公开(公告)号: | CN114186474A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 詹仙园;徐浩然;李健雄 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N20/00;G06Q10/04;G06Q10/06;G06Q50/30;G06F111/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 耿向宇 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 目标 控制 离线 强化 学习方法 装置 设备 | ||
本发明涉及深度学习技术领域,具体提供一种用于目标控制的离线强化学习方法、装置和设备。其中,用于目标控制的离线强化学习方法,包括:获取历史数据;基于历史数据,更新预设的行为策略模拟器,确定行为策略、和行为策略的奖励期望;基于历史数据、行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,策略优化目标函数为基于约束项和策略性能提升项构造的;约束项为基于最大似然估计的方法构造的;策略性能提升项为基于行为策略的奖励期望构造的。如此,基于最大似然估计法构造的约束项,约束了优化策略的最大化概率分布为行为策略,允许优化策略在高置信的状态下产生较大偏移,提高了优化策略的表现力。
技术领域
本发明涉及深度学习技术领域,尤其涉及一种用于目标控制的离线强化学习方法、装置和设备。
背景技术
随着科技的进步和社会的发展,自动驾驶已经开始走入人们的生活。
为了实现自动驾驶,需要获取车辆的行驶环境信息和对应的司机的操作信息。之后基于这些信息进行强化学习,得到行为策略和优化策略,通过优化策略支持车辆进行自动驾驶。
但是现有的方案中,采用的离线强化学习一般基于采用KL散度对优化策略进行约束,不允许优化策略相较于行为策略出现较大的偏移,限制的十分严格,不利于寻求优化策略以控制车辆自动驾驶。
发明内容
本发明提供一种用于目标控制的离线强化学习方法、装置和设备,用以解决现有技术采用KL散度对优化策略进行约束,不允许优化策略相较于行为策略出现较大的偏移,限制的十分严格,不利于寻求优化策略以控制车辆自动驾驶缺陷。
第一方面,本发明提供一种用于目标控制的离线强化学习方法,包括:
获取历史数据;
基于所述历史数据,更新预设的行为策略模拟器,确定行为策略和所述行为策略的奖励期望;
基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
可选的,还包括:基于所述优化策略对目标进行控制。
可选的,所述约束项的构造过程包括:
基于最大似然估计的方法,确定用于指示所述行为策略对所述优化策略的支持程度的行列式;
将所述行列式作为所述约束项。
可选的,所述策略性能提升项的构造过程包括:
确定重要性采样系数;
基于所述重要性采样系数和所述行为策略奖励期望,确定策略性能提升项。
可选的,所述确定重要性采样系数,包括:
确定目标平均偏差;所述目标平均偏差为所述重要性采样系数与逆重要性采样系数的最大化平均偏差;
通过最小化目标平均偏差的方式,确定所述重要性采样系数。
可选的,所述确定目标平均偏差包括:
确定核函数;
基于所述核函数构造目标平均偏差。
可选的,所述策略优化目标函数的构造过程包括:
将约束项和策略性能提升项相加,得到多项式;
基于最大化所述多项式对应的值的目标,构造策略优化目标函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111256006.1/2.html,转载请声明来源钻瓜专利网。