[发明专利]用于目标控制的离线强化学习方法、装置和设备在审
申请号: | 202111256006.1 | 申请日: | 2021-10-27 |
公开(公告)号: | CN114186474A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 詹仙园;徐浩然;李健雄 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N20/00;G06Q10/04;G06Q10/06;G06Q50/30;G06F111/04 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 耿向宇 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 目标 控制 离线 强化 学习方法 装置 设备 | ||
1.一种用于目标控制的离线强化学习方法,其特征在于,包括:
获取历史数据;
基于所述历史数据,更新预设的行为策略模拟器,确定行为策略和所述行为策略的奖励期望;
基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
2.根据权利要求1所述的用于目标控制的离线强化学习方法,其特征在于,所述约束项的构造过程包括:
基于最大似然估计的方法,确定用于指示所述行为策略对所述优化策略的支持程度的行列式;
将所述行列式作为所述约束项。
3.根据权利要求1所述的用于目标控制的离线强化学习方法,其特征在于,所述策略性能提升项的构造过程包括:
确定重要性采样系数;
基于所述重要性采样系数和所述行为策略奖励期望,确定策略性能提升项。
4.根据权利要求3所述的用于目标控制的离线强化学习方法,其特征在于,所述确定重要性采样系数,包括:
确定目标平均偏差;所述目标平均偏差为所述重要性采样系数与逆重要性采样系数的最大化平均偏差;
通过最小化目标平均偏差的方式,确定所述重要性采样系数。
5.根据权利要求4所述的用于目标控制的离线强化学习方法,其特征在于,所述确定目标平均偏差包括:
确定核函数;
基于所述核函数构造目标平均偏差。
6.根据权利要求1所述的用于目标控制的离线强化学习方法,其特征在于,所述策略优化目标函数的构造过程包括:
将约束项和策略性能提升项相加,得到多项式;
基于最大化所述多项式对应的值的目标,构造策略优化目标函数。
7.根据权利要求1所述的用于目标控制的离线强化学习方法,其特征在于,所述历史数据包括:车辆驾驶环境信息和车辆操控行为信息。
8.一种用于目标控制的离线强化学习装置,其特征在于,包括:
获取单元,用于获取历史数据;
确定单元,用于基于所述历史数据,更新预设的行为策略模拟器,确定行为策略、和所述行为策略的奖励期望;
优化单元,用于基于所述历史数据、所述行为策略和策略优化目标函数,通过预设的智能体进行行为优化,得到优化策略;其中,所述策略优化目标函数为基于约束项和策略性能提升项构造的;所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的;所述策略性能提升项被构造为与行为策略的奖励期望相关。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的用于目标控制的离线强化学习方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的用于目标控制的离线强化学习方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111256006.1/1.html,转载请声明来源钻瓜专利网。