[发明专利]一种逆强化学习处理方法、装置、存储介质及电子装置在审
| 申请号: | 202110688565.3 | 申请日: | 2021-06-21 |
| 公开(公告)号: | CN113919505A | 公开(公告)日: | 2022-01-11 |
| 发明(设计)人: | 屠要峰;黄文宇;黄圣君;周祥生;孙康康 | 申请(专利权)人: | 中兴通讯股份有限公司;南京航空航天大学 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 张秀英 |
| 地址: | 518057 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 强化 学习 处理 方法 装置 存储 介质 电子 | ||
1.一种逆强化学习处理方法,其特征在于,包括:
获取以预先设置的状态候选集中的目标状态为起始状态,提供的目标示范轨迹;
将所述目标示范轨迹添加到初始化后的示范集合中,得到更新后的示范集合;
根据所述更新后的示范集合进行逆强化学习训练,得到满足预设条件的目标策略。
2.根据权利要求1所述的方法,其特征在于,根据所述更新后的示范集合进行逆强化学习训练,得到满足预设条件的目标策略包括:
重复执行以下步骤,直到训练得到的策略满足所述预设条件:
根据所述状态候选集中状态的贡献值更新所述示范集合,得到更新后的示范集合;
根据所述更新后的示范集合进行逆强化学习训练,得到所述策略;
确定所述策略为所述目标策略。
3.根据权利要求1所述的方法,其特征在于,获取所述状态候选集中的目标状态为起始状态,提供的目标示范轨迹包括:
确定所述状态候选集中每个状态的贡献值;
从所述每个状态的贡献值中确定所述贡献值最大的目标状态;
确定所述目标示范轨迹的长度n,n为大于0的整数;
获取以所述目标状态为起始状态,提供的所述长度n的示范轨迹,其中,所述目标示范轨迹包括n个的状态动作对。
4.根据权利要求3所述的方法,其特征在于,确定所述目标示范轨迹的长度n包括:
初始化n=0,初始化当前状态s;
重复执行以下步骤,直到下一状态s′的贡献值小于所述目标状态的贡献值,得到所述长度n:
基于所述当前状态执行训练得到的策略π;
如果下一状态s′的贡献值大于所述目标状态的贡献值,则将当前状态s更改为s′;
n=n+1。
5.根据权利要求3所述的方法,其特征在于,确定所述状态候选集中每个状态的贡献值包括:
通过以下方式对于所述每个状态,确定最后k轮迭代中策略对于所述每个状态的决策:
其中,Q(s,ai)为基于策略πt得到的状态-动作值;
将所述最后k轮迭代中策略对于所述每个状态的决策的方差确定为所述每个状态的贡献值,k为常数。
6.根据权利要求5所述的方法,其特征在于,k为迭代次数的二分之一。
7.根据权利要求1所述的方法,其特征在于,根据所述示范集合进行逆强化学习训练,得到满足预设条件的目标策略包括:
确定所述示范集合的后验概率;
根据贝叶斯理论确定奖赏函数的后验概率分布;
将所述后验概率分布的均值确定为目标奖赏函数;
基于所述目标奖赏函数,利用策略迭代算法训练得到所述目标策略。
8.根据权利要求7所述的方法,其特征在于,将所述后验概率分布的均值确定为目标奖赏函数包括:
从所述后验概率分布中采样预定数量的奖赏函数;
确定所述预定数量的奖赏函数的均值为所述目标奖赏函数。
9.根据权利要求7所述的方法,其特征在于,确定所述示范集合的后验概率包括:
通过以下方式确定所述示范集合中每个状态动作对的后验概率:
其中,R为奖赏函数,Q(si,ai,R)表示状态动作值,α表示对于某一状态下以更高的概率去做Q值更高的动作的置信度,Zi表示状态si对应的所有动作的值的和;
通过以下方式根据所述示范集合中每个状态动作对的后验概率确定所述示范集合的后验概率:
其中,Z是所有Zi的乘积,E(D,R)=∑iQ(si,ai,R)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司;南京航空航天大学,未经中兴通讯股份有限公司;南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110688565.3/1.html,转载请声明来源钻瓜专利网。





