[发明专利]使用强化学习选择动作名单有效
申请号: | 201680070828.1 | 申请日: | 2016-12-01 |
公开(公告)号: | CN108604314B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 彼得·戈兰·苏内哈格 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06N3/08;G06Q30/06 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;安翔 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 强化 学习 选择 动作 名单 | ||
1.一种向动作选择器提供动作名单的方法,所述动作选择器通过选择并执行动作与环境交互,其中所述动作名单包括从预定的动作集合中选择的多个动作以填充动作名单中的预定数量的槽位,并且其中所述环境响应于由所述动作选择器执行的动作而转换状态,其中:
所述环境是由内容项目推荐系统提供的内容项目呈现设置,所述动作选择器是内容项目推荐系统的用户,并且所述动作名单中的每个动作是对内容项目推荐系统的用户的不同内容项目的推荐,或
所述环境是用于软件产品或内容项目的呈现设置,所述动作选择器是测量所述动作名单中的每个动作的有效性并且然后选择并执行最有效的动作的软件程序模块,并且所述动作名单中的每个动作是用于软件产品或内容项目的可能配置,或
所述环境是车辆导航的真实世界环境,所述动作选择器是所述车辆的操作器或控制系统,并且所述动作名单中的每个动作是针对所述车辆的可能的控制输入,或
所述环境是网络化的真实世界系统,所述动作选择器是根据不同的标准选择动作的控制系统或管理所述网络化的真实世界系统的设置的用户,并且所述动作名单中的每个动作是影响所述网络化的真实世界系统的能量效率或性能的用于所述网络化的真实世界系统的可能设置;
所述方法包括:
接收表征所述环境的当前状态的观测;
将所述预定数量的槽位划分为多个子集,其中每个子集是所述预定数量的槽位中的所述槽位的不相交分区;
对于所述多个子集中的给定子集,根据所述多个子集的子集排序按顺序选择动作以填充在每个子集中包括:
为槽位的所述给定子集生成多个候选动作名单,针对槽位的所述给定子集的每个候选动作名单包括:
在所述子集排序中的所述给定子集之前的任一子集中的任一槽位中,已经为该槽位选择的动作,
在所述给定子集中的每个槽位中的相应候选动作,其中每个候选动作名单在所述给定子集中的槽位中具有与每个其他候选名单不同的候选动作组合,以及
在除了所述给定子集中的槽位和在所述子集排序中的所述给定子集之前的任一子集中的槽位之外的所述动作名单中的任一槽位中的相应占位动作;
为每个候选动作名单,使用深度神经网络处理该候选动作名单,其中所述深度神经网络接收所述观测和该候选动作名单作为输入,并且生成该候选动作名单的名单Q值作为输出,所述名单Q值是响应于所述观测从提供给所述动作选择器的所述候选动作名单产生的长期奖励的估计;
基于所生成的所述候选动作名单的名单Q值,从所述多个候选动作名单中选择候选动作名单;以及
选择所选择的候选动作名单中的槽位中的所述动作,作为所述给定子集中的槽位中的所述动作;
生成最终动作名单,其中所述最终动作名单包括每个子集中的槽位的所选择的动作;以及
响应于所述观测而将所述最终动作名单提供给所述动作选择器。
2.根据权利要求1所述的方法,其中响应于接收所述最终动作名单,所述动作选择器执行(i)从所述最终动作名单选择的动作或者(ii)未包括在所述最终动作名单中的所述动作集合中的空动作。
3.根据权利要求1所述的方法,其中槽位的所述给定子集具有大于一的预定数量的槽位;或
其中槽位的所述给定子集具有一个槽位。
4.根据权利要求1所述的方法,其中当被提供给所述动作选择器时,所述动作名单中的槽位被从所述动作名单中的最高槽位到所述动作名单中的最低槽位排序。
5.根据权利要求1所述的方法,还包括:
生成所述动作名单中的槽位子集的随机排序,其中根据所述多个子集的所述子集排序按顺序选择动作以填充在每个子集中包括根据随机排序,按顺序为所述动作名单中的每个槽位子集选择动作。
6.根据权利要求1所述的方法,其中对于每个候选动作名单,所述占位动作与所述给定子集中的一个候选动作相同;和/或
其中,对于每个候选动作名单,所述占位动作是由另一动作推荐系统建议的动作。
7.根据权利要求1所述的方法,其中每个候选动作名单中的所述动作是从由另一过程生成的所述预定动作集合中的动作的子集中选择的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680070828.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动化的预测性建模与框架
- 下一篇:使用深度学习模型识别实体