[发明专利]使用强化学习选择动作名单有效

申请号：	201680070828.1	申请日：	2016-12-01
公开（公告）号：	CN108604314B	公开（公告）日：	2022-08-19
发明（设计）人：	彼得·戈兰·苏内哈格	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06F16/26	分类号：	G06F16/26;G06N3/08;G06Q30/06
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	周亚荣;安翔
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：	包括在计算机存储介质上编码的、用于使用强化学习来选择动作名单的计算机程序的方法、系统和装置。其中一种方法包括接收表征环境当前状态的观测；通过使用深度神经网络处理所述观测和多个候选动作名单来选择动作名单，其中每个候选动作名单包括来自动作集合的相应多个动作，并且其中深度神经网络被配置为对于每个动作名单处理观测和该候选动作名单中的动作以生成该候选动作名单的名单Q值，该值是响应于观测从提供给动作选择器的所述候选动作名单产生的长期奖励的估计；以及响应于观测将选择的动作名单提供给动作选择器。
搜索关键词：	使用强化学习选择动作名单
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种向动作选择器提供动作名单的方法，所述动作选择器通过选择并执行动作与环境交互，其中所述动作名单包括从预定的动作集合中选择的多个动作，并且其中所述环境响应于由所述动作选择器执行的动作而转换状态，所述方法包括：接收表征所述环境的当前状态的观测；通过使用深度神经网络处理所述观测和多个候选动作名单来选择包括多个动作的动作名单，其中每个候选动作名单包括来自所述动作集合的相应多个动作，并且其中所述深度神经网络被配置为针对每个候选动作名单处理所述观测和该候选动作名单中的动作以生成该候选动作名单的名单Q值，所述名单Q值是响应于所述观测从提供给所述动作选择器的所述候选动作名单产生的长期奖励的估计；以及响应于所述观测，将所选择的动作名单提供给所述动作选择器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201680070828.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]使用强化学习选择动作名单有效

专利文献下载