[发明专利]用于训练强化学习系统的系统、方法和存储介质有效

申请号：	201680009087.6	申请日：	2016-02-05
公开（公告）号：	CN107209872B	公开（公告）日：	2021-05-11
发明（设计）人：	普拉温·迪帕克·斯里尼瓦桑;罗里·费伦;恰达什·阿尔奇切克;阿伦·萨拉·奈尔;塞缪尔·布莱克威尔;维达维亚斯·潘尼尔谢尔万;亚历山德罗·德玛丽亚;沃洛季米尔·姆尼赫;科拉伊·卡武克曲奥卢;大卫·西尔韦;穆斯塔法·苏莱曼	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李佳;穆德骏
地址：	英国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：	方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于分布式训练强化学习系统。一种方法包括由学习器从参数服务器接收Q网络的参数的当前值，其中，每个学习器保持相应的学习器Q网络副本和相应的目标Q网络副本；通过学习器，使用当前值，更新由学习器保持的学习器Q网络副本的参数；由学习器从相应的回放存储器选择经验元组；由学习器，使用由学习器保持的学习器Q网络副本和由学习器保持的目标Q网络副本，通过经验元组计算梯度，并且通过学习器，将计算的梯度提供给参数服务器。
搜索关键词：	用于训练强化学习系统方法存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种用于训练强化学习系统的系统，所述强化学习系统包括代理，所述代理通过接收对环境的当前状态进行特征化的观察以及从预定动作集选择待执行的动作，来与所述环境交互，其中，所述代理使用Q网络选择待执行的动作，其中，所述Q网络是深度神经网络，所述深度神经网络被配置成将观察和动作接收为输入并且根据参数集，从所述输入生成神经网络输出，其中，训练所述强化学习系统包括调整所述Q网络的所述参数集的值，以及其中，所述系统包括：多个学习器，其中，每个学习器在相应的计算单元上执行，其中，每个学习器被配置成独立于每个其他学习器操作，其中，所述每个学习器保持相应的学习器Q网络副本和相应的目标Q网络副本，以及其中，每个学习器被进一步配置成重复地执行包括下述的操作：从参数服务器接收所述Q网络的所述参数的当前值；使用所述当前值，更新由所述学习器保持的所述学习器Q网络副本的所述参数；从相应的回放存储器选择经验元组；使用由所述学习器保持的所述学习器Q网络副本和由所述学习器保持的所述目标Q网络副本，根据所述经验元组计算梯度；以及将计算的梯度提供给所述参数服务器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201680009087.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于训练强化学习系统的系统、方法和存储介质有效

专利文献下载