[发明专利]用于训练强化学习系统的系统、方法和存储介质有效
申请号: | 201680009087.6 | 申请日: | 2016-02-05 |
公开(公告)号: | CN107209872B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 普拉温·迪帕克·斯里尼瓦桑;罗里·费伦;恰达什·阿尔奇切克;阿伦·萨拉·奈尔;塞缪尔·布莱克威尔;维达维亚斯·潘尼尔谢尔万;亚历山德罗·德玛丽亚;沃洛季米尔·姆尼赫;科拉伊·卡武克曲奥卢;大卫·西尔韦;穆斯塔法·苏莱曼 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;穆德骏 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于分布式训练强化学习系统。一种方法包括由学习器从参数服务器接收Q网络的参数的当前值,其中,每个学习器保持相应的学习器Q网络副本和相应的目标Q网络副本;通过学习器,使用当前值,更新由学习器保持的学习器Q网络副本的参数;由学习器从相应的回放存储器选择经验元组;由学习器,使用由学习器保持的学习器Q网络副本和由学习器保持的目标Q网络副本,通过经验元组计算梯度,并且通过学习器,将计算的梯度提供给参数服务器。 | ||
搜索关键词: | 用于 训练 强化 学习 系统 方法 存储 介质 | ||
【主权项】:
一种用于训练强化学习系统的系统,所述强化学习系统包括代理,所述代理通过接收对环境的当前状态进行特征化的观察以及从预定动作集选择待执行的动作,来与所述环境交互,其中,所述代理使用Q网络选择待执行的动作,其中,所述Q网络是深度神经网络,所述深度神经网络被配置成将观察和动作接收为输入并且根据参数集,从所述输入生成神经网络输出,其中,训练所述强化学习系统包括调整所述Q网络的所述参数集的值,以及其中,所述系统包括:多个学习器,其中,每个学习器在相应的计算单元上执行,其中,每个学习器被配置成独立于每个其他学习器操作,其中,所述每个学习器保持相应的学习器Q网络副本和相应的目标Q网络副本,以及其中,每个学习器被进一步配置成重复地执行包括下述的操作:从参数服务器接收所述Q网络的所述参数的当前值;使用所述当前值,更新由所述学习器保持的所述学习器Q网络副本的所述参数;从相应的回放存储器选择经验元组;使用由所述学习器保持的所述学习器Q网络副本和由所述学习器保持的所述目标Q网络副本,根据所述经验元组计算梯度;以及将计算的梯度提供给所述参数服务器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201680009087.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种平移式光学防抖透镜驱动装置
- 下一篇:一种晶圆搬送机械手臂模组