[发明专利]使用优先化经验存储器训练神经网络在审

申请号：	201680066410.3	申请日：	2016-11-11
公开（公告）号：	CN108701252A	公开（公告）日：	2018-10-23
发明（设计）人：	汤姆·绍尔;关小龙;大卫·西尔韦	申请（专利权）人：	渊慧科技有限公司
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李宝泉;周亚荣
地址：	英国***	国省代码：	英国;GB
权利要求书：	查看更多	说明书：	查看更多
摘要：	用于对用于选择由与环境交互的强化学习代理执行的动作的神经网络进行训练的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一个方面中，一种方法包括维持重放存储器，其中所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块。每个经验数据块与相应的预期学习进展量度相关联，所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度。所述方法还包括通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块，并且在所选择的经验数据块上对所述神经网络进行训练。
搜索关键词：	经验数据量度神经网络存储器学习进展环境交互强化学习计算机存储介质训练神经网络存储器存储计算机程序优先级排序代理进展量优先化关联
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于对神经网络进行训练的方法，所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作来执行的动作，所述方法包括：维持重放存储器，所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块，多个所述经验数据块各自具有相应的预期学习进展量度，所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度；通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块；以及在所选择的经验数据块上对所述神经网络进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司，未经渊慧科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201680066410.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]使用优先化经验存储器训练神经网络在审

专利文献下载