[发明专利]强化学习网络的训练方法、装置、训练设备及存储介质有效

申请号：	201810892642.5	申请日：	2018-08-07
公开（公告）号：	CN109242099B	公开（公告）日：	2020-11-10
发明（设计）人：	王峥;梁明兰	申请（专利权）人：	中国科学院深圳先进技术研究院
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	深圳智趣知识产权代理事务所(普通合伙) 44486	代理人：	邵萌
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习网络训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明适用机器学习领域，提供了一种强化学习网络的训练方法、装置、训练设备及存储介质，该方法包括：当接收到训练强化学习网络的请求时，设置强化学习网络的网络参数，以进行权重配置，获取强化学习网络的当前状态，以及当前状态的奖励值和贡献值，通过遍历动作库的动作组合，获取当前状态下的动作组合的最大Q值，根据当前状态的最大Q值获取当前动作并执行，通过得到下一状态的最大Q值，获取当前状态的目标Q值，生成强化学习网络的损失函数，通过预设调整算法调整网络参数，以继续对强化学习网络进行训练，直到损失函数收敛，从而降低了训练强化学习网络的计算量，进而加快了强化学习网络的训练速度、提高了训练效率。

技术领域

本发明属于机器学习领域，尤其涉及一种强化学习网络的训练方法、装置、训练设备及存储介质。

背景技术

强化学习(reinforcement learning)，又称再励学习、评价学习，是一种重要的机器学习方法，是智能体(Agent)从环境到行为映射的学习，以使奖励信号(强化信号)函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境在智能控制机器人及分析预测等领域有许多应用。

近年来，强化学习广泛应用于机器人控制领域、计算机视觉领域、自然语言处理、博弈论领域、自动驾驶。训练强化学习网络过程通常在CPU与GPU设备上实现，其计算量相当大，在实际应用过程中，存在着占用资源多、运算速度慢、效率低等问题，并且因内存访问带宽的限制导致计算能力无法进一步提升。

发明内容

本发明的目的在于提供一种强化学习网络的训练方法、装置、训练设备以及存储介质，旨在解决由于现有技术无法提供一种有效的强化学习网络的训练方法，导致训练计算量大、效率低的问题。

一方面，本发明提供了一种强化学习网络的训练方法，所述方法包括下述步骤：

当接收到训练强化学习网络的请求时，设置所述强化学习网络的网络参数，以对所述强化学习网络进行权重配置；

获取所述强化学习网络的当前状态，在预先构建的状态奖励库中对所述当前状态进行匹配，获取所述当前状态的奖励值和贡献值；

在预先构建的动作库中遍历所述动作库的动作组合，获取所述动作组合的贡献值，并根据所述当前状态的贡献值和所述动作组合的贡献值，获取所述强化学习网络的当前状态的最大Q值；

根据所述当前状态的最大Q值获取所述强化学习网络的当前动作并执行，以使所述强化学习网络进入下一状态，获取所述下一状态的最大Q值，并通过所述下一状态的最大Q值、所述当前状态的奖励值和预设目标值公式，获取所述当前状态的目标Q值；

根据所述当前状态的目标Q值生成所述强化学习网络的损失函数，通过预设调整算法调整所述强化学习网络的网络参数，以继续对所述强化学习网络进行训练，直到所述损失函数收敛。

另一方面，本发明提供了一种强化学习网络的训练装置，所述装置包括：

参数设置单元，用于当接收到训练强化学习网络的请求时，设置所述强化学习网络的网络参数，以对所述强化学习网络进行权重配置；

匹配获取单元，用于获取所述强化学习网络的当前状态，在预先构建的状态奖励库中对所述当前状态进行匹配，获取所述当前状态的奖励值和贡献值；

遍历获取单元，用于在预先构建的动作库中遍历所述动作库的动作组合，获取所述动作组合的贡献值，并根据所述当前状态的贡献值和所述动作组合的贡献值，获取所述强化学习网络的当前状态的最大Q值；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院，未经中国科学院深圳先进技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810892642.5/2.html，转载请声明来源钻瓜专利网。

上一篇：图像分类显示方法和装置、分析仪器和存储介质
下一篇：一种压敏自生热植物微生物炙疗用热敷贴及其制造方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]强化学习网络的训练方法、装置、训练设备及存储介质有效

专利文献下载