[发明专利]一种基于强化学习的智能体自动决策方法有效

申请号：	202010026000.4	申请日：	2020-01-10
公开（公告）号：	CN111260027B	公开（公告）日：	2022-07-26
发明（设计）人：	杨成林;王寻	申请（专利权）人：	电子科技大学
主分类号：	G06V10/82	分类号：	G06V10/82;G06V20/56;G06N3/04;G06N3/08;G06K9/00
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平;陈靓靓
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习智能自动决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于强化学习的智能体自动决策方法，确定智能体的环境状态以及动作空间，构建用于确定可选动作第一选择概率的目标网络以及用于确定实施第一选择概率动作的后效奖励值的评价网络，确定智能体的当前环境状态和目标环境状态，通过目标网络和评价网络得到智能体各步的动作，构成轨迹策略存入经验样本池，根据经验样本池中现有的轨迹策略生成新的轨迹策略对经验样本池进行扩充，根据预先设置好的更新周期采用经验样本池中的样本对评价网络和目标网络进行参数更新。采用本发明可以提高神经网络训练性能，从而提升智能体自动决策的准确度。

技术领域

本发明属于机器学习技术领域，更为具体地讲，涉及一种基于强化学习的智能体自动决策方法。

背景技术

强化学习(Reinforcement Learning，RL)最初源于心理学，用于模仿智能生物的学习模式，是一类以环境状态(State)作为输入，以适应环境(Environment)为目标的特殊的无模型机器学习方法。图1是强化学习的过程示意图。如图1所示，强化学习的核心思想是通过与环境的不断交互和不断试错(Explorer)，利用从环境中得到的反馈信号(Reward)实现对一系列策略(Policy)的优化。

强化学习已经涉及与应用到了很多领域，例如自动驾驶、推荐系统、机器人、直升机飞行、游戏等等领域。例如，目前强化学习在游戏领域得到了快速的发展，主要以谷歌公司的DeepMind团队为代表，从状态有限游戏围棋的AlphaGo到如今状态无限的大型经典即时战略游戏星际争霸2(StarCraft 2)的AlphaStar，都是使用了精心设计的强化学习训练后得到较优模型，自动生成最优目标策略来实现。在自动驾驶领域，强化学习可以使得汽车在无人无地图无规则的条件下，从零开始自主学习驾驶，通过摄像头和其他传感器将周围环境的信息作为输入并解析，例如区分障碍物类别、障碍物的相对速度和相对距离、道路的宽度和曲率等等。

在当前强化学习领域，DQN(Deep Q-Learning)算法是一种较为常用的方法，该方法将Q-learning和深度学习(Deep Learning)结合，其中Q-learning是通过不停地探索和更新Q表中的Q(质量)值从而计算出智能体行动的最佳路径，深度学习就是用神经网络来学习数据。在DQN算法中，其Q值不用Q表记录，而是用神经网络来预测Q值，并通过不断更新神经网络从而学习到最优的行动路径。DQN包含两个神经网络，一个为目标网络，用于预测Q值，另一个为评价网络，用于获取Q评估值。目标网络的参数相对固定，是评价网络的一个历史版本。在智能体运行过程中会维护一个经验样本池，用于记录每一个状态下的行动、奖励、和下一个状态的结果，评价网络从记忆库中随机提取样本进行训练，实现参数更新，目标网络定期将评价网络的参数复制过来完成参数更新。

在现有方法中，由于经验样本池中只存储相关达成规定目标状态的轨迹策略，对于规定探索次数和规定时间步中未达到欲达目标的相关轨迹策略执意丢弃，可能会造成所构造的经验样本池内可用数据较少，也即是说有效样本数少，轨迹中策略所达奖励稀疏，大量浪费资源，包括人工设计奖励函数成本、编写代码成本、硬件设施成本等。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于强化学习的智能体自动决策方法，对经验样本池进行扩充，提高神经网络训练性能，从而提升智能体自动决策的准确度。

为了实现以上发明目的，本发明基于强化学习的智能体自动决策方法包括以下步骤：

S1：确定智能体的环境状态S以及动作空间A，其中动作空间A包含至少一个可选动作；

S2：构建目标网络和评价网络，其中目标网络的输入为环境状态，其输出为智能体各个可选动作的第一选择概率；评价网络的输入各个可选动作的第一选择概率，其输出为实施第一选择概率动作的后效奖励值；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010026000.4/2.html，转载请声明来源钻瓜专利网。