[发明专利]一种基于强化学习的智能体自动决策方法有效

申请号：	202010026000.4	申请日：	2020-01-10
公开（公告）号：	CN111260027B	公开（公告）日：	2022-07-26
发明（设计）人：	杨成林;王寻	申请（专利权）人：	电子科技大学
主分类号：	G06V10/82	分类号：	G06V10/82;G06V20/56;G06N3/04;G06N3/08;G06K9/00
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平;陈靓靓
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习智能自动决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的智能体自动决策方法，其特征在于，包括以下步骤：

S1：确定智能汽车的环境状态S以及动作空间A，其中环境状态为智能汽车所处的道路环境，包括智能汽车所拍摄的前方道路图像和传感器所采集到的风速、湿度，动作空间A包含智能汽车的多个驾驶动作：汽车行进速度、转速、角度偏移量；

S2：构建目标网络和评价网络，其中目标网络的输入为环境状态，其输出为智能汽车各个可选动作的第一选择概率；评价网络的输入各个可选动作的第一选择概率，其输出为实施第一选择概率动作的后效奖励值；

S3：确定智能汽车的初始环境状态S₀和目标环境状态G，通过目标网络和评价网络得到智能汽车各步的动作，记智能汽车从初始环境状态S₀到达目标环境状态G所需的步数为K，每步获取当前策略π_k的元组为(S_k-1,a_k-1,S_k,r_k,G)，其中S_k-1表示第k步动作执行前的环境状态，a_k-1表示第k步执行的动作，S_k表示第k步动作执行后所达到的环境状态，r_k表示第k步动作得到的即时奖励值；将K步策略构成轨迹策略并存入经验样本池中；

S4：根据经验池现有的轨迹策略生成新的轨迹策略，其具体方法如下：记现有的某个轨迹策略中包含K步策略，每步策略为π_k＝(S_k-1,a_k-1,S_k,r_k,G)，将第k^*步动作执行后所达到的环境状态作为目标状态，将根据现有轨迹策略重新从初始环境状态S₀开始执行策略到达环境状态将所得到的轨迹策略存入经验样本池中；

S5：根据预先设置好的更新周期对评价网络进行参数更新，在参数更新时从经验样本池中选择若干轨迹策略对评价网络进行训练，目标网络根据预先设置好的更新周期将评价网络的参数复制至目标网络，完成目标网络的更新；目标网络的更新周期大于评价网络的更新周期。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010026000.4/1.html，转载请声明来源钻瓜专利网。

上一篇：集群回收路径规划方法、装置、设备及可读存储介质
下一篇：一种告警信息的处理方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的智能体自动决策方法有效

专利文献下载