[发明专利]一种基于强化学习的智能体自动决策方法有效

专利信息
申请号: 202010026000.4 申请日: 2020-01-10
公开(公告)号: CN111260027B 公开(公告)日: 2022-07-26
发明(设计)人: 杨成林;王寻 申请(专利权)人: 电子科技大学
主分类号: G06V10/82 分类号: G06V10/82;G06V20/56;G06N3/04;G06N3/08;G06K9/00
代理公司: 成都行之专利代理事务所(普通合伙) 51220 代理人: 温利平;陈靓靓
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 智能 自动 决策 方法
【权利要求书】:

1.一种基于强化学习的智能体自动决策方法,其特征在于,包括以下步骤:

S1:确定智能汽车的环境状态S以及动作空间A,其中环境状态为智能汽车所处的道路环境,包括智能汽车所拍摄的前方道路图像和传感器所采集到的风速、湿度,动作空间A包含智能汽车的多个驾驶动作:汽车行进速度、转速、角度偏移量;

S2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能汽车各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;

S3:确定智能汽车的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能汽车各步的动作,记智能汽车从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动作执行后所达到的环境状态,rk表示第k步动作得到的即时奖励值;将K步策略构成轨迹策略并存入经验样本池中;

S4:根据经验池现有的轨迹策略生成新的轨迹策略,其具体方法如下:记现有的某个轨迹策略中包含K步策略,每步策略为πk=(Sk-1,ak-1,Sk,rk,G),将第k*步动作执行后所达到的环境状态作为目标状态,将根据现有轨迹策略重新从初始环境状态S0开始执行策略到达环境状态将所得到的轨迹策略存入经验样本池中;

S5:根据预先设置好的更新周期对评价网络进行参数更新,在参数更新时从经验样本池中选择若干轨迹策略对评价网络进行训练,目标网络根据预先设置好的更新周期将评价网络的参数复制至目标网络,完成目标网络的更新;目标网络的更新周期大于评价网络的更新周期。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010026000.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top