[发明专利]一种基于强化学习的智能体自动决策方法有效
申请号: | 202010026000.4 | 申请日: | 2020-01-10 |
公开(公告)号: | CN111260027B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 杨成林;王寻 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V20/56;G06N3/04;G06N3/08;G06K9/00 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平;陈靓靓 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 智能 自动 决策 方法 | ||
1.一种基于强化学习的智能体自动决策方法,其特征在于,包括以下步骤:
S1:确定智能汽车的环境状态S以及动作空间A,其中环境状态为智能汽车所处的道路环境,包括智能汽车所拍摄的前方道路图像和传感器所采集到的风速、湿度,动作空间A包含智能汽车的多个驾驶动作:汽车行进速度、转速、角度偏移量;
S2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能汽车各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;
S3:确定智能汽车的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能汽车各步的动作,记智能汽车从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动作执行后所达到的环境状态,rk表示第k步动作得到的即时奖励值;将K步策略构成轨迹策略并存入经验样本池中;
S4:根据经验池现有的轨迹策略生成新的轨迹策略,其具体方法如下:记现有的某个轨迹策略中包含K步策略,每步策略为πk=(Sk-1,ak-1,Sk,rk,G),将第k*步动作执行后所达到的环境状态作为目标状态,将根据现有轨迹策略重新从初始环境状态S0开始执行策略到达环境状态将所得到的轨迹策略存入经验样本池中;
S5:根据预先设置好的更新周期对评价网络进行参数更新,在参数更新时从经验样本池中选择若干轨迹策略对评价网络进行训练,目标网络根据预先设置好的更新周期将评价网络的参数复制至目标网络,完成目标网络的更新;目标网络的更新周期大于评价网络的更新周期。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010026000.4/1.html,转载请声明来源钻瓜专利网。