[发明专利]一种基于强化学习算法的自动驾驶行为决策方法有效
| 申请号: | 202110928217.9 | 申请日: | 2021-08-12 |
| 公开(公告)号: | CN113501008B | 公开(公告)日: | 2023-05-19 |
| 发明(设计)人: | 田小青;骆嫚;万骞 | 申请(专利权)人: | 东风悦享科技有限公司 |
| 主分类号: | B60W60/00 | 分类号: | B60W60/00;G06N20/00 |
| 代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 周伟 |
| 地址: | 430000 湖北省武汉市武汉经济技术开发区全*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 算法 自动 驾驶 行为 决策 方法 | ||
1.一种基于强化学习算法的自动驾驶行为决策方法,基于传感器对围目标信息的感知,自动驾驶车辆完成各种行驶状态间的切换,其特征是包括以下步骤:
步骤 S1:利用有限状态机来建立基于规则的行为决策系统,有限状态机可以表示为一个五元组:F=(S,s0,F,∑,δ),
其中,S为状态集;s0为状态机的默认状态,即初始状态集;F为终止状态,中止状态可能为空集,即无结束状态;∑为事件集合,即状态机的所有可能的输入的集合;δ为转移逻辑,输入事件与当前状态共同作用造成状态转移:∑×S→S,
在有限状态机中,对象由事件触发和状态迁移来表征,当输入目标输入信息到有限状态机当中时,状态会通过转移路径发生转移,最终输出状态对应的动作,基于规则的行为决策系统将自动驾驶车辆的目标进行分类,包括初始化,巡航,跟车,换道,制动状态;
步骤S2:自动驾驶车辆基于自车当前时刻状态,车辆传感器得到行为决策必须的基于周围环境的目标输入信息,目标输入信息包括目标的位置与状态ID信息,基于目标输入信息,基于规则的行为决策系统出下一时刻自动驾驶车辆目标状态;
步骤S3:结合经验池与强化学习模型,建立基于强化学习的行为决策系统,将采集到的人类驾驶员驾驶行为进行抽取得到状态行为集合,并放入经验池进行存储,训练基于强化学习的行为决策系统,基于当前时刻状态与目标输入信息,输出下一时刻车辆目标状态;
步骤S4:建立仲裁系统,仲裁系统对基于规则的行为决策系统与基于强化学习的行为决策系统做出的结论进行评估与仲裁,输出最终确定的下一时刻的自动驾驶车辆目标状态。
2.根据权利要求1所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S3包括以下分步骤:
S301:采集到的人类驾驶员驾驶行为,得到状态行为集合;
S302:将状态行为集合放入经验池进行存储,系统基于经验池对强化学习模型进行训练,基于自车当前时刻状态与目标输入信息,结合经验池与强化学习模型,输出下一时刻车辆目标状态。
3.根据权利要求2所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S301又包括以下分步骤:
S3011:采集人类驾驶员在不同驾驶场景下的动作序列τi:
,
:第i个序列中第n个状态,
:第i个序列中第n个动作;
S3012:对序列中的动作-行为对进行抽取,得到基于抽取的状态-行为对构件状态行为集合:D=(s1,a1),(s2,a2)...,(sn,an),sn为第n个状态,an为第n个动作。
4.根据权利要求2所述的一种基于强化学习算法的自动驾驶行为决策方法,其特征是所述步骤S302又包括以下分步骤:
S3021:基于步骤S3011得到的状态行为集合,构件经验池;
S3022:构建基于TD3算法的深度强化学习结构,并利用经验池训练深度强化学习结构,基于目标输入信息与自车当前时刻状态,基于深度强化学习结构,输出自车对应下一时刻目标动作与目标状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东风悦享科技有限公司,未经东风悦享科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110928217.9/1.html,转载请声明来源钻瓜专利网。





