[发明专利]一种基于多智能体强化学习的自动驾驶车辆控制方法在审

专利信息
申请号: 202211546947.3 申请日: 2022-12-05
公开(公告)号: CN116394968A 公开(公告)日: 2023-07-07
发明(设计)人: 马宏宾;刘萍;金英;麻景翔;张华卿 申请(专利权)人: 北京理工大学
主分类号: B60W60/00 分类号: B60W60/00;G06N3/0442;G06N3/045;G06N3/0464;G06N3/047;G06N3/048;G06N3/092;B60W50/00;B60W40/08
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 王松
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 智能 强化 学习 自动 驾驶 车辆 控制 方法
【权利要求书】:

1.一种基于多智能体强化学习的自动驾驶车辆控制方法,其特征在于,包括以下步骤:

步骤1:设定CAVs的合作与联盟方式,其中CAVs指进行网联的自动驾驶车辆;车辆位于不同道路的不同位置行驶,将观察区域在设定区域内,令设定区域大小为l*n,l表示区域的长度,n表示区域的宽度,且设定该区域大于人类驾驶员的视野大小;设两辆车的距离小于阈值Δr0,Vi、Vi分别表示第i和第j辆车,这时将二者联盟,二者拥有相同的控制策略;

设联盟集合为并设定一个阈值Δr0,在多智能体子系统中,判断是否小于Δr0,如果是,则否则Vj不加入联盟集合最终得到联盟集合为

步骤2:构造CAVs多智能体子系统;

基于V2V通信和视野阈值,划分多智能体子系统区域;

步骤3:设计CAVs多智能体深度强化学习决策算法;

多智能体深度强化学习的CAV决策算法为一种端到端决策架构,包括输入层、神经网络层、输出层和环境交互层;

其中,输入层由CAVs当前时刻的感知信息以及上一时刻采取的策略和回报组成,神经网络结构包括卷积神经网络CNN、长短期记忆人工神经网络LSTM以及全连接网络FCN;

神经网络架构的输出层为t时刻车辆Vi最终采取的动作

环境交互层的作用是:t时刻智能体采取动作后,通过与环境交互进入下一时刻的状态,智能体接收新的状态后,进入下一个决策循环;

步骤4:构造CAVs的状态空间、动作空间、奖励函数;

设经步骤2中得到的一个多智能体子系统的研究对象为智能体n,该智能体的状态空间表达式为则系统的观测空间表示为:o=on,...ok,rn,其中,ok表示多智能体子系统中的其他智能体,但不包括智能体n,rn表示智能体n的回报奖励,对于智能体n的观测状态中包含该多智能体子系统中其他所有智能体的状态信息,同时为步骤3中神经网络的输入提供了丰富的特征信息;

动作空间包括:x方向的加速度变化,其值为正表示加速,反之减速;航向角的变化,其值为正表示航向角增加,反之减小;是否转向,如左转、右转或直行;智能体n最终执行的策略,即最优策略为:

奖励函数以安全性、舒适性和高效性这三个指标构造而成,表示为:其中,代表智能体Vi的安全激励,代表智能体Vi的舒适度激励,代表智能体Vi的效率激励,且和为各自的权重因子;

步骤5:将多智能体深度强化学习决策算法得到的最优策略,作为自动驾驶车辆的控制输入。

2.如权利要求1所述的一种基于多智能体强化学习的自动驾驶车辆控制方法,其特征在于,步骤2中,设子系统集合为:设定一个集合设定一个阈值Δd,在多智能体子系统中,判断是否小于Δd,如果是,则有和Vη+1,否则将Vη和Vη+1从中剔除,然后将添加到中,最终得到子系统

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211546947.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top