[发明专利]一种基于多智能体强化学习的自动驾驶车辆控制方法在审
申请号: | 202211546947.3 | 申请日: | 2022-12-05 |
公开(公告)号: | CN116394968A | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 马宏宾;刘萍;金英;麻景翔;张华卿 | 申请(专利权)人: | 北京理工大学 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;G06N3/0442;G06N3/045;G06N3/0464;G06N3/047;G06N3/048;G06N3/092;B60W50/00;B60W40/08 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 强化 学习 自动 驾驶 车辆 控制 方法 | ||
1.一种基于多智能体强化学习的自动驾驶车辆控制方法,其特征在于,包括以下步骤:
步骤1:设定CAVs的合作与联盟方式,其中CAVs指进行网联的自动驾驶车辆;车辆位于不同道路的不同位置行驶,将观察区域在设定区域内,令设定区域大小为l*n,l表示区域的长度,n表示区域的宽度,且设定该区域大于人类驾驶员的视野大小;设两辆车的距离小于阈值Δr0,Vi、Vi分别表示第i和第j辆车,这时将二者联盟,二者拥有相同的控制策略;
设联盟集合为并设定一个阈值Δr0,在多智能体子系统中,判断是否小于Δr0,如果是,则否则Vj不加入联盟集合最终得到联盟集合为
步骤2:构造CAVs多智能体子系统;
基于V2V通信和视野阈值,划分多智能体子系统区域;
步骤3:设计CAVs多智能体深度强化学习决策算法;
多智能体深度强化学习的CAV决策算法为一种端到端决策架构,包括输入层、神经网络层、输出层和环境交互层;
其中,输入层由CAVs当前时刻的感知信息以及上一时刻采取的策略和回报组成,神经网络结构包括卷积神经网络CNN、长短期记忆人工神经网络LSTM以及全连接网络FCN;
神经网络架构的输出层为t时刻车辆Vi最终采取的动作
环境交互层的作用是:t时刻智能体采取动作后,通过与环境交互进入下一时刻的状态,智能体接收新的状态后,进入下一个决策循环;
步骤4:构造CAVs的状态空间、动作空间、奖励函数;
设经步骤2中得到的一个多智能体子系统的研究对象为智能体n,该智能体的状态空间表达式为则系统的观测空间表示为:o=on,...ok,rn,其中,ok表示多智能体子系统中的其他智能体,但不包括智能体n,rn表示智能体n的回报奖励,对于智能体n的观测状态中包含该多智能体子系统中其他所有智能体的状态信息,同时为步骤3中神经网络的输入提供了丰富的特征信息;
动作空间包括:x方向的加速度变化,其值为正表示加速,反之减速;航向角的变化,其值为正表示航向角增加,反之减小;是否转向,如左转、右转或直行;智能体n最终执行的策略,即最优策略为:
奖励函数以安全性、舒适性和高效性这三个指标构造而成,表示为:其中,代表智能体Vi的安全激励,代表智能体Vi的舒适度激励,代表智能体Vi的效率激励,且和为各自的权重因子;
步骤5:将多智能体深度强化学习决策算法得到的最优策略,作为自动驾驶车辆的控制输入。
2.如权利要求1所述的一种基于多智能体强化学习的自动驾驶车辆控制方法,其特征在于,步骤2中,设子系统集合为:设定一个集合设定一个阈值Δd,在多智能体子系统中,判断是否小于Δd,如果是,则有和Vη+1,否则将Vη和Vη+1从中剔除,然后将添加到中,最终得到子系统
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211546947.3/1.html,转载请声明来源钻瓜专利网。