[发明专利]一种基于多智能体强化学习的自动驾驶车辆控制方法在审
申请号: | 202211546947.3 | 申请日: | 2022-12-05 |
公开(公告)号: | CN116394968A | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 马宏宾;刘萍;金英;麻景翔;张华卿 | 申请(专利权)人: | 北京理工大学 |
主分类号: | B60W60/00 | 分类号: | B60W60/00;G06N3/0442;G06N3/045;G06N3/0464;G06N3/047;G06N3/048;G06N3/092;B60W50/00;B60W40/08 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 强化 学习 自动 驾驶 车辆 控制 方法 | ||
本发明涉及一种基于多智能体强化学习的自动驾驶车辆控制方法,属于人工智能和自动驾驶技术领域。针对自动驾驶车辆场景,本方法提出了一个用于AVs的多智能体自适应决策框架。首先考虑乘客的个性化需求,为AVs制定不同的驾驶风格,用于后续决策建模过程中。利用联盟博弈和V2V通信,以每个网联自动驾驶车辆CAV为中心划分多智能体系统,从而构建合作决策区域。然后,基于模型预测控制中的滚动时域,构建了一个深度强化学习决策框架,以实现CAV在合作区域里的运动决策。在完全自动驾驶车辆的场景下,本发明不仅能够保证在高速主干车道上的安全性和效率,而且对于匝道合流区域的安全性、舒适度和效率也能够得到保障。
技术领域
本发明涉及一种自动驾驶车辆的控制方法,具体涉及一种基于多智能体深度强化学习的自动驾驶车辆自主行为控制方法,属于人工智能和自动驾驶技术领域。
背景技术
自动驾驶车辆(AVs)是一种集先进的通信、计算机、网络和控制技术于一体,对车辆实现实时、连续控制的智能化系统。自动驾驶系统具备车辆自动唤醒启动和休眠、自动出入停车场、自动清洗、自动行驶、自动停车、自动开关车门、故障自动恢复等多种功能,并具有常规运行、降级运行、运行中断等多种运行模式。自动驾驶技术是车辆“电动化,智能化,网联化”三大技术发展趋势的必然要求和结果。当自动驾驶到达高级阶段后,将极大地解放人类驾驶,特别是长途驾驶对自身精力、体力、经验、智力的严重依赖。
近年来,自动驾驶在智能交通、智慧城镇和智慧高速等场景中得到广泛研究和应用。尤其是高速路,因其场景简单,已成为自动驾驶决策与控制领域的研究热点。高速路场景具有高复杂度、高动态等特性,因此,如何实现自动驾驶车辆安全、舒适、高效的在高速路中行驶,成为该领域的研究重点。
为了实现完全自主驾驶功能,车辆应制定安全、可控和稳健的驾驶策略,该策略可能涉及对特定驾驶操作(例如加速、减速和转向)的低水平控制,或更高水平的战略决策(例如变道、超车和转弯)。考虑自动驾驶车辆(AVs)的终极目标是在未来完全取代人类驾驶汽车在高速中行驶,如何使所有AVs融入当前人类驾驶所在的交通生态,并将AVs的驾驶效率、驾驶风险降到最小化,是自动驾驶领域最值得探索的问题。由于乘客的驾驶特性(礼貌、粗鲁、平和)和目的地的不同导致对AVs有不同的需求,因此,AVs如何自适应的为不同乘客提供个性化需求是另一个值得探索的问题。
目前,多智能体深度强化学习方法主要分为四种:
1.对涌现行为的分析方法,即在多智能体场景中评估单智能体DRL算法;
2.通信学习方法,即智能体学习通信协议以解决合作任务;
3.合作学习方法,即智能体只是用行动和(局部)观察来学习合作;
4.智能体建模智能体,即对对手智能体进行建模推断来完成任务。
然而,上述方法主要应用于如Atari游戏、社会困境、3D竞技游戏等场景中。在自动驾驶领域中,大多是直接套用其中的某一种方法,没有根据实际自动驾驶应用场景进行深入分析和应用。
发明内容
本发明的目的是为了解决如何使自动驾驶车辆(简称AVs)融入当前交通体系,实现更安全、更舒适、更高效的行驶控制,以及如何自适应的为不同乘客提供个性化需求,实现更加智能的自动驾驶控制等技术问题,创造性地提出一种基于多智能体强化学习的自动驾驶车辆控制方法。
本发明的创新点在于:针对一个完全用于自动驾驶车辆的高速场景(即,该场景中不考虑人类驾驶车辆),本方法提出了一个用于AVs的多智能体自适应决策框架。首先,考虑乘客的个性化需求,为AVs制定不同的驾驶风格(礼貌、粗鲁、平和),用于后续决策建模过程中。利用联盟博弈和V2V通信,以每个网联自动驾驶车辆(Connected Automated Vehicle,CAV)为中心划分多智能体系统,从而构建合作决策区域。然后,基于模型预测控制中的滚动时域,构建了一个深度强化学习决策框架,以实现CAV在合作区域里的运动决策。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211546947.3/2.html,转载请声明来源钻瓜专利网。