[发明专利]基于多智能体约束策略优化的无信号交叉口协同控制方法在审
申请号: | 202211074749.1 | 申请日: | 2022-09-02 |
公开(公告)号: | CN115440042A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 赵睿;李云;高菲;高镇海;张天瑶;秦贵和 | 申请(专利权)人: | 吉林大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G06F30/27;G06N3/04;G06N3/08;G06F111/04 |
代理公司: | 深圳众邦专利代理有限公司 44545 | 代理人: | 李茂松 |
地址: | 130000 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 约束 策略 优化 信号 交叉口 协同 控制 方法 | ||
本发明属于交通控制技术领域,具体为基于多智能体约束策略优化的无信号交叉口协同控制方法,包括如下两个部分:第一部分:多智能体约束策略优化(MACPO)算法,Actor‑Critic框架的基础上,引入了额外的基于损失函数的critic神经网络,用于保障策略更新时安全约束能够得到满足。第二部分:基于多智能体约束策略优化的无信号交叉口协同控制方法,将所提出的MACPO算法应用于道路交叉口协同控制,集中调控交叉口范围内的所有车辆,实现通行的安全性、高效性与舒适性本发明结构合理,在实现了交叉口零碰撞的同时,确保通行的高效率与舒适性。
技术领域
本发明涉及交通控制技术领域,具体为基于多智能体约束策略优化的无信号交叉口协同控制方法。
背景技术
自动驾驶技术的应用能够避免人为错误,增加交通安全性、方便残疾人出行并缓解交通拥堵情况,极大地提高未来交通系统的智能化水平。安全性、舒适性与高效性是自动驾驶的功能设计目标。然而,当前自动驾驶技术仍然未具备全场景下的安全驾驶能力,安全性问题急需解决,同时在舒适性与高效性方面仍需进一步改善。道路交叉口是城市地区的典型场景,比高速公路上的自动驾驶更加复杂,更具挑战性。在交叉路口,车辆从不同的交叉路口入口进入,在交叉路口区域交叉其特定的轨迹,并在不同的出口离开交叉路口。车辆之间复杂的冲突关系导致在交叉路口避免碰撞的车辆决策复杂,需要复杂的多智能体协同的自动驾驶设计来保证交通安全,提高交通效率与驾乘舒适性。
传统自动驾驶决策通常基于形式化或公式化的方法设计,在庞大的解空间中搜索与计算令表征安全、舒适与效率的目标函数值最大化的最优控制量,该方式计算效率欠缺,通常需秒级的求解时间,对控制单元计算性能要求较高,无法匹配自动驾驶应用对控制输出的毫秒级高实时性要求;在高动态变化且高复杂度的交通场景中,由于优化问题的复杂性与计算资源的短缺性,该类基于计算的形式化方法在复杂的交通场景中难以实际应用。为解决传统基于计算的方法在实时性方面的问题,近年来越来越多的研究将深度学习用于自动驾驶领域,但深度神经网络存在只能根据既有数据学习以及无法在与环境交互中更新网络的缺点,少量已知交通场景训练得到的网络无法在未知海量的真实交通环境中保持训练网络时预期的性能。
强化学习能够通过智能体与环境不断交互来提升当前策略,并通过奖励函数来引导策略的更新;深度强化学习将深度神经网络引入强化学习中,结合神经网络的学习能力与强化学习的决策能力,近几年逐渐被尝试应用于自动驾驶领域,具有广阔的应用前景。然而,当前深度强化学习方法,如PPO(Proximal Policy Optimization)、DDPG(DeepDeterministic Policy Optimization)、A3C(Asynchronous Advantage Actor-Critic)等,均采用的单一奖励函数引导策略更新,无法保障策略满足特定约束,由于强化学习策略探索的随机性,在如交叉口等复杂场景探索新的策略时可能会发生碰撞风险,导致其应用于自动驾驶领域时无法始终满足安全基线,仍然难以被汽车行业广泛采用。例如,已有基于PPO算法的无信号道路交叉口协同控制,利用单一奖励函数来综合表征道路交叉口的效率与安全,导致策略在通行效率与安全性方面博弈,收敛后的神经网络模型性能仍然有10%的交叉口车辆碰撞概率,无法在真实交通场景中实际应用。安全性是自动驾驶的基线,而非与其他性能折衷权衡一个子方面,需设计全新的深度强化学习方法,能够在保障满足设定约束,如安全约束的前提下,以奖励函数最大化为目标更新策略。
综上,安全性、舒适性与高效性是自动驾驶功能设计追求的目标。当前自动驾驶技术仍然未具备全场景下的安全驾驶能力,安全性问题急需解决,同时在舒适性与高效性方面仍需进一步改善。道路交叉口是城市地区的典型场景,比高速公路上的自动驾驶更加复杂,更具挑战性。为解决自动驾驶领域传统基于计算的方法由于计算效率低所导致的实时性违背问题,以及基于传统强化学习算法由于未考虑安全约束所导致的安全性违背问题,我们提出一种新型的基于多智能体约束策略优化的无信号交叉口协同控制方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211074749.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝灰综合利用的方法
- 下一篇:一种向日葵种植用病害诊断装置