[发明专利]一种基于多智能体强化学习的自适应交通信号控制方法有效
| 申请号: | 202011092990.8 | 申请日: | 2020-10-13 |
| 公开(公告)号: | CN112216129B | 公开(公告)日: | 2021-07-27 |
| 发明(设计)人: | 张程伟;靳珊;郑康洁 | 申请(专利权)人: | 大连海事大学 |
| 主分类号: | G08G1/081 | 分类号: | G08G1/081;G06K9/62 |
| 代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 陈丽;李洪福 |
| 地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 强化 学习 自适应 交通信号 控制 方法 | ||
本发明公开了一种基于多智能体强化学习的自适应交通信号控制方法,包括:针对交通路网中每个交叉口,建立与所述交叉口对应的智能体网络;获取所述交通路网中的实时交通特征;将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中,得到所述智能体网络输出的交叉口的相位,并按照所述交叉口的相位执行该交叉口的交通信号控制;其中,所述智能体网络以该智能体网络对应的交叉口以及该交叉口相邻的交叉口的进入车道上正在等待的车辆数量总和的平均值为奖励确定该交叉口的相位。本发明提高了独立智能体之间的协调能力,为复杂路网环境的交通信号控制提供解决方案。
技术领域
本发明涉及交通控制技术领域,更具体地说,涉及一种基于多智能体强化学习的自适应交通信号控制方法。
背景技术
实现智能交通信号控制是一种减少交通拥堵和提高交通效率的低成本方法。由于交通流量具有随时间变化和随机性的特点,尤其是在多十字路口的复杂路网环境,所以流量建模仍然是非常困难的。
现有技术中提出一种基于多智能体强化学习利用马尔可夫决策过程(MarkovDecision Process,MDP)对交通信号控制进行建模的方法,将单智能体优势行动者评论家(Advantage Actor-Critic)算法扩展到多智能体交通环境中。
上述方法是可扩展的独立式算法,仅从交通模型上增加智能体之间的合作的可能性,并未对多智能体协作问题做相关针对性的设计。考虑到多智能体协作问题在独立式算法中会遇到不稳定性,不协调等困难,在复杂路网环境中,如路网中车辆数量多导致的路口间高协调需求环境,很难学习到好的协作策略。
发明内容
有鉴于此,本发明提供一种基于多智能体强化学习的自适应交通信号控制方法,以提高独立智能体之间的协调能力,为复杂路网环境的交通信号控制提供解决方案。
为了实现上述目的,现提出的方案如下:
一种基于多智能体强化学习的自适应交通信号控制方法,包括以下步骤:
S1:针对交通路网中每个交叉口,建立与所述交叉口对应的智能体网络;
S2:获取所述交通路网中的实时交通特征;
S3:将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中,得到所述智能体网络输出的交叉口的相位,并按照所述交叉口的相位执行该交叉口的交通信号控制;其中,所述智能体网络以该智能体网络对应的交叉口以及该交叉口相邻的交叉口的进入车道上正在等待的车辆数量总和的平均值为奖励确定该交叉口的相位。
进一步地,还包括:
S4:将每次执行交通信号控制的交互经验存储在经验库中。
进一步地,还包括:
S5:随机抽取所述经验库中的多次交互经验输入深度Q网络,以最小化路网中所有车辆的平均旅行时间为目的,计算每个智能体网络的损失函数,基于每个智能体网络的损失函数更新所述智能体网络;
相应地,将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中,包括:
将所述实时交通特征交叉口的位置分别传入与所述交叉口对应的更新后的智能体网络中。
进一步地,所述计算每个智能体网络的损失函数,包括:
计算损失函数:Loss=(Yt-Q(ot,ut;θt))2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011092990.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于多种数据带宽的加密模块
- 下一篇:一种烧结机侧部复合式密封装置





