[发明专利]一种基于多智能体强化学习的自适应交通信号控制方法有效
| 申请号: | 202011092990.8 | 申请日: | 2020-10-13 |
| 公开(公告)号: | CN112216129B | 公开(公告)日: | 2021-07-27 |
| 发明(设计)人: | 张程伟;靳珊;郑康洁 | 申请(专利权)人: | 大连海事大学 |
| 主分类号: | G08G1/081 | 分类号: | G08G1/081;G06K9/62 |
| 代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 陈丽;李洪福 |
| 地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 强化 学习 自适应 交通信号 控制 方法 | ||
1.一种基于多智能体强化学习的自适应交通信号控制方法,其特征在于,包括以下步骤:
S1:针对交通路网中每个交叉口,建立与所述交叉口对应的智能体网络;
S2:获取所述交通路网中的实时交通特征;
S3:将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中,得到所述智能体网络输出的交叉口的相位,并按照所述交叉口的相位执行该交叉口的交通信号控制;其中,所述智能体网络以该智能体网络对应的交叉口以及该交叉口相邻的交叉口的进入车道上正在等待的车辆数量总和的平均值为奖励确定该交叉口的相位;
S4:将每次执行交通信号控制的交互经验存储在经验库中;
S5:随机抽取所述经验库中的多次交互经验输入深度Q网络,以最小化路网中所有车辆的平均旅行时间为目的,计算每个智能体网络的损失函数,基于每个智能体网络的损失函数更新所述智能体网络;
相应地,将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中,包括:将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的更新后的智能体网络中;
其中,所述计算每个智能体网络的损失函数,包括:
计算损失函数:Loss=(Yt-Q(ot,ut;θt))2;
其中,Yt为目标Q值,ot为智能体的观测值,ut为智能体执行的相位编号,θt为主网络参数,为目标网络参数;TD-error为δt=Yt-Q(ot,ut;θt);
对TD-errror加权,修正所述损失函数:Loss=(δ′t)2;
其中et为本条经验的有效性;leniency为智能体接受不好奖励的乐观程度。
2.根据权利要求1所述的方法,其特征在于,所述交互经验包括:智能体的观测值、智能体执行的相位编号、智能体收到的奖励、智能体执行动作后的观测值、有效性。
3.根据权利要求2所述的方法,其特征在于,所述智能体的观测值由两部分组成:与所述智能体对应的交叉口的当前相位、与所述智能体对应的交叉口的进入车道集合中每条车道上正在行驶的车辆数量。
4.根据权利要求2所述的方法,其特征在于,还包括:
在每完成一个小时内相位选择后,更新所述经验库中每条交互经验的有效性。
5.根据权利要求4所述的方法,其特征在于,所述更新所述经验库中每条交互经验的有效性,包括:
其中,eep+1为更新后的交互经验的有效性;eep为更新前的交互经验的有效性;ep表示经验生成后经过的回合数,K为经验重要性的衰减系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011092990.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于多种数据带宽的加密模块
- 下一篇:一种烧结机侧部复合式密封装置





