[发明专利]一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法有效
申请号: | 201910011893.2 | 申请日: | 2019-01-07 |
公开(公告)号: | CN109559530B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 葛宏伟;宋玉美 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G08G1/081 | 分类号: | G08G1/081;G06N3/04 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 刘秋彤;温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,属于机器学习与智能交通的交叉领域。本方法首先将一个区域的多交叉口交通网络建模为多Agent系统,各个Agent在学习策略过程中同时考虑最近时刻的相邻Agent动作的影响,使得多个Agent能协同地进行多交叉口的信号灯控制。每个Agent通过一个深度Q网络自适应控制一个交叉口,网络输入为各自对应路口的原始状态信息的离散交通状态编码。在其学习过程中将最近时刻相邻Agent的最优动作Q值迁移到网络的损失函数中。本方法能够提升区域路网的交通流量,提高道路的利用率,减少车辆的排队长度,缓解交通拥堵。该方法对各交叉口结构无限制。 | ||
搜索关键词: | 一种 基于 迁移 深度 强化 学习 交叉口 信号灯 协同 控制 方法 | ||
【主权项】:
1.一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法,其特征在于,包括如下步骤:步骤1:将一个区域的交通网络建模为多Agent系统,每个交叉口由一个Agent控制,每个Agent包括一个经验池M、一个估计网络和一个目标网络组成,分别初始化估计网络和目标网络的参数θi和θi′,初始化每个经验池;步骤2:对进入交叉口的所有道路上的车辆进行离散状态编码,对于某个交叉口i,将从停车线开始长度为l的道路k划分为长度c的离散单元,将交叉口i的道路k的车辆位置和速度记录为车辆位置矩阵
和车辆速度矩阵
当车辆头部在某个离散单元上时,则车辆位置矩阵
对应的位置值为1,否则值为0;将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵
对应单元格的值;对于每条进入交叉口i的车道,相应的都有一个位置矩阵
和一个速度矩阵
对于第i个交叉口,所有车道的
和
组成交叉口i的位置矩阵Pi和速度矩阵Vi;在t时刻,Agent观察到第i个交叉口的状态为
其中Si表示第i个路口的状态空间;定义第i个交叉口的动作空间Ai,即第i个交叉口的所有可切换信号灯相位;定义奖赏函数r为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度的变化;计算公式为:
其中,
和
分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度;步骤3:在每个时间步t,将第i个交叉口当前状态
输入第i个Agent的估计网络,估计网络自动提取交叉口的特征并估计各个动作对应的Q值,Agent根据估计网络输出的各个动作对应的的Q值,依据ε‑贪心策略,以概率1‑ε选择最大的Q值对应的动作,即
否则在动作空间中随机选择一个动作
然后Agent执行选择的动作
动作停留时间为τg,交叉口进入下一个状态
Agent根据公式(1)计算奖赏
其中,ε的初始值为1,呈线性递减;步骤4:将各Agent的经验
存入Agent对应的经验池M中;其中,
表示t时刻第i个Agent的估计网络输出的所有动作的Q值;步骤5:从经验池M中随机采样m条经验,采用RMSProp梯度下降算法更新估计网络参数θi,损失函数为
其中,γ为学习率;a′为动作空间中可选的某个动作;N是第i个Agent的邻居集合,j为其中的某个邻居Agent,Aj为第j个Agent的动作空间,
为第j个Agent在t‑1时刻的状态,
为邻居j最近时刻的最优Q值;步骤6:令
步骤7:重复T次步骤3至步骤6;步骤8:更新目标网络的参数θi′=θi,ε值递减直至值为0.1;步骤9:重复步骤3至步骤8,定时计算一次车辆平均排队长度L,当L连续3次非递减且相邻的L差值小于0.02时,则多交叉口协同网络训练完成;步骤10:多交叉口协同网络训练完成后,在每个时间步t,将第i个交叉口的当前状态
输入第i个Agent的估计网络,各Agent的估计网络输出各个动作对应的Q值,Agent以概率1‑ε选择最大的Q值对应的动作,即
否则在动作空间中随机选择一个动作
Agent执行动作![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910011893.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种人行横道的车辆指挥系统
- 下一篇:物联网交通管理控制系统