[发明专利]一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法有效

申请号：	201910011893.2	申请日：	2019-01-07
公开（公告）号：	CN109559530B	公开（公告）日：	2020-07-14
发明（设计）人：	葛宏伟;宋玉美	申请（专利权）人：	大连理工大学
主分类号：	G08G1/081	分类号：	G08G1/081;G06N3/04
代理公司：	大连理工大学专利中心 21200	代理人：	刘秋彤;温福雪
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法，属于机器学习与智能交通的交叉领域。本方法首先将一个区域的多交叉口交通网络建模为多Agent系统，各个Agent在学习策略过程中同时考虑最近时刻的相邻Agent动作的影响，使得多个Agent能协同地进行多交叉口的信号灯控制。每个Agent通过一个深度Q网络自适应控制一个交叉口，网络输入为各自对应路口的原始状态信息的离散交通状态编码。在其学习过程中将最近时刻相邻Agent的最优动作Q值迁移到网络的损失函数中。本方法能够提升区域路网的交通流量，提高道路的利用率，减少车辆的排队长度，缓解交通拥堵。该方法对各交叉口结构无限制。
搜索关键词：	一种基于迁移深度强化学习交叉口信号灯协同控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法，其特征在于，包括如下步骤：步骤1：将一个区域的交通网络建模为多Agent系统，每个交叉口由一个Agent控制，每个Agent包括一个经验池M、一个估计网络和一个目标网络组成，分别初始化估计网络和目标网络的参数θi和θi′，初始化每个经验池；步骤2：对进入交叉口的所有道路上的车辆进行离散状态编码，对于某个交叉口i，将从停车线开始长度为l的道路k划分为长度c的离散单元，将交叉口i的道路k的车辆位置和速度记录为车辆位置矩阵和车辆速度矩阵当车辆头部在某个离散单元上时，则车辆位置矩阵对应的位置值为1，否则值为0；将车辆速度与道路限制的最大速度归一化后的值作为速度矩阵对应单元格的值；对于每条进入交叉口i的车道，相应的都有一个位置矩阵和一个速度矩阵对于第i个交叉口，所有车道的和组成交叉口i的位置矩阵P_i和速度矩阵V_i；在t时刻，Agent观察到第i个交叉口的状态为其中S_i表示第i个路口的状态空间；定义第i个交叉口的动作空间Ai，即第i个交叉口的所有可切换信号灯相位；定义奖赏函数r为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度的变化；计算公式为：其中，和分别为t时刻和t+1时刻进入第i个交叉口所有车道上车辆的平均排队长度；步骤3：在每个时间步t，将第i个交叉口当前状态输入第i个Agent的估计网络，估计网络自动提取交叉口的特征并估计各个动作对应的Q值，Agent根据估计网络输出的各个动作对应的的Q值，依据ε‑贪心策略，以概率1‑ε选择最大的Q值对应的动作，即否则在动作空间中随机选择一个动作然后Agent执行选择的动作动作停留时间为τ_g，交叉口进入下一个状态Agent根据公式(1)计算奖赏其中，ε的初始值为1，呈线性递减；步骤4：将各Agent的经验存入Agent对应的经验池M中；其中，表示t时刻第i个Agent的估计网络输出的所有动作的Q值；步骤5：从经验池M中随机采样m条经验，采用RMSProp梯度下降算法更新估计网络参数θi，损失函数为其中，γ为学习率；a′为动作空间中可选的某个动作；N是第i个Agent的邻居集合，j为其中的某个邻居Agent，A_j为第j个Agent的动作空间，为第j个Agent在t‑1时刻的状态，为邻居j最近时刻的最优Q值；步骤6：令步骤7：重复T次步骤3至步骤6；步骤8：更新目标网络的参数θi′＝θi，ε值递减直至值为0.1；步骤9：重复步骤3至步骤8，定时计算一次车辆平均排队长度L，当L连续3次非递减且相邻的L差值小于0.02时，则多交叉口协同网络训练完成；步骤10：多交叉口协同网络训练完成后，在每个时间步t，将第i个交叉口的当前状态输入第i个Agent的估计网络，各Agent的估计网络输出各个动作对应的Q值，Agent以概率1‑ε选择最大的Q值对应的动作，即否则在动作空间中随机选择一个动作Agent执行动作

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910011893.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Q值迁移深度强化学习的多交叉口信号灯协同控制方法有效

专利文献下载