[发明专利]一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法有效
申请号: | 202110119357.1 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112927505B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 王桐;曹家华;阿泽热;杨光新;付李悦 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G08G1/01 | 分类号: | G08G1/01;G08G1/081;G08G1/095;G06K9/62;G06N3/08;G16Y10/40;G16Y40/35;H04W4/029;H04W4/40 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 张宏威 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联网 环境 基于 智能 深度 强化 学习 信号灯 自适应 控制 方法 | ||
1.一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法,其特征在于:所述方法具体包括以下步骤:
步骤1:根据大规模路网中车联网通信架构,搭建由边缘计算服务器MEC、路边控制单元Roadside Unit,RSU以及路口信号控制装置构成的层级通信架构,确定基于深度强化学习的智能体结构;所述路口信号控制装置为信号灯或其它可以实现信号控制的装置;
步骤1.1:根据选定城市路网结构,部署MEC边缘计算服务器位置,确定与MEC相连接的4只RSU的位置与RSU通信范围,所述4只RSU连接于同一MEC;
步骤1.2:确定选定场景中的交叉口控制类型,获取所有信号灯控制的交叉口信号灯的ID信息、位置信息、预置相位信息和各个相位对应的控制车道信息;所述信息数据均在SUMO路网.xml文档中获取;
步骤1.3:确定基于深度强化学习的RSU智能体的结构,完成大规模路网中智能体的部署和控制范围划分;根据信号灯所在位置及各RSU通信范围,确定RSU和信号灯控制路口的所属关系;根据各个RSU所处位置的不同以及包含异构路口数量的不同,分别构成基于深度强化学习的智能体结构,智能体列表为listagent=[agent0,agent1,agent2,agent3],其中智能体agenti的结构由其控制范围内的信号灯信息描述,即信号灯列表TLi为:
TLi=[tl0,tl1,...,tlm];
步骤1.4:搭建基于车路协同的三层层级通信结构:MEC-RSU-TL,并确定通信对象之间的通信方式与通信内容;其中架构底层的路口信号控制装置以有线或无线通信的方式,将自身ID、位置和预置相位信息传递给RSU智能体;
步骤1.5:道路车辆实时更新自身的速度和位置信息,并以V2X无线通信方式告知位于层级通信架构中间层的RSU;
步骤1.6:层级通信架构中间层的RSU主要功能为:a)确定自身控制范围内的信号灯列表TLi及其控制车道和预置相位列表phaset=[p0,p1,...,pl],其中l代表信号灯tlt的预置相位列表;b)收集车辆信息并根据速度计算每个方向道路停车数目;c)收集信号灯的当前阶段相位信息;
步骤1.7:层级通信架构顶层的MEC会根据各个RSU发送来的信息,完成:a)根据车道的道路信息计算实时道路信息素;b)为每个信号灯控制车道的信息素排序,并找出相应的绿波相序;c)计算场景中所有路口的交通流信息;
步骤1.8:MEC和RSU通信告知其控制范围内的信号灯的绿波相位;绿波相位的获取步骤如下:以三向信号灯tlt为例,其预置相位列表为phaset=[p0,p1,...,pl],其中p0=ggggrrrryyyy,每个字母代表一个相应的道路通行方向的对应相位切片,则gggg代表对一条包含四个通行方向的道路的信号管控状态描述;在该道路的信息素排放水平高于其他两个道路时,设置p0为该交叉口信号灯相位,实现对该交叉口的基于道路信息素水平的绿波控制;
步骤1.9:RSU和路口信号控制装置通信告知各个路口绿波相位;
步骤2:搭建协作的基于深度强化学习的多路口信号控制模型CGB-MATSC,根据步骤1中的智能体结构,构建基于K近邻的K-Nearest Neighbor联合状态表达方式,基于道路信息素的区域绿波控制模式以及基于空间折扣因子的联合回报设计模式;
步骤2.1:在所述CGB-MATSC模型中,根据场景中各个智能体的位置信息,以距离为特征空间,根据设置的k值,基于KNN算法确定每个智能体的邻居列表;
步骤2.2:根据道路等待车辆数目设定3个拥塞等级,即{0,1,2};0代表路口畅通,1代表中等拥塞,2代表严重拥挤情况;x的离散化详细如式(1)所示;其中阈值的选取是基于实际场景车辆数目其中Nwaiting;设定实际场景车辆数目最小值δ0为5,实际场景车辆数目最大值δ1为10;
步骤2.3:以智能体i为例,根据邻居列表,形成基于K近邻的联合状态Mi如下,其中k是智能体i的邻居个数:
其中,sk为第k只智能体的本地状态信息;
xk为第k只智能体的控制范围内的平均拥塞离散程度,xk取值[0,1,2,3];
为第k只智能体的控制范围内最拥挤的路口及其拥塞离散水平为第k只智能体的控制范围内次拥挤的路口及其拥塞离散水平ak为智能体k上一轮的行为决策;
步骤2.3:在所述CGB-MATSC模型中,智能体动作空间大小为2,即包含两个管控模式,Action={a0,a1};其中a0代表基于道路信息素的区域绿波控制模式,a1代表预置的固定配时模式;
步骤2.4:智能体在当前状态下选择a0,则按基于道路信息素的区域绿波控制模式流程图进行绿波控制,其中Step代表当前时间步,Tend代表一轮总时间步上限值;设当前动作为a1,则控制范围内所有路口均按预置相位序列进行轮换;其中,道路信息素的定义如下;
其中,Nvehicle代表道路实时车辆数目、Ledge代表道路长度、Nlane代表道路数目,Ledge×Nlane表示了道路容量信息;
步骤2.5:在所提CGB-MATSC模型中,设计了基于空间距离折扣因子的联合收益,如公式(4)所示:
其中,Ri,joint表示智能体i收到的联合收益,Ri表示智能体收到的本地回报值,Ni是智能体i的邻居智能体列表,j代表某一个邻居智能体,|dij|代表智能体i和j之间的距离,Rj代表智能体j的本地收益;各智能体的本地回报值R是所有管控路口回报的累积和,若路口车流相较于步2.4增加记+1,其他情况记0;
步骤3:根据步骤2中的模型,利用Deep Q-learning,构建CGB-MAQL算法;
步骤3.1:设置CGB-MAQL算法中的智能体模型训练参数;设置一共轮数为E,每一轮的步数上限为5000步,记录每一步为t;其中,为了贴合交通管控实际情况,设置管控间隔为T=20sec;设置智能体关键学习参数探索率为ε,探索率衰减因子εdecay;
步骤3.2:初始化算法输入;在场景中选取位置,完成RSU和MEC的部署;记录智能体i的位置(lati,longi);
步骤3.3:初始化智能体邻居列表信息;根据k近邻算法,基于位置距离特征根据给定k值获取智能体i邻居智能体列表其中k≠i;
步骤3.4:根据上述信息初始化智能体结构;根据预设的RSU通信范围,初始化智能体i控制范围内的信号灯列表TLi=[tl0,tl1,...,tln];
步骤3.5:对于智能体i,初始化Q值网络,初始化智能体记忆列表Memoryi以及超参数|B|;
步骤3.6:记录当前轮的步数t;当t%T==0时,RSU根据TLi中的路口信息进行道路信息收集,包括道路形状和停车数量,并汇总给MEC;
步骤3.7:智能体i基于ε-greedy策略进行动作选择,如公式(5)所示:
其中,Q(s,a)代表状态动作对儿价值,π(a|s)代表在状态s处选择动作a的概率;
步骤3.8:MEC对接收到的所有智能体的信息进行汇总,并根据信息素公式(3)对各个路口进行信息素的计算和排序,形成局部状态
步骤3.9:MEC处同时接收的所有智能体的局部状态最终将汇总成发送给智能体i,该状态将作为智能体i网络更新的输入;
步骤3.10:在动作执行结束后,MEC汇集各RSU的局部回报,得到联合回报Ri,joint;
步骤3.11:将(s,s',a,r,done)记录在Memoryi中;如果done为TRUE,则此轮训练结束;若为False,训练继续;其中,done为一轮训练是否结束的标志,初始值为False,若训练过程中出发中止条件则done为True;
步骤3.12:当Memoryi长度大于超参数|B|,根据梯度反向传播方式迭代参数;
步骤3.13:根据衰减因子εdecay,更新探索率ε,开始下一轮探索;
步骤3.14:所有训练结束,CGB-MAQL算法收敛,输出各智能体模型参数;
步骤4:利用基于多线程的启发式学习机制,加速步骤3中的算法在异构路网环境中的收敛;
步骤4.1:结合实际场景路口车流情况,通过观察路口车辆到达特点,选取合适的路口车辆阈值θ;
步骤4.2:当路口停止等待的车辆数目大于等于阈值θ时中止对当前轮策略的学习,并自主开始新一轮行为策略的学习,由此形成启发式学习机制;
步骤4.3:基于多线程的启发式多智能体并行学习机制CGB-MAQL算法;其中,在KT时刻,智能体经验池中样本数量达到超参数批处理大小|B|,模型开始基于经验回放机制进行训练;
步骤4.4:将迭代完成的模型参数信息保存为.h5模型文件,所有智能体模型训练结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110119357.1/1.html,转载请声明来源钻瓜专利网。