[发明专利]一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法有效

申请号：	202110119357.1	申请日：	2021-01-28
公开（公告）号：	CN112927505B	公开（公告）日：	2022-08-02
发明（设计）人：	王桐;曹家华;阿泽热;杨光新;付李悦	申请（专利权）人：	哈尔滨工程大学
主分类号：	G08G1/01	分类号：	G08G1/01;G08G1/081;G08G1/095;G06K9/62;G06N3/08;G16Y10/40;G16Y40/35;H04W4/029;H04W4/40
代理公司：	哈尔滨市阳光惠远知识产权代理有限公司 23211	代理人：	张宏威
地址：	150001 黑龙江***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种联网环境基于智能深度强化学习信号灯自适应控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明为了解决现有强化学习算法受限于维度爆炸问题无法直接拓展到大规模真实城市路网场景、以及协作式多智能体强化学习模型的训练效率低下问题，结合车联网通信背景，提出了一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法。本发明具体包括4个步骤：基于车联网通信架构—设计CGB‑MATSC模型—在模型上结合DQN算法得到CGB‑MAQL算法—为了加速算法收敛提出了基于多线程的启发式学习机制；本发明用于优化路网范围内所有路口的信号灯控制策略，该模型为智能体规模扩展导致的空间维度爆炸提供了一个高效的解决方案，支持其他强化学习算法的拓展，且在大规模异构路网环境中具有较好的有效性和可拓展性。

技术领域

本发明城市智能交通管理技术领域，具体地，涉及一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法。

背景技术

随着城市化建设加速，交通拥堵成为普遍存在的问题，为了提高路网通行效率、及时疏导道路拥塞，城市交通控制系统亟需优化。传统的交叉口信号控制模式大多依赖于预设的相位方案或道路交通建模，无法根据高度动态的交通流实时优化控制策略。近年来人工智能技术的发展为智慧交通系统(Intelligent Traffic System,ITS)指明了主要发展方向，TLC是ITS的重要子系统之一。结合新一代网络技术、车联网技术，现代TLC系统面临数据采集端、通信平台、智能算法全方位的理论发展和技术改革，逐渐完成由传统固定控制模式向数据驱动的高度智能化的实时自适应信号灯控制系统发展。

常用的TLC方式：传统TLC控制模式、基于交通流模型或预置方案的SCATS系统，缺点是不够动态、无法拓展、维护成本高。解决方案是引入AI技术，提高自主学习能力。

目前普遍应用的城市交通控制系统主要包括20世纪发明的SCATS系统和SCOOT系统，以及我国改进的SMOOTH系统。但是上述控制系统的性能均对道路交通模型准确性存在一定的依赖，且数据采集大多基于道路传感器和摄像头等装置，采集数据的准确性受不稳定因素影响。此外，在面临城市改建时，控制系统往往不具备可拓展性，这导致系统维护和升级的成本增加。自从Deepmind团队于2015年成功在游戏中应用深度强化学习算法战胜人类玩家水平，深度强化学习(Deep Reinforcement Learning,DRL)在最优控制问题中的应用得到了广泛关注。DRL整合了基于深度学习的高维数据感知处理能力以及基于强化学习的自主决策能力，形成了一个基于感知给出最优行为决策的端到端的自主学习系统。信号控制方案优化可以看成是最优控制策略问题，基于实时道路状态描述，由路口智能体给出最优控制方案。DRL已经在单路口场景中的有效性已经得到证实，然而在面临真实城市场景的大规模路网环境，由于动作、状态空间维度爆炸、模型训练效率低、训练开销过大等问题，目前仍没有形成适用于大规模城市路网环境的统一多智能体协作框架。

发明内容

本发明为了解决现有强化学习算法受限于维度爆炸问题无法直接拓展到大规模真实城市路网场景、以及协作式多智能体强化学习模型的训练效率低下问题，结合车联网通信背景，提出了一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法。

一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法，所述方法具体包括以下步骤：

步骤1：根据大规模路网中车联网通信架构，搭建由边缘计算服务器MEC、路边控制单元Roadside Unit，RSU以及路口信号控制装置构成的层级通信架构，确定基于深度强化学习的智能体结构；所述路口信号控制装置为信号灯或其它可以实现信号控制的装置；

步骤2：搭建协作的基于深度强化学习的多路口信号控制模型CGB-MATSC，根据步骤1中的智能体结构，提出了基于K近邻的K-Nearest Neighbor，KNN联合状态表达方式，基于道路信息素的区域绿波控制模式以及基于空间折扣因子的联合回报设计模式；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110119357.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种人体生物电检测设备、检测系统及检测方法
下一篇：一种活络卡码及其制作方法、使用方法

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法有效

专利文献下载