[发明专利]一种基于多智能体强化学习的自适应交通信号控制方法有效

申请号：	202011092990.8	申请日：	2020-10-13
公开（公告）号：	CN112216129B	公开（公告）日：	2021-07-27
发明（设计）人：	张程伟;靳珊;郑康洁	申请（专利权）人：	大连海事大学
主分类号：	G08G1/081	分类号：	G08G1/081;G06K9/62
代理公司：	大连东方专利代理有限责任公司 21212	代理人：	陈丽;李洪福
地址：	116026 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于智能强化学习自适应交通信号控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多智能体强化学习的自适应交通信号控制方法，其特征在于，包括以下步骤：

S1：针对交通路网中每个交叉口，建立与所述交叉口对应的智能体网络；

S2：获取所述交通路网中的实时交通特征；

S3：将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，得到所述智能体网络输出的交叉口的相位，并按照所述交叉口的相位执行该交叉口的交通信号控制；其中，所述智能体网络以该智能体网络对应的交叉口以及该交叉口相邻的交叉口的进入车道上正在等待的车辆数量总和的平均值为奖励确定该交叉口的相位；

S4：将每次执行交通信号控制的交互经验存储在经验库中；

S5：随机抽取所述经验库中的多次交互经验输入深度Q网络，以最小化路网中所有车辆的平均旅行时间为目的，计算每个智能体网络的损失函数，基于每个智能体网络的损失函数更新所述智能体网络；

相应地，将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，包括：将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的更新后的智能体网络中；

其中，所述计算每个智能体网络的损失函数，包括：

计算损失函数：Loss＝(Y_t-Q(o_t,u_t；θ_t))²；

其中，Y_t为目标Q值，o_t为智能体的观测值，u_t为智能体执行的相位编号，θ_t为主网络参数，为目标网络参数；TD-error为δ_t＝Y_t-Q(o_t,u_t；θ_t)；

对TD-errror加权，修正所述损失函数：Loss＝(δ′_t)²；

其中e_t为本条经验的有效性；leniency为智能体接受不好奖励的乐观程度。

2.根据权利要求1所述的方法，其特征在于，所述交互经验包括：智能体的观测值、智能体执行的相位编号、智能体收到的奖励、智能体执行动作后的观测值、有效性。

3.根据权利要求2所述的方法，其特征在于，所述智能体的观测值由两部分组成：与所述智能体对应的交叉口的当前相位、与所述智能体对应的交叉口的进入车道集合中每条车道上正在行驶的车辆数量。

4.根据权利要求2所述的方法，其特征在于，还包括：

在每完成一个小时内相位选择后，更新所述经验库中每条交互经验的有效性。

5.根据权利要求4所述的方法，其特征在于，所述更新所述经验库中每条交互经验的有效性，包括：

其中，e_ep+1为更新后的交互经验的有效性；e_ep为更新前的交互经验的有效性；ep表示经验生成后经过的回合数，K为经验重要性的衰减系数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连海事大学，未经大连海事大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011092990.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G08 信号装置
G08G 交通控制系统
G08G1-00 道路车辆的交通控制系统
G08G1-005 .包括行人导引指示器的
G08G1-01 .检测要统计或要控制的交通运动
G08G1-065 .计算一段道路或停车场上的车辆数的，即比较进出车辆数
G08G1-07 .交通信号控制
G08G1-09 .给出可变交通指令的装置

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多智能体强化学习的自适应交通信号控制方法有效

专利文献下载