[发明专利]基于线下强化学习与宏观模型的匝道控制方法有效
申请号: | 202111412067.2 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114141029B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 韩雨;李玲慧;高津达;刘攀 | 申请(专利权)人: | 东南大学 |
主分类号: | G08G1/07 | 分类号: | G08G1/07 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 刘莎 |
地址: | 211135 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 宏观 模型 匝道 控制 方法 | ||
本发明公开了一种基于线下强化学习与宏观模型的匝道控制方法,包括:获取高速公路几何参数,道路交通数据以及控制信息,建立并标定宏观交通流模型;基于宏观交通流模型中生成合成强化学习数据,与历史数据混合获得强化学习数据集;进行线下强化学习:更新策略进行线上控制并采集道路交通数据以及控制信息;重复上述步骤迭代训练。本发明提出的既避免了通过微观仿真平台与实际交通条件的固有不匹配所带来的系统误差,也避免了完全线下学习的收敛问题,同时宏观交通模型提高了强化学习动作探索的效率,解决了实际环境中数据有限的问题,最终方案很大程度避免了交通拥堵,提高了交通运行的效率。
技术领域
本发明属于智能交通控制领域,涉及一种基于线下强化学习与宏观模型的匝道控制方法。
背景技术
强化学习技术在交通控制领域尤其是匝道控制中得到了广泛的探索。但目前的研究大多依赖以微观仿真平台以实现线上的探索和学习,对数据量要求极高。这使得强化学习很难应用到实际的交通控制中,而微观仿真与实际交通条件的区别也会使基于强化学习的匝道控制效果大打折扣。而完全的线下强化学习则很难收敛,同时通过固定策略获得的数据很难满足强化学习对状态和动作多样性的要求。
发明内容
技术问题:本发明提供一种能够在线上探索、宏观模型辅助以及线下强化学习的迭代中不断优化,能在有限的数据和学习周期内达到较好的效果的匝道控制方法。
技术方案:本发明的基于线下强化学习与宏观模型的匝道控制方法,包括以下步骤:
步骤10)获取高速公路几何参数,基于原有的控制策略进行匝道控制,获取每个控制周期的道路交通数据以及匝道控制信息,建立并标定宏观交通流模型;所述高速公路几何参数包括车道数和检测器间距,所述道路交通数据包括交通流量、平均速度、时间占有率以及交通密度,所述匝道控制信息为在定周期情况下匝道控制的红灯时长;
步骤20)在一个数据采集周期后,根据所采集的交通流量、平均速度、交通密度以及匝道控制信息,在宏观交通流模型中生成若干的合成强化学习数据,与该数据采集周期所采集的数据混合获得强化学习数据集;
步骤30)根据强化学习数据集,基于Q学习进行线下强化学习:
首先,获取相邻的状态,以及对应的动作和奖励,如果任一状态不在Q表中,则在Q表中增加该状态,根据相应的动作、奖励以及下一个状态的Q值,更新状态的Q值;其中状态由当前控制周期交织区上游平均流量、交织区上游平均速度、瓶颈下游检测器的占有率、匝道排队长度以及上一控制周期的红灯时长五个状态参数确定,动作定义为当前控制周期的红灯时长,奖励为当前控制周期路网总的输出流量;
步骤40)根据以下方法进行线上控制并采集道路交通数据以及匝道控制信息:如果实时交通状态已经在强化学习算法中被访问,则采取步骤30)的强化学习算法对应的最优动作控制,反之采取步骤10)的高速公路原有的控制策略。
步骤50)重复步骤20)、30)和40)迭代训练强化学习智能体,直到智能体访问的状态空间满足精度要求。
进一步的,本发明方法中,步骤10)和40)按照如下方式获取交通数据:
在高速公路以及匝道上,均布设有电磁感应线圈作为检测器,相邻两个电磁感应线圈的距离在500米到1500米之间;电磁感应线圈均布设在道路截面的所有车道上。
进一步的,本发明方法中,步骤10)按照如下方式建立并标定宏观交通流模型:在宏观交通流模型中,高速公路网络被划分为若干段,每一段的特征为每个用于标定的离散时间步长,即一个匝道控制周期内的交通密度、平均速度以及驶出路段的流量。
进一步的,本发明方法中,步骤20)通过以下流程获取强化学习数据:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111412067.2/2.html,转载请声明来源钻瓜专利网。