[发明专利]EADP控制器的离线训练方法和系统及其在线控制方法和系统有效
申请号: | 201511009719.2 | 申请日: | 2015-12-29 |
公开(公告)号: | CN105513380B | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 王飞跃;刘裕良;吕宜生;段艳杰;陈松航 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G08G1/08 | 分类号: | G08G1/08;G08G1/01 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于交叉路口交通信号控制的EADP控制器离线训练方法和系统以及EADP控制器在线控制方法和系统。其中,该方法包括:根据得到的系统状态和构建好的各子ADP控制器的Action网络和Critic网络,确定回报函数、系统控制参数和性能指标;并根据性能指标和回报函数交替地训练各子ADP控制器的Critic网络以及根据性能指标和系统控制参数交替地训练各子ADP控制器的Action网络,以更新Critic网络的权值和Action网络的权值;确定在训练达到训练目标时,记录各子ADP控制器的Action网络的权值和Critic网络的权值。通过本发明实施例解决了传统ADP控制器稳定性难以保证的技术问题,进而实现了对交通信号的自适应控制。 | ||
搜索关键词: | eadp 控制器 离线 训练 方法 系统 及其 在线 控制 | ||
【主权项】:
1.一种用于交叉路口交通信号控制的EADP控制器离线训练方法,其中,所述EADP控制器包括多个子ADP控制器,其特征在于,所述方法至少包括:获取所述交叉路口的系统状态;构建所述各子ADP控制器的Action网络和Critic网络;根据所述系统状态和所述各子ADP控制器的Action网络和Critic网络,确定回报函数、系统控制参数和性能指标;根据所述性能指标和所述回报函数交替地训练各子ADP控制器的Critic网络以及根据所述性能指标和所述系统控制参数交替地训练所述各子ADP控制器的Action网络,以更新所述Critic网络的权值和所述Action网络的权值;确定上述训练达到训练目标时,记录所述各子ADP控制器的所述Action网络的权值和所述Critic网络的权值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201511009719.2/,转载请声明来源钻瓜专利网。
- 上一篇:增强现实的方法及装置
- 下一篇:一种智能交通路况信息采集装置