[发明专利]基于注意的分层变道深度强化学习有效
| 申请号: | 201910443618.8 | 申请日: | 2019-05-24 |
| 公开(公告)号: | CN110850861B | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | P·帕拉尼萨梅;U·P·穆达里格 | 申请(专利权)人: | 通用汽车环球科技运作有限责任公司 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 董均华;王丽辉 |
| 地址: | 美国密*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意 分层 深度 强化 学习 | ||
1.一种控制自动驾驶汽车的方法,其包括:
经由一个或多个驾驶员代理以及一个或多个对应的一个或多个驾驶环境处理器捕获在不同驾驶环境中的不同驾驶场景期间的驾驶体验,其中每个驾驶体验包括表示特定时间的特定驾驶环境的数据;
经由驾驶策略生成模块的一个或多个驾驶策略学习模块检索至少一些驾驶体验;
在一个或多个驾驶策略学习模块处理至少一些驾驶体验以学习和生成描述一个或多个策略的参数,其中每个策略规定了对于任何给定状态的动作空间中的分布,并且其中每个策略包括成组的参数,这些参数描述策略并且可由至少一个驾驶员代理处理以产生用于控制汽车的动作;
在所述一个或多个驾驶员代理中处理接收的至少一个候选策略的参数,并执行所述至少一个候选策略以产生相应的驾驶环境处理器观察到的在特定驾驶环境中控制汽车的一个或多个动作;以及
在低级控制器中处理每个动作以产生在所述特定驾驶环境中运行时控制汽车的控制信号。
2.根据权利要求1所述的方法,其中表示特定时间的特定驾驶环境的每个驾驶体验的数据包括:
由相应的驾驶环境处理器观察到的特定驾驶环境的状态;
使用至少部分可观察状态进行的观察;
由驾驶员代理产生的动作;
奖励包括:表示在特定环境条件下的特定时间由驾驶员代理执行的动作的期望程度的信号,其中基于从人类驾驶数据提取的道路规则和驾驶原则来自动计算该奖励或基于交通和道路规则使用其他适当的方法来定义该奖励;
驾驶员代理要实现的目标;
实例信息包括:指示在获取特定驾驶体验时由该驾驶员代理确定的驾驶体验的影响或优先级的信息;以及关于该特定驾驶体验的其他元信息;以及
在驾驶员代理在驾驶环境中执行动作之后产生的特定驾驶环境的下一状态;以及使用至少部分可观察的下一状态进行的下一次观察。
3.根据权利要求1所述的方法,其中经由一个或多个驾驶员代理处理至少一个候选策略的接收参数并执行所述至少一个候选策略以产生相应的驾驶环境处理器观察到的在特定驾驶环境中控制汽车的一个或多个动作包括:
在每个驾驶环境处理器处理来自车载传感器的传感器信息,所述传感器信息描述特定的驾驶环境以产生特定驾驶环境的状态;
在所述一个或多个驾驶员代理中的每一个根据策略处理所述状态以产生相应的动作;以及
其中在低级控制器处理每个动作以产生控制汽车的控制信号,用于在该特定驾驶环境中运行时控制汽车,包括:
在低级控制器转换每个动作以产生控制信号,用于控制汽车在该特定驾驶环境中的该状态下运行时自动控制汽车。
4.根据权利要求1所述的方法,其中每个驾驶策略学习模块包括深度强化学习DRL算法,其中在一个或多个驾驶策略学习模块处理至少一些驾驶体验包括:
在每个DRL算法中处理来自至少一些驾驶体验的输入信息以学习和生成输出包括:表示通过DRL开发的策略的成组的参数,并且其中每个策略可由至少一个驾驶员代理处理以产生用于控制汽车的动作。
5.根据权利要求4所述的方法,其中每个DRL算法包括:
基于策略梯度的强化学习算法;或基于值的强化学习算法;或基于行动者评价的强化学习算法,其中DRL算法的输出包括以下中的一个或多个:
(1)由状态/动作/优势值函数确定的状态/动作/优势的估计值;以及
(2)策略分布。
6.根据权利要求4所述的方法,其中每个驾驶策略学习模块还包括学习目标模块,其中在一个或多个驾驶策略学习模块处理至少一些驾驶体验还包括:
在每个学习目标模块上处理驾驶环境内驾驶员代理的轨迹步骤,以计算期望实现的期望学习目标,其中每个轨迹步骤包括:状态、观察、动作、奖励、下一状态和下一次观察,并且其中每个学习目标表示给定的驾驶体验所期望的动作的结果,其中每个学习目标包括以下中的至少一个:
值目标,其包括:需要实现的状态/动作/优势的估计值;以及
需要实现的策略目标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于通用汽车环球科技运作有限责任公司,未经通用汽车环球科技运作有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910443618.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于基于路径位置验证用户的系统和方法
- 下一篇:具有夹具保持系统的球窝组件





