[发明专利]基于注意的分层变道深度强化学习有效
| 申请号: | 201910443618.8 | 申请日: | 2019-05-24 |
| 公开(公告)号: | CN110850861B | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | P·帕拉尼萨梅;U·P·穆达里格 | 申请(专利权)人: | 通用汽车环球科技运作有限责任公司 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02 |
| 代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 董均华;王丽辉 |
| 地址: | 美国密*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 注意 分层 深度 强化 学习 | ||
一种基于注意的分层变道深度强化学习。提供了生成自动驾驶策略的系统和方法。该系统可包括成组的自动驾驶员代理,以及驾驶策略生成模块,其包括成组的驾驶策略学习模块,用于基于驾驶员代理收集的集体体验生成和改进策略。驾驶员代理可收集驾驶体验以创建知识库。驾驶策略学习模块能够处理集体驾驶体验以提取驾驶策略。驾驶员代理可以经由驾驶策略学习模块以并行和分布的方式进行训练,以便更快更高效地找到新型的高效驾驶策略和行为。并行和分布式学习能够加快多个自动智能驾驶员代理的训练。
技术领域
本发明一般涉及自动车辆,更具体地涉及用于控制自动驾驶汽车的自动驾驶汽车控制器、自动驾驶汽车控制系统和相关方法。该自动驾驶汽车系统、方法和控制器实现收集驾驶体验的自动驾驶员代理以及生成并改进提供给自动驾驶员代理并由自动驾驶员代理用于控制自动驾驶汽车的策略的驾驶策略学习器。
背景技术
自动驾驶汽车是一种能够感知其环境并在用户输入很少或没有的情况下导航的汽车。自动驾驶汽车包括智能控制自动驾驶汽车的自动驾驶系统(ADS)。传感器系统使用诸如雷达、激光雷达、图像传感器等传感装置来感知其环境。ADS还可以处理来自全球定位系统(GPS)技术、导航系统、车间通信、汽车对基础设施技术和/或线控驾驶系统的信息,以便汽车导航。
汽车自动化已被分类为从零到五的数字等级,零对应于无自动化,完全人为控制,五对应于完全自动化,无人为控制。各种自动驾驶辅助系统,例如巡航控制、自适应巡航控制和停车辅助系统,对应于较低的自动化等级,而真正的“无人驾驶”汽车对应于较高的自动化等级。目前,有许多不同的自动驾驶汽车控制方法,但都存在缺点。
现在提出的许多能够提供更高自动化等级的自动驾驶汽车需要外部监督和/或标记数据。而且,许多自动驾驶汽车系统在没有监督或外部标记数据的情况下是不可扩展的。例如,自动驾驶汽车系统的深度学习系统不可扩展,因为它们依赖于标记数据,标记数据的创建过于耗时耗力。对实现这种自动驾驶汽车的神经网络在所有环境或用例中实现汽车可靠性的训练和验证是一项艰巨的工程任务。
因此,希望提供可靠、易于训练和验证等的自动驾驶汽车的控制系统和方法。此外,结合附图及上述技术领域和背景技术,本发明的其他期望特征和特性将从后续具体实施方式和所附权利要求中变得显而易见。
发明内容
提供了控制自动驾驶汽车的系统、方法和控制器。在一实施例中,提供了一种方法,包括:经由一个或多个驾驶员代理以及一个或多个对应的一个或多个驾驶环境处理器捕获在不同驾驶环境中的不同驾驶场景期间的驾驶体验,其中每个驾驶体验包括表示特定时间的特定驾驶环境的数据;经由驾驶策略生成模块的一个或多个驾驶策略学习器,检索至少一些驾驶体验;在一个或多个驾驶策略学习模块处理至少一些驾驶体验以学习和生成描述一个或多个策略的参数,其中每个策略规定了对于任何给定状态的动作空间中的分布,并且其中每个策略包括成组的参数,这些参数描述策略并且可由至少一个驾驶员代理处理以产生用于控制汽车的动作;在该一个或多个驾驶员代理中处理接收的至少一个候选策略的参数,并执行该至少一个候选策略以产生相应的驾驶环境处理器观察到的在特定驾驶环境中控制汽车的一个或多个动作;以及在低级控制器中处理每个动作以产生在该特定驾驶环境中运行时控制汽车的控制信号。
在一实施例中,每个驾驶体验的数据(表示特定时间的特定驾驶环境)包括:由相应的驾驶环境处理器观察到的特定驾驶环境的状态;使用至少部分可观察状态进行的观察;由驾驶员代理产生的动作;奖励包括:表示在特定环境条件下的特定时间由驾驶员代理执行的动作的期望程度的信号,其中基于从人类驾驶数据提取的道路规则和驾驶原则来自动计算该奖励或基于交通和道路规则使用其他适当的方法来定义该奖励;驾驶员代理要实现的目标;实例信息包括:指示在获取特定驾驶体验时由该驾驶员代理确定的驾驶体验的影响或优先级的信息;以及关于该特定驾驶体验的其他元信息;以及在驾驶员代理在驾驶环境中执行动作之后产生的特定驾驶环境的下一状态;以及使用至少部分可观察的下一状态进行的下一观察。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于通用汽车环球科技运作有限责任公司,未经通用汽车环球科技运作有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910443618.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于基于路径位置验证用户的系统和方法
- 下一篇:具有夹具保持系统的球窝组件





