[发明专利]驾驶策略生成方法、装置、介质、设备及仿真系统有效
申请号: | 202011303762.0 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112382165B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 吴伟;段雄;郎咸朋 | 申请(专利权)人: | 北京罗克维尔斯科技有限公司 |
主分类号: | G09B9/04 | 分类号: | G09B9/04;G06F30/27;G06F119/14 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曹寒梅 |
地址: | 101300 北京市顺义区高丽营*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 驾驶 策略 生成 方法 装置 介质 设备 仿真 系统 | ||
1.一种应用于仿真系统的驾驶策略生成方法,其特征在于,所述方法包括:
从仿真系统生成的仿真数据中,获取目标仿真车辆对应于目标仿真时刻的目标环境信息和目标车辆信息,所述目标车辆信息包括所述目标仿真车辆在所述目标仿真时刻的目标位置;
获取与所述目标仿真车辆对应的目标地图信息,所述目标地图信息取自高精地图;
将所述目标环境信息、所述目标车辆信息和所述目标地图信息输入至决策模型,获得所述决策模型输出的目标控制策略,其中,所述决策模型是根据所述仿真系统生成的仿真数据、通过强化学习方式训练而获得的;
根据所述目标控制策略,通过所述仿真系统对所述目标仿真车辆进行仿真控制;
其中,所述决策模型通过如下方式获得:
从所述仿真系统生成的仿真数据中,获取所述目标仿真车辆对应于第一历史仿真时刻的第一环境信息、第一车辆信息和第一地图信息;
将所述第一环境信息、所述第一车辆信息和所述第一地图信息输入至本次训练所使用的初始模型,获得所述初始模型输出的第一控制策略;
根据所述第一控制策略,通过所述仿真系统对所述目标仿真车辆进行仿真控制;
从所述仿真系统生成的仿真数据中,获取所述目标仿真车辆在第二历史仿真时刻对应的指定车辆参数,作为第一实际车辆参数,其中,所述第二历史仿真时刻为所述第一历史仿真时刻的下一仿真时刻;
获取所述目标仿真车辆对应于第二历史仿真时刻的理想车辆参数,作为第一参考车辆参数;
根据所述第一实际车辆参数和所述第一参考车辆参数二者之间的偏差程度,确定本次训练的奖励函数值;
根据所述奖励函数值对所述初始模型进行优化,以获得所述决策模型。
2.根据权利要求1所述的方法,其特征在于,通过如下方式获取所述目标地图信息:
在高精地图中,确定包含所述目标位置在内的预设面积的地图区域;
将所述地图区域对应的地图信息作为所述目标地图信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标控制策略,通过所述仿真系统对所述目标仿真车辆进行仿真控制,包括:
根据所述目标控制策略,通过车辆动力学模型,确定对所述目标仿真车辆进行仿真控制的仿真结果;
根据所述仿真结果,生成所述目标仿真车辆在所述目标仿真时刻的下一仿真时刻对应的环境信息和车辆信息,并存储至所述仿真系统中。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述目标控制策略,通过所述仿真系统对所述目标仿真车辆进行仿真控制的步骤之后,所述方法还包括:
从所述仿真系统生成的仿真数据中,获取所述目标仿真车辆在所述目标仿真时刻的下一仿真时刻对应的指定车辆参数,作为第二实际车辆参数;
获取所述目标仿真车辆对应于所述目标仿真时刻的下一仿真时刻的理想车辆参数,作为第二参考车辆参数;
根据所述第二实际车辆参数和所述第二参考车辆参数二者之间的偏差程度,对所述决策模型进行优化,以获得优化后的决策模型。
5.根据权利要求1或4所述的方法,其特征在于,指定车辆参数包括以下中的至少一者:曲率、位置、转向角、与周边车辆的距离。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述目标环境信息包括:目标仿真车辆周边车辆的信息、目标仿真车辆周边行人的信息、目标仿真车辆周边的道路信息、目标仿真车辆周边的障碍物信息;
所述目标车辆信息还包括:目标仿真车辆的姿态;
所述目标控制策略包括针对以下至少一者的控制策略:方向盘、油门、刹车。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京罗克维尔斯科技有限公司,未经北京罗克维尔斯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011303762.0/1.html,转载请声明来源钻瓜专利网。