[发明专利]一种获取多维随机分布及强化控制器的方法和装置有效
| 申请号: | 201711091328.9 | 申请日: | 2017-11-08 |
| 公开(公告)号: | CN109752952B | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 陈晨;钱俊 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04;G05D1/02 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 获取 多维 随机 分布 强化 控制器 方法 装置 | ||
1.一种获取多维随机分布的方法,所述多维随机分布用于强化控制器模型,其特征在于,包括:
获取历史驾驶数据,所述历史驾驶数据包括执行目标基本动作的底层控制指令;
处理所述历史驾驶数据得到多个控制指令样本,所述多个控制指令样本中每一控制指令样本为由具有时序的底层控制指令构成的用于执行所述目标基本动作的控制指令序列;
根据所述多个控制指令样本得到平均控制指令,所述平均控制指令用于指示由控制值处于平均水平且具有时序的底层控制指令构成的用于执行所述目标基本动作的控制指令序列;
根据所述平均控制指令和所述多个控制指令样本得到多维随机分布,所述多维随机分布为围绕所述平均控制指令在一定范围内扰动的期望函数分布。
2.如权利要求1所述方法,其特征在在于,在所述根据所述多个控制指令样本得到平均控制指令之前,还包括:
统计所述多个控制指令样本中每一控制指令样本的控制指令序列的指令长度,所述指令长度用于指示具有时序的底层控制指令的数量;
根据所述多个控制指令样本中每一控制指令样本的控制指令序列的指令长度计算平均指令长度,所述平均指令长度用于指示根据所述多个控制指令样本中每一控制指令样本中的控制指令序列的指令长度得到的平均值、中位数或最大值;
将所述多个控制指令样本中每一控制指令样本的控制指令序列的指令长度处理成所述平均指令长度;
所述根据所述多个控制指令样本得到平均控制指令包括:
根据指令长度处理后的多个控制指令样本得到所述平均控制指令,所述平均控制指令的指令长度为所述平均指令长度;
所述根据所述平均控制指令和所述多个控制指令样本得到多维随机分布包括:
根据所述平均控制指令和指令长度处理后的多个控制指令样本得到所述多维随机分布。
3.如权利要求1或2所述的方法,其特征在于,所述多个控制指令样本中每一控制指令样本的控制指令序列包含至少一个控制指令串,所述至少一个控制指令串中每一控制指令串由具有时序的同一类型的底层控制指令构成,所述至少一个控制指令串中每个控制指令串的底层控制指令的数量相等且时序对应。
4.如权利要求3所述的方法,其特征在于,所述指令长度用于指示所述至少一个控制指令串中任一控制指令串的底层控制指令的数量。
5.如权利要求1-2任选一所述的方法,其特征在于,所述底层控制指令包括加速度参数、转角参数、刹车参数中一个或多个。
6.如权利要求1-2任选一所述的方法,其特征在于,还包括强化学习;
所述强化学习包括:
根据所述多维随机分布生成第一控制指令;
获取当前路况状态数据并将所述当前路况数据输入所述控制器模型生成第二控制指令;
确定所述第一控制指令或所述第二控制指令为实际控制指令,所述实际控制指令用于控制目标车辆执行所述目标基本动作;
根据所述实际控制指令控制所述目标车辆执行所述目标基本动作;
根据所述目标车辆执行所述目标基本动作后的路况状况数据得到回报参数值;
根据所述回报参数值修正所述控制器模型的控制参数值。
7.如权利要求6所述的方法,其特征在于,所述确定所述第一控制指令或所述第二控制指令为实际控制指令包括:
根据概率随机确定所述第一控制指令或所述第二控制指令为所述实际控制指令,其中,以第一概率确定所述第一控制指令为所述实际控制指令,以第二概率确定所述第二控制指令为所述实际控制指令。
8.如权利要求7所述的方法,其特征在于,重复执行所述强化学习,其中,所述第一概率随着重复次数增加越来越小,所述第二概率随着重复次数增加越来越大。
9.如权利要求7或8所述的方法,其特征在于,所述第一概率与所述第二概率的和等于1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711091328.9/1.html,转载请声明来源钻瓜专利网。





