[发明专利]一种基于强化学习和规则确定驾驶策略的方法与设备有效

申请号：	201711257834.0	申请日：	2017-12-01
公开（公告）号：	CN108009587B	公开（公告）日：	2021-04-16
发明（设计）人：	许稼轩;周小成	申请（专利权）人：	驭势科技（北京）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08
代理公司：	上海三和万国知识产权代理事务所(普通合伙) 31230	代理人：	周建华
地址：	102400 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习规则确定驾驶策略方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习和规则确定驾驶策略的方法，其中，所述方法包括：

基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；所述驾驶参数信息包括反映车辆行驶环境和车辆行驶状态的信息；

基于所述驾驶参数信息及车辆的驾驶规则信息，确定所述车辆的第二驾驶策略信息；所述驾驶规则信息为基于输入的驾驶参数信息或历史驾驶参数信息，输出驾驶策略的规则；

基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测；

所述合理性检测包括：对第二驾驶策略信息和第一驾驶策略信息进行相似性检测；

若所述第二驾驶策略信息与所述第一驾驶策略信息的距离小于预定阈值，将第一驾驶策略信息确定为所述车辆的目标驾驶策略信息；反之，将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息；其中，所述距离基于所述第一驾驶策略信息与所述第二驾驶策略信息中相同策略参数的差值确定。

2.根据权利要求1所述的方法，其中，所述驾驶参数信息包括以下至少任一项：

车辆的速度信息；

车辆的偏离轨道方向信息；

车辆与轨道中心线的距离信息；

车辆与轨道边沿的距离信息；

障碍物感知信息；

交通标志感知信息。

3.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述目标驾驶策略信息执行自动驾驶操作。

4.根据权利要求1所述的方法，其中，所述方法还包括：

基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值。

5.根据权利要求4所述的方法，其中，所述基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值包括：

若基于所述合理性检测的检测结果，确定的所述车辆的目标驾驶策略信息不包括第一驾驶策略信息，设置强化学习算法对应的回馈函数值为负数。

6.一种基于强化学习和规则确定驾驶策略的设备，其中，所述设备包括：

第一驾驶策略信息确定装置，用于基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；所述驾驶参数信息包括反映车辆行驶环境和车辆行驶状态的信息；

检测装置，用于基于所述驾驶参数信息及车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；所述驾驶规则信息为基于输入的驾驶参数信息或历史驾驶参数信息，输出驾驶策略的规则；所述合理性检测包括：对第二驾驶策略信息和第一驾驶策略信息进行相似性检测；

目标驾驶策略信息确定装置，用于若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值，将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息；其中，所述距离基于所述第一驾驶策略信息与所述第二驾驶策略信息中相同策略参数的差值确定；

其中，所述检测装置包括：

第一单元，用于基于所述驾驶参数信息及车辆的驾驶规则信息，确定所述车辆的第二驾驶策略信息；

第二单元，用于基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测。

7.根据权利要求6所述的设备，其中，所述驾驶参数信息包括以下至少任一项：

车辆的速度信息；

车辆的偏离轨道方向信息；

车辆与轨道中心线的距离信息；

车辆与轨道边沿的距离信息；

障碍物感知信息；

交通标志感知信息。

8.根据权利要求6所述的设备，其中，所述设备还包括：

执行装置，用于基于所述目标驾驶策略信息执行自动驾驶操作。

9.根据权利要求6所述的设备，其中，所述设备还包括：

更新装置，用于基于所述合理性检测的检测结果，更新所述强化学习算法对应的回馈函数值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于驭势科技（北京）有限公司，未经驭势科技（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711257834.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习和规则确定驾驶策略的方法与设备有效

专利文献下载