[发明专利]一种用于高速公路的驾驶行为决策方法有效

申请号：	202110702406.4	申请日：	2021-06-24
公开（公告）号：	CN113253739B	公开（公告）日：	2021-11-02
发明（设计）人：	周锐;胡文;张晓东;李金广;叶梓豪;孙佳优;郭浩文	申请（专利权）人：	深圳慧拓无限科技有限公司
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	北京力量专利代理事务所(特殊普通合伙) 11504	代理人：	徐颖超
地址：	518057 广东省深圳市宝安区新桥街道上***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于高速公路驾驶行为决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种用于高速公路的驾驶行为决策方法，包括如下步骤：将自动驾驶车辆在高速公路上的决策过程定义为部分可观测的马尔可夫决策过程；定义自动驾驶车辆的策略；训练自动驾驶车辆；将自动驾驶车辆神经网络模型部署于车载终端，并实现驾驶行为决策。本发明所述的高速公路的驾驶行为决策方法，具备自主学习能力，且能够在反复学习后进行自主决策引导车辆正确驾驶。

技术领域

本发明属于智能驾驶领域，具体涉及一种用于高速公路的驾驶行为决策方法。

背景技术

自动驾驶技术是智能交通的核心技术，能够极大的提高车辆安全性和道路的运输能力。自动驾驶的功能实现可以分为环境感知、决策规划、车辆控制三个模块。环境感知负责监测环境中的障碍物，相当于人类驾驶员的感官。决策规划模块根据感知信息做出变道、跟车、加速等驾驶决策，并规划出一条安全的可行驶轨迹。车辆控制模块控制转向、油门和制动踏板实现轨迹的跟踪。

决策规划功能是自动驾驶车辆智能化程度的主要体现，一个拟人化程度高的决策系统能大大提高智能车的安全性和乘坐舒适性以及周尾交通参与者的接收度。目前常用的决策规划方法大致可以分为基于规则的方法和基于学习的方法以及两者的结合。基于规则的方法包括有限状态机模型、决策树模型等。首先按照一定的经验和规则将行驶环境划分为不同等级的子场景，对不同的场景设定不同的驾驶决策，实际行驶过程进行搜索决策。基于学习的方法包括基于深度学习和强化学习的决策方法。将驾驶环境抽象为状态量，通过构建复杂的神经网络将状态空间映射至驾驶行为，通过仿真或实车驾驶数据来训练网络。

强化学习因其强大的自主学习能力被广泛地应用于决策规划技术。强化学习是基于行为主义心理学的方法，不需要大量带有标签的训练数据，通过不断地与环境交互，从环境中获取状态动作的奖励反馈，从而学习到具有最大奖励值的状态和动作，以实现最优任务规划。强化学习在应用于多目标的决策问题时，最关键的问题是如何设置合理的奖励函数。目前研究较多的用于复杂环境下部分可观测Markov决策问题的强化学习有基于值函数的DQN和基于策略梯度的DDPG算法。

鉴于此，目前亟待提出一种具有自主学习能力的用于高速公路的驾驶行为决策方法。

发明内容

为此，本发明所要解决的技术问题是提供一种具备自主学习能力、学习能力好的高速公路的驾驶行为决策方法。

本发明的高速公路的驾驶行为决策方法，包括：

S1,将自动驾驶车辆在高速公路上的决策过程定义为部分可观测的马尔可夫决策过程；

S2，定义自动驾驶车辆的策略；

S3，训练自动驾驶车辆；

S4，将自动驾驶车辆神经网络模型部署于车载终端，并实现驾驶行为决策。

进一步的步骤S1的具体过程为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳慧拓无限科技有限公司，未经深圳慧拓无限科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】