[发明专利]一种汽车的自动驾驶方法及装置在审
申请号: | 201710156331.8 | 申请日: | 2017-03-16 |
公开(公告)号: | CN107168303A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 夏伟;李慧云 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 深圳青年人专利商标代理有限公司44350 | 代理人: | 傅俏梅 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汽车 自动 驾驶 方法 装置 | ||
技术领域
本发明属于汽车自动驾驶技术领域,尤其涉及一种汽车的自动驾驶方法及装置。
背景技术
近年来,随着经济的发展和城镇化的推进,全球汽车保有量和道路里程逐步增加,诸如交通拥堵、事故、污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。智能汽车技术被视为有效解决方案,其发展备受瞩目。美国电气和电子工程师协会(IEEE)预测,至2040年自动驾驶车辆所占的比例将达到75%。
市面上已经出现了多种用于辅助驾驶系统的传感器和产品,比如:激光雷达、自适应巡航系统、车辆接近通报装置、夜视辅助装置、自适应前照明系统等,而目前辅助驾驶系统中使用的控制方法都是基于规则的控制决策,即根据已知的驾驶经验,构建对车况信息输出控制决策的专家规则系统。然而,自动驾驶场景类别多样,路况复杂,自动驾驶中高度复杂的场景很难用有限的规则来定义清楚,因此,传统的控制方法往往难以满足自动驾驶的要求。类似专家规则系统利用了浅层学习算法,浅层学习算法可以看作是从被标记的数据之间寻找规则的过程,当规则很难被抽象成公式或简单逻辑之时,浅层学习算法就难以达到预定的效果。深度学习算法对感知有非常强的能力,在图像识别、语音识别等领域已经取得了极大的突破,然而,深度学习算法并不能把这种感知转化为决策能力。
发明内容
本发明的目的在于提供一种汽车的自动驾驶方法及装置,旨在解决由于现有技术无法提供一种有效的自动驾驶动作决策方法,导致自动驾驶汽车在面临驾驶场景类别多样、路况复杂时难以做出及时、有效的驾驶动作的问题。
一方面,本发明提供了一种汽车的自动驾驶方法,所述方法包括下述步骤:
通过汽车上预设的传感器获取所述汽车当前位置的汽车状态;
根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值,所述策略网络模型通过预设的深度强化学习算法建立;
将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。
另一方面,本发明提供了一种汽车的自动驾驶装置,所述装置包括:
状态获取单元,用于通过汽车上预设的传感器获取所述汽车当前位置的汽车状态;
回报值获取单元,用于根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值,所述策略网络模型通过预设的深度强化学习算法建立;以及
动作执行单元,用于将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。
本发明通过汽车上预设的传感器获取汽车当前位置的汽车状态,根据该汽车状态和预先通过深度强化学习算法建立的策略网络模型,获取汽车当前可用驾驶动作的回报值,将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行,从而在面临驾驶场景类别多样、路况复杂时及时、有效地获取到较优的驾驶动作并执行,实现汽车的自动驾驶。
附图说明
图1是本发明实施例一提供的汽车的自动驾驶方法的实现流程图;
图2是本发明实施例一提供的汽车的自动驾驶方法的实现示意图;
图3是本发明实施例二提供的汽车的自动驾驶装置的结构示意图;以及
图4是本发明实施例三提供的汽车的自动驾驶装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的汽车的自动驾驶方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,通过汽车上预设的传感器获取汽车当前位置的汽车状态。
本发明实施例适用于汽车、汽车上的自动驾驶平台或设备,汽车状态是指汽车行驶过程中的一种状态,可用汽车轮胎、方向盘、发动机等各部件的当前参数值表示,具体可从汽车上设置或安装的各类传感器(例如,雷达、超声、视觉传感器等)获取。作为示例地,状态可通过表示汽车离道路中线的距离、汽车前进方向与道路切向的夹角以及汽车在道路切向上的速度分量等参数进行表示。
在步骤S102中,根据汽车状态和预先建立的策略网络模型,获取汽车当前可用驾驶动作的回报值,策略网络模型通过预设的深度强化学习算法建立。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710156331.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种继电保护功能模块自动识别配置方法及装置
- 下一篇:一种割草机器人控制方法