[发明专利]一种基于深度强化学习的自动泊车方法有效
申请号: | 202010552372.0 | 申请日: | 2020-06-17 |
公开(公告)号: | CN111645673B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 龙强;陶顺波 | 申请(专利权)人: | 西南科技大学 |
主分类号: | B60W30/06 | 分类号: | B60W30/06;B60W50/00 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 张小娟 |
地址: | 621010 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 自动 泊车 方法 | ||
本发明提供了一种基于深度强化学习的自动泊车方法,本发明的基本思想是使用深度学习强大的感知能力来感知汽车的当前状态,即感知汽车和停车位的相对位置关系,然后把汽车的状态输入进深度确定性策略梯度模型,利用强化学习的决策能力得到在该状态下需要执行的动作,把需要执行的动作输入环境模型得到下一状态和奖励函数值,然后通过一个奖励机制去评价刚刚执行的动作的好坏,并引导汽车朝着停车点的方向行驶,在下一个状态重复执行前面的操作,直到模型收敛,即汽车准确泊达车位。本发明通过以上设计,解决了现在的自动泊车系统无法做到和环境的实时交互,以及无法实现在任意地点和任意角度开始泊车的问题。
技术领域
本发明属于汽车技术领域,尤其涉及一种基于深度强化学习的自动泊车方法。
背景技术
随着汽车行业的不断发展和汽车保有量的不断增加,城市的停车困难问题越来越严重,自动泊车技术开始得到发展。自动泊车不仅可以解放双手、方便人们的生活,还能减轻城市的停车压力,降低泊车过程中的安全隐患,在城市建设中具有非常重要的作用。
现在自动泊车系统的主要研究是根据传感器检测到的停车位来规划停车路径,然后根据路径跟踪模块来引导汽车去跟随规划的泊车路线。但是,泊车过程是一个动态过程,需要不断的和周围的环境进行实时交互才能保证在泊车过程中应对突然出现的障碍物,而现在的自动泊车系统不能在泊车的过程中实现和环境的实时交互,不能保证泊车过程中的汽车和人员的安全。同时,在一些使用深度强化学习算法的系统中也只能在规定的地点、特定方向上进行停车,具有很大的限制,无法做到全自动泊车。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于深度强化学习的自动泊车方法,解决了现在的自动泊车系统无法做到和环境的实时交互,以及无法实现在任意地点和任意角度开始泊车的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于深度强化学习的自动泊车方法,包括以下步骤:
S1、随机初始化汽车的开始状态;
S2、对汽车的开始状态进行数据归一化处理,并利用深度确定性策略梯度模型计算得到汽车在当前状态下所需执行的动作;
S3、将所述汽车在当前状态下所需执行的动作输入至模拟环境模型,得到汽车的下一状态以及奖励函数值;
S4、收集汽车的当前状态、奖励函数值、下一状态以及执行动作,并作为一条数据存储于深度确定性策略梯度模型的经验回放池中;
S5、判断经验回放池是否收集满10000条数据,若是,则执行步骤S6,若否,则返回步骤S1;
S6、随机从经验回放池中抽取30条数据对所述深度确定性策略梯度模型进行训练,并判断深度确定性策略梯度模型是否收敛,若是,则深度确定性策略梯度模型训练完毕,并进入步骤S7,否则,利用经验回放池中的数据再次训练深度确定性策略梯度模型,并重复步骤S6;
S7、将汽车当前状态输入至训练好的深度确定性策略梯度模型,得到汽车在当前状态下所需执行的动作;
S8、将当前所需执行的动作输入至汽车,并让汽车与环境进行交互转移至汽车下一状态;
S9、判断汽车的下一状态是否处于泊车到位的状态,若是,则完成自动泊车,否则,返回步骤S7。
进一步地,所述步骤S2中深度确定性策略梯度模型包括:Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络以及经验回放池,其中,
所述Actor当前网络,用于负责策略网络参数的迭代更新,以及根据汽车当前状态选择当前动作,以及用于和环境交互生成下一状态和奖励函数值;
所述Actor目标网络,用于根据经验回放池中的汽车下一状态选择最优的下一动作;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010552372.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑工地用便捷式打桩装置
- 下一篇:一种飞机环控系统试验引气管道加湿系统