[发明专利]一种基于强化学习的智能自动驾驶控制方法有效
申请号: | 202110763054.3 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113359771B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 颜宇;王广玮 | 申请(专利权)人: | 贵州大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 北京博海嘉知识产权代理事务所(普通合伙) 16007 | 代理人: | 郝彦东 |
地址: | 55000*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 智能 自动 驾驶 控制 方法 | ||
本发明属于自动驾驶控制方法技术领域,具体涉及一种基于强化学习的智能自动驾驶控制方法,通过使用开源的物理引擎PyBullet建立模拟环境,设计以圈速为评价标准的自动驾驶赛车任务,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;将设计的任务转化为一个部分可观测的马尔可夫决策过程;基于python语言,利用Tensorflow框架,建立Dreamer算法模型;对输入的激光雷达信息进行预处理等处理过程,实现自动驾驶算法的快速训练,不需要设计复杂的控制策略和调试控制参数,且具有良好的泛化性和迁移性,可以适应不同的模拟与现实环境,有良好的自动驾驶效果。
技术领域
本发明涉及自动驾驶控制方法技术领域,具体领域为一种基于强化学习的智能自动驾驶控制方法。
背景技术
汽车工业朝着共享化、电动化、网联化、智能化的方向快速发展,人工智能技术在智能驾驶方向表现出了极大的价值与潜力,其中,深度强化学习(deep reinforcementlearning,DRL)算法可以使智能体不断学习和表示环境的状态,并在每个给定的时刻给出当前最佳的行动方案,这也促使了智能自动驾驶汽车技术的发展,自动驾驶汽车又称无人驾驶汽车,是一种通过自动驾驶系统实现无人驾驶的智能汽车,在21世纪初已经呈现出接近实用化的趋势。自动驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让汽车可以在没有任何人类主动的操作下,自动安全地操作机动车辆。然而现有的自动驾驶控制方法具有策略制定复杂、控制参数调试繁琐及环境适应性差的问题,为此提出一种基于强化学习的智能自动驾驶控制方法。
发明内容
本发明的目的在于提供一种基于强化学习的智能自动驾驶控制方法以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于强化学习的智能自动驾驶控制方法,其方法包括如下步骤:
S1:使用开源的物理引擎PyBullet建立模拟环境,设计以圈速为评价标准的自动驾驶赛车任务,完成一圈赛道的自动驾驶,并且不发生任何碰撞,建立一个基于URDF模型的刚体汽车模型,并利用汽车模型模拟激光雷达的输入;
S2:将设计的任务转化为一个部分可观测的马尔可夫决策过程;
S3:基于python语言,利用Tensorflow框架,建立Dreamer算法模型;
S4:对输入的激光雷达信息进行预处理,使用处理后的激光雷达点云距离信息作为观测模型,观测模型使用多层感知器,计算每条激光射线高斯分布的平均值和标准差,通过观测模型学习基于潜在想象空间的状态序列的策略,进而利用演员-评论家算法训练智能体,其中,动作模型用来综合每个潜在状态对应的最佳动作,价值模型则用来评估每个潜在状态对应的价值:
动作模型:qφ(at|st)
价值模型:qψ(vt|st)
S5:对地图做预处理,首先将地图栅格化,接着将地图上各个位置与起点之间距离标准化,每个位置得到的进度便是赛车已经行驶的距离与赛道总长度的比值,设计如下奖励函数:
c*|st-st-1|=c*Δst
其中,st代表在t时刻车辆行驶的进度,c是常数;如果车辆与赛道边缘或障碍物发生碰撞,会得到-1的惩罚值,同时当前回合也会终止;
S6:在智能体每个训练回合的开始阶段,将赛车随机放置在赛道上,将每个动作都会被重复数次,训练结束后,将赛车放在赛道的起点位置,进行算法的评估,上述过程多次循环后,有效提高评估潜在环境和提高动作的有效性训练结束,得到最终的训练结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110763054.3/2.html,转载请声明来源钻瓜专利网。