[发明专利]一种基于强化学习的农林用车辆的导航控制方法在审
申请号: | 202111493117.4 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114489038A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 张瑞瑞;张林焕;丁晨琛;杨琰;陈栋;姜舒文 | 申请(专利权)人: | 农芯(南京)智慧农业研究院有限公司;北京市农林科学院智能装备技术研究中心 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 合肥山高专利代理事务所(普通合伙) 34234 | 代理人: | 俞晓明 |
地址: | 211800 江苏省南京市浦口*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 农林 车辆 导航 控制 方法 | ||
1.一种基于强化学习的农林用车辆的导航控制方法,其特征在于:包括如下步骤:
1)将车辆的路径跟踪系统描述成马尔科夫决策过程(MDP);
2)建立状态空间及动作空间;
3)以神经网络的Q-Learning算法作为车辆的路径跟踪及避障控制器,通过对控制器进行示教训练,实现车辆的精准路径跟踪。
2.根据权利要求1所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述建立状态空间的步骤如下:
a1)通过GNSS获取车辆的位置坐标及航向信息;
a2)将参考路径等间隔的分成n段,在每两段的节点处取点,获取参考路径上距离车辆最近点的坐标和该点的切线方向,计算车辆与参考路径的距离误差edt和航向误差eθt;
a3)将上一个状态的车辆与参考路径的距离误差edt-1加入进状态空间;
a4)探测车辆前方是否有障碍物,并计算出车辆与障碍物之间的距离dt,则t时刻的状态空间表示为:St=[edt,eθt,edt-1,dt]。
3.根据权利要求2所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述建立动作空间的步骤如下:
b1)将车辆的速度设置成固定值;
b2)将车辆的转角设置在[-30,30]度之间,且转角取整数,则动作空间表示为:at=[et]。
4.根据权利要求3所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述控制器的示教训练过程如下:
c1)初始化神经网络的参数,即Q值;
c2)将车辆置于初始状态s,判断车辆是否到达最终状态;
c3)若未达到,则执行以下步骤:将当前状态信息输入神经网络,计算得到相应的Q值,选取最大Q值对应的动作a,根据选定的动作a,得到下一个状态s’以及一个奖励值;
c4)重复上述训练过程c1)、c2)和c3),通过对环境进行探索,并得到相应的奖励值,不断更新神经网络的权值,实现车辆进行路径跟踪。
5.根据权利要求4所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:根据所述奖励值建立奖励函数,将奖励函数设置成分段形式。
6.根据权利要求5所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:对所述奖励函数设置一个阈值,当车辆与参考路径的距离误差edt小于阈值,则为正奖励;当车辆与参考路径的距离误差edt大于阈值,则为负奖励。
7.根据权利要求6所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述航向误差eθt的奖励值的确定方法,包含如下步骤:
d1)确定农林用车辆相对于参考路径的位置;
d2)当不存在距离误差edt时,则航向误差eθt越小,奖励越高;
d3)当存在距离误差edt,同时存在航向误差eθt,但航向误差eθt致使车辆朝着参考路径靠近,则给其一个正奖励;
d4)当航向误差eθt致使车辆愈加远离参考路径,则应给其一个负奖励,以使车辆及时调整车轮转角,向参考路径的方向行进;
d5)当车辆撞上障碍物时,应给其一个负奖励,以避免车辆再次碰撞车辆。
8.根据权利要求1所述的一种基于强化学习的农林用车辆的导航控制方法,其特征在于:所述车辆上安装有激光雷达,所述控制器为RL控制器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于农芯(南京)智慧农业研究院有限公司;北京市农林科学院智能装备技术研究中心,未经农芯(南京)智慧农业研究院有限公司;北京市农林科学院智能装备技术研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111493117.4/1.html,转载请声明来源钻瓜专利网。