[发明专利]一种基于强化学习的复合避障控制方法及装置在审
申请号: | 202210715312.5 | 申请日: | 2022-06-23 |
公开(公告)号: | CN115933630A | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 穆朝絮;王珂;孙长银 | 申请(专利权)人: | 天津大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 复合 控制 方法 装置 | ||
本发明公开了一种基于强化学习的复合避障控制方法及装置,能够以自适应方式为自主无人系统生成安全运动轨迹;其方法包括:构建避障环境和用于障碍规避的最优控制模型;设计方法切换规则以实现复合避障控制;构建基于行为‑评价神经网络和强化学习的避障控制策略;利用外推获取经验数据并确定自适应网络更新规则;装置包括:障碍检测器、微处理器、存储器和驱动组件;发明公开的复合避障控制方法结合了策略迭代法和状态跟随法的优点,兼具区域优化功能和局部避障功能,可以引导无人系统有效避开障碍物到达目标点。
技术领域
本发明涉及强化学习和最优控制领域,更具体地,涉及一种基于强化学习的复合避障控 制方法及装置。
背景技术
近年来,以强化学习为代表的人工智能技术极大促进了自主无人系统的发展和应用,例 如无人车、无人机等。这类运动系统在执行任务时通常面临着复杂的障碍环境,顺利完成任 务需要可靠的避障控制方法。为了能够实现在线快速决策,局部避障方法受到了广泛关注, 例如人工势场法等。
局部避障方法仅以安全避障为控制目标,没有考虑控制策略在整个运动轨迹上的最优性, 其优化性有待进一步提升。因此,基于强化学习的智能控制方法为解决这个问题提供了一种 思路,即利用神经网络和策略迭代实现控制策略的近似求解。
尽管许多研究已经提出了一些基于强化学习的避障控制方案,但是,这些方法仍然存在 一些问题,例如奖励设置定义不清晰、无法在策略优化中平衡局部安全性、自主探索中对数 据的利用率仍然不高。因此,迫切需要开发一种新型的避障控制方法以满足实际使用。
发明内容
本发明提供了一种基于强化学习的复合避障控制方法及装置,用以实现自主无人系统的 安全避障问题。该方法包含一个线性凸组合框架,该框架兼顾了区域最优性和局部避障性, 并基于行为-评价网络(ACNN)结构获得了基于强化学习的避障控制策略,具体技术方案为:
一种基于强化学习的复合避障控制方法,所述方法包括以下步骤:
S10、建避障环境和用于障碍规避的最优控制模型;
S20、根据所述障碍环境和最优控制模型采用模型策略迭代法(model-basedpolicyiteration, MPI)和状态跟随规避法(state-following avoidance,SFA)的线性凸组合进行相互切换构建复 合避障控制模型;所述复合避障控制模型为:
其中λ(x)是切换函数,其取值同样在0到1之间平滑变化;是MPI方法对代价函数的估计值;是SFA方法对代价函数的估计值;
S30、构建基于行为-评价神经网络和强化学习的避障控制策略;
S40、利用外推获取经验数据并确定自适应网络更新规则。
进一步:所述步骤S10中构建避障环境和用于障碍规避的最优控制模型过程:
步骤S101,围绕障碍物体构建障碍环境;即:
通过如下仿射非线性模型表征自主无人系统的智能体:
其中:f(x(t))是内部动态信息,g(x(t))表示控制耦合矩阵,u(t)表示控制输入或控制策 略;
所述智能体利用障碍检测器探测与每个障碍物之间的实时距离其控制目的是 安全绕过每一个障碍物抵达目标点xe,障碍物的数量记为No;
所述避障环境是将障碍物看作是圆形或球形区域,建立对应的障碍区域Oi;在此基础上 辐射出冲突区域Ci、避让区域和切换区域
智能体避障中面临的区域可以表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210715312.5/2.html,转载请声明来源钻瓜专利网。