[发明专利]面向多非完整约束移动机器人的强化学习行为控制方法在审
申请号: | 202310255701.9 | 申请日: | 2023-03-16 |
公开(公告)号: | CN116068900A | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 黄捷;张祯毅 | 申请(专利权)人: | 福州大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;薛金才 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 完整 约束 移动 机器人 强化 学习 行为 控制 方法 | ||
本发明提供了面向多非完整约束移动机器人的强化学习行为控制方法,基于非完整约束矩阵建立多非完整约束移动机器人的运动学模型,基于欧拉拉格朗日方程建立多非完整约束移动机器人的动力学模型,并根据所建立的运动学模型构建基本行为,同时通过零空间投影技术,将所设计的基本行为以不同的优先级顺序组合成为复合行为;应用本技术方案不仅可避免在任务执行阶段使用集中式单元,而且提升了行为优先级切换的动态性和智能性。
技术领域
本发明涉及智能机器人技术领域,特别是一种面向多非完整约束移动机器人的强化学习行为控制方法。
背景技术
近年来,非完整约束移动机器人在各个领域得到了广泛应用。由于非完整约束移动机器人不能通过使用任意时不变平滑状态反馈控制律来稳定,因此它的跟踪控制问题被优先地研究了。通过群体协作,多非完整约束移动机器人通常比单个机器人具有更好的任务性能。然而,非完整约束往往会影响团队表现,如何在非完整约束下实施协作控制提出了一个具有挑战性的控制问题。
现有的多非完整约束移动机器人协助控制通常基于集中式或分布式框架。集中式的方法使用一个集中式控制器激活团队行为和避免违反非完整约束。由于控制器必须拿到全局信息,集中式方法的可扩展性不令人满意。为此,分布式方法通过使用一组具有拓扑结构的网络化控制器来避免使用集中式控制器。大多数分布式方法只解决具有唯一任务或控制目标的协作控制问题。然而,多任务冲突在协作控制问题中很常见,且不容忽视。行为控制方法是最有效的解决方案之一。最初的行为控制方法为一种分层框架,低层次的行为只有在所有高层次行为完成时才会被执行。为了提高任务执行效率,通过对具有可调整权重的行为命令求和,提出了一种运动模式行为控制框架,但没有完成任何行为完整执行。通过结合上述两种方法的优点,提出了一种零空间行为控制方法,其不仅完成最高优先级行为,而且通过零空间投影执行部分低优先级的行为。尽管零空间行为控制方法被扩展到不同的多智能体系统场景中,但它具有隐含集中式的固有缺陷,即它依赖于集中式的任务监管器来分配行为优先级。为此,首次提出了一种分布式行为控制框架用于聚集控制,但缺乏任务和控制器稳定性分析。接着,分布式行为控制的任务误差被证明是渐近稳定的,但它仅限于无障碍环境中的三角形编队。然后,为分布式行为控制设计了一组非线性快速终端滑模控制器,实现了跟踪误差的有限时间收敛。最后,通过设计固定时间估计器和终端滑模控制律,任务和跟踪误差都实现固定时间稳定。
然而,现有分布式行为控制方法仍然存在以下缺点:1、行为的优先级是固定且预先设置的,这会导致任务动态性能不佳,严重依赖人类智能。2、缺乏最优性和智能性,这导致过度消耗控制资源以保持良好的控制性能,特别是在切换行为优先级时。3、控制输入均没有饱和约束限制,这导致执行器在切换行为优先级之后可能违反物理限制。
发明内容
有鉴于此,本发明的目的在于提供一种面向多非完整约束移动机器人的强化学习行为控制方法,基于辨识者-执行者-评论家算法设计了强化学习控制器,在线地学习系统的未知动力学和最优控制策略,以保证在任务执行过程中,控制性能和控制损耗始终保持平衡,并且还考虑了输入饱和约束,避免执行器违反实际物理限制。
为实现上述目的,本发明采用如下技术方案:面向多非完整约束移动机器人的强化学习行为控制方法,包括以下步骤:
步骤S1,基于非完整约束矩阵建立多非完整约束移动机器人的运动学模型,基于欧拉拉格朗日方程建立多非完整约束移动机器人的动力学模型,并根据所建立的运动学模型构建基本行为,同时通过零空间投影技术,将所设计的基本行为以不同的优先级顺序组合成为复合行为;
步骤S2,将行为优先级切换建模为一个分布式部分可观测的马尔科夫决策过程,在集中式训练分布式执行的强化学习算法框架下,设置复合行为的参考速度指令作为强化学习算法的动作集合,选取非完整约束机器人的位置和优先级,以及其邻居机器人的位置和优先级作为强化学习算法的观测集合,设计奖励函数,从而构建分布式强化学习任务监管器DRLMSs;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310255701.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人体数据实时捕捉系统
- 下一篇:一种碳酸钴及其制备方法和用途