[发明专利]基于机器人伴随行为模型的扩展POMDP规划方法及系统在审
申请号: | 202011060344.3 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112131754A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 毛新军;杨硕;白颜滔;王硕;陈国春 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06N7/00;G06F111/08 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器人 伴随 行为 模型 扩展 pomdp 规划 方法 系统 | ||
本发明公开了一种基于机器人伴随行为模型的扩展POMDP规划方法及系统,包括在标准POMDP规划过程中,当正在执行的任务动作aT的不变式与某一观察动作aO匹配时,将任务动作aT、观察动作aO基于匹配的谓词语句构成伴随关系形成伴随行为模型;在任务动作aT的执行过程中,获取观察动作aO的观察值obs;基于任务动作aT的不变式、观察值obs更新机器人的系统知识库kb;判断知识库kb中的不变式的真值为假是否成立,若成立则触发任务重规划。本发明能够有效指导机器人开放环境下的观察和执行过程,支持其有效实现任务,可用于支持机器人在室内环境下多种场景下执行任务,如家庭服务、医疗看护等任务。
技术领域
本发明涉及机器人决策控制领域的机器人任务自动规划技术,具体涉及一种基于机器人伴随行为模型的扩展POMDP规划方法及系统。
背景技术
近年来,自动任务规划方法在基于模型的规划领域中取得了长足的进步。基于模型的规划方法是在已经建立的动作和感知抽象模型的基础上决策下一步执行的动作。这种模型本质上是通用的,不受特定问题或领域的束缚,从而提高了处理新问题的通用性。目前,在机器人任务决策领域中广泛应用的几种基于模型的规划方法包括:经典规划方法(classical planning),时序规划方法(temporal planning)和部分可观察的马尔可夫决策过程(POMDP)规划方法。这些方法从不同角度提出了各种动作和传感器模型,以适用于不同的机器人任务和环境。但是,这些方法对动态环境中的机器人任务规划都存在不同程度的局限性,无法支持灵活持续的感知行为和任务决策之间的交互。
经典规划方法主要考虑确定性环境下的机器人动作选择,并且假设环境的初始状态是完全可观察和确定已知的。Fast Forward规划算法是使用启发式搜索技术的第一代经典规划算法,后续的一些工作均遵循此基本模型,并在此基础上提出了更有效的状态搜索技术。当前最新的经典规划算法主要包括Metric-FF,Fast Downward,LAMA,Probe和BFS。经典规划算法中的工作范围通常考虑无需感知行为的完全可观察环境,不适用于开放环境下环境部分可观察的机器人任务规划。
时序规划算法考虑持续性机器人动作。时序规划算法主要考虑对机器人动作的持续时间进行建模和规划,更为符合现实世界中机器人的任务执行情况。时序规划算法中的动作模型在经典规划算法的基础上,通过持续时间和时序条件规约扩展了其动作行为模型。目前,已有许多基于时序的规划算法用来解决机器人任务规划中的时序约束问题。TP4采用了基本的时序行为模型,该模型要求先决条件要在行动开始时保持,而在行动结束时要有效果。后来的工作扩展了基本模型,使其具有在整个操作期间有效的条件,例如CRICKEY。同时,另一部分工作采用持续行为模型,特别是VHPOP,Drake和TPOPEXEC。尽管对行为并发和行为执行持续时间进行了明确的建模,但时序规划方法中的动作模型假定环境状态是完全可观察的,没有针对感知行为的抽象。
类似于经典规划算法中的行为抽象模型,POMDP将任务动作视为瞬时性的原子动作。为了对环境状态的部分可观察性建模,POMDP假设机器人不知道其当前状态,但是可以获取对环境的观察来进行预测。观察结果的概率分布能够可靠地预测了实际的环境状态,并选择了要执行的最佳任务动作。POMDP规划解决了在给定初始状态和动作效果不确定的情况下生成行为策略的问题。目前,有相当一部分工作基于POMDP模型来解决环境的不可完全观察性。Xiaochen Xiao et al提出了基于参数化动作模型的蒙特卡洛规划算法(PA-POMCP),它实现了运行时的机器人信念状态更新和动作决策。Arthur Wandzel等人将室内环境下的多目标物体搜索(Multi-object Search)任务抽象为典型的POMDP规划问题。Tiago S.Veiga等人通过POMDP对机器人与随机环境之间的交互关系进行建模,该模型使用概率逻辑来表示有关对象位置的不确定性。Jue Kun Li等人将目标物体的搜索问题建模为POMDP规划问题,并将其抽象为不确定环境下的最佳决策问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011060344.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:施工围栏
- 下一篇:一种基于图像处理的开口销丢失检测方法