[发明专利]基于机器人伴随行为模型的扩展POMDP规划方法及系统在审
申请号: | 202011060344.3 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112131754A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 毛新军;杨硕;白颜滔;王硕;陈国春 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06N7/00;G06F111/08 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器人 伴随 行为 模型 扩展 pomdp 规划 方法 系统 | ||
1.一种基于机器人伴随行为模型的扩展POMDP规划方法,其特征在于,包括在机器人的标准POMDP规划过程中执行观察行动规划和任务重规划过程的下述步骤:
1)在标准POMDP规划过程中,当正在执行的任务动作aT的不变式与某一观察动作aO匹配时,则跳转执行下一步;
2)将任务动作aT、观察动作aO基于匹配的谓词语句构成伴随关系形成伴随行为模型;
3)在任务动作aT的执行过程中,获取观察动作aO的观察值obs;
4)基于任务动作aT的不变式、观察值obs更新机器人的系统知识库kb;
5)判断知识库kb中的不变式的真值为假是否成立,若成立则触发任务重规划。
2.根据权利要求1所述的基于机器人伴随行为模型的扩展POMDP规划方法,其特征在于,步骤1)中的任务动作aT的不变式是指任务动作aT上一步骤的谓词语句pi;任务动作aT的不变式与某一观察动作aO匹配是指:针对定义为aT=d,([τ1,τ2],pi),pe的任务动作aT,该任务动作aT的谓词语句pi等于定义为aO=p,o的观察动作aO观察和更新的谓词语句p相等,其中d表示任务动作aT执行的时间间隔,([τ1,τ2],pi)表示在任务动作aT执行的[τ1,τ2]时间间隔内谓词语句pi的真值为真,pe表示在该任务动作aT执行结束后谓词语句,且动作执行结束后谓词语句pe的真值为true,o表示观察动作aO的谓词语句p所能观察到的环境状态;步骤2)中伴随行为模型表示为AAM(ao,aT,p),其中AAM为伴随行为模型,aT为任务动作,aO为观察动作,p为观察动作aO上一步骤与任务动作aT相匹配的谓词语句pi。
3.根据权利要求1所述的基于机器人伴随行为模型的扩展POMDP规划方法,其特征在于,步骤3)中获取观察动作aO的观察值obs的步骤包括:观察动作aO通过驱动程序启动其所控制的机器人传感器部件,在机器人传感器部件当前位姿和感知范围下对相关环境信息进行采集,并将采集得到的原始感知数据处理为以数值型格式表示的观察值obs。
4.根据权利要求1所述的基于机器人伴随行为模型的扩展POMDP规划方法,其特征在于,步骤4)中系统知识库kb的每一个项目包括观察值obs、及其对应的谓词语句p,用于作为对观察值obs所表示的外部环境状态的知识表示。
5.根据权利要求4所述的基于机器人伴随行为模型的扩展POMDP规划方法,其特征在于,步骤4)的详细步骤包括:根据观察值obs的类型可以判断是否能检验知识库kb中谓词语句p的值,当观察值obs不能检验知识库kb中谓词语句p的值时,结束并退出;否则,根据观察值obs能够判断谓词语句p所代表的环境状态成立,则更新谓词语句p的真值为真,否则更新谓词语句p的真值为假。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011060344.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:施工围栏
- 下一篇:一种基于图像处理的开口销丢失检测方法