[发明专利]面向机械臂抓取任务的知识图谱深度强化学习迁移系统有效
| 申请号: | 202110235809.2 | 申请日: | 2021-03-03 |
| 公开(公告)号: | CN112966591B | 公开(公告)日: | 2023-01-20 |
| 发明(设计)人: | 李跃;刘少坤;高金宝;邵子平 | 申请(专利权)人: | 河北工业职业技术学院 |
| 主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/82;G06F16/28;G06N3/092;G06N3/096 |
| 代理公司: | 石家庄开言知识产权代理事务所(普通合伙) 13127 | 代理人: | 李志民 |
| 地址: | 050091 河*** | 国省代码: | 河北;13 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 机械 抓取 任务 知识 图谱 深度 强化 学习 迁移 系统 | ||
本发明涉及一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统,包括工作经验模块、知识图谱先验提取模块、先前工作环境模块、先前工作模型模块、知识图谱模块、模型参数转移模块、当前工作环境模块和智能体。工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通,知识图谱模块和当前工作环境模块共同向智能体提供状态值,当前工作环境模块向智能体输入奖励值。先前工作环境模块通过先前工作模型模块和模型参数转移模块与智能体通信联通,智能体向当前工作环境模块传送动作指令。本发明使用知识图谱作为领域转移的媒介,提升了应用于机械臂抓取任务领域的深度强化学习方法的探索效率,加快了训练速度。
技术领域
本发明属于人工智能技术领域,涉及一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统。
背景技术
深度强化学习是人工智能领域的一个新的研究热点,具有广泛的应用前景。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制。深度强化学习作为一种解决序列决策的学习方法,通过不断优化控制策略,能够建立一个对环境有更高层次理解的自治系统,从而学得最优策略。
在深度强化学习中,训练好的模型仅适用于当前环境,如果环境做出改变,训练好的模型就需要重新训练。迁移学习,做为一种新的学习范式,被提出用于解决这个问题。迁移学习其目的为将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。主要思想为从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果。
抓取是机器人走进真实世界必不可少的技能,比如在物流行业中对物体进行分拣,在工业生产线上完成零件的装配等。然而,机器人完成抓取任务仍然存在很多不确定性问题需要进一步研究。因此,如何处理不确定性从而提高抓取的成功率是非常值得研究的问题。抓取过程中的不确定性主要包括待抓取物体的形状不确定,待抓取物体的姿态不确定、机械手的接触点不确定以及物体的质量不确定等。目前,应用于机械臂抓取的深度强化学习方法需要大量的探索,需要进行长时间的训练。并且,在抓取过程中,机械臂抓取的物体具有不确定性的特点,而调整已训练好的模型,也存在耗时问题。
发明内容
本发明的目的是提供一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统,使用知识图谱作为领域转移的媒介,以提升应用于机械臂抓取任务领域的深度强化学习方法的探索效率,加快训练速度。
本发明的技术方案是:面向机械臂抓取任务的知识图谱深度强化学习迁移系统,包括工作经验模块、知识图谱先验提取模块、先前工作环境模块、先前工作模型模块、知识图谱模块、模型参数转移模块、当前工作环境模块和智能体。工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通,知识图谱模块和当前工作环境模块共同向智能体提供状态值,当前工作环境模块向智能体输入奖励值。先前工作环境模块通过先前工作模型模块和模型参数转移模块与智能体通信联通,智能体向当前工作环境模块传送动作指令。
学习迁移系统的工作过程为:
⑴构建知识图谱模块:首先工作经验模块搜集类工作经验,知识图谱先验提取模块对这些人类经验进行知识图谱进行先验提取,汇总机器人抓取任务工作环境中常见的实体及实体之间的对应关系。根据这些常见对象及对应关系构建知识图谱模块,并作为深度强化学习框架中的状态模型;
⑵构建模型参数转移模块:从先前工作环境模块提取先前相关工作环境中的先前工作模型模块,根据先前工作环境和当前工作环境的相关系数决定模型参数转移模块。根据模型参数转移模块将模型中前N层神经网络参数固定,将剩余层的神经网络参数加入强度不同的高斯噪声,层编码越高的网络参数,加入的高斯噪声越强,并将模型参数转移作为面向机器人抓取任务的深度强化学习初始模型;
⑶构建基于深度强化学习的机械臂抓取模型:参照知识图谱模块从当前工作环境模块中提取相关状态值。将当前工作环境模块和知识图谱模块的状态值送入模型参数转移模块后的初始模型中。智能体根据知识图谱模块状值和奖励值计算出最佳的机器人抓取动作指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业职业技术学院,未经河北工业职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110235809.2/2.html,转载请声明来源钻瓜专利网。





