[发明专利]一种端到端的地外探测样品智能抓取方法有效
申请号: | 202110674012.2 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113524173B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 黄煌;高锡珍;汤亮;刘昊;谢心如;刘乃龙 | 申请(专利权)人: | 北京控制工程研究所 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 马全亮 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端 探测 样品 智能 抓取 方法 | ||
一种端到端的地外探测样品智能抓取方法,按照先数字训练,再物理试验的方式开展了数字‑物理试验;包括:设计了基于强化学习的样品采集方法,然后构建样品采集数字仿真训练环境对模型进行训练,最后将模型迁移到物理环境中进行验证,结果表明能够对几何形状未知不规则的物体进行高成功率的抓取,保证地外采样任务成功。
技术领域
本发明涉及一种端到端的地外探测样品智能抓取方法,属于航空航天技术领域。
背景技术
地外探测是人类探索宇宙起源和星系演化、和平开发宇宙资源的重要手段,是世界航天领域未来的主要发展方向。地外探测从最近的月球逐步延伸到越来越远的火星、小行星等天体,探测方式从掠飞环绕,逐渐进步到着陆巡视和采样返回。地外探测样本采集是采样返回的核心关键环节,具有重要的科学价值和工程意义。
目前地外探测样本采集主要通过机械臂、激光或钻取设备,进行就地取样,但目前还依赖地面指令或人在回路的操作方式,难以自主胜任未知变化环境下的多类复杂探测任务。同时基于传统方法进行地外采样存在异形未知物体检测耗时长、偏差大,不规则物体的抓取位姿难以确切描述和依赖人为设置的特征问题。在新一代人工智能背景下,人工智能技术的植入是提高地外探测器采样自主性的一条极其有效的途径。
发明内容
本发明的目的在于:为了解决地外探测样本采集的问题,提出一种端到端的地外探测样品智能抓取方法,以火星探测中的样本采集为应用背景,开展数字-物理一体化抓取、分析与装箱全流程的学习训练,实现全自主的目标发现、抓取与精细操作。
本发明目的通过以下技术方案予以实现:
一种端到端的地外探测样品智能抓取方法,包括如下步骤:
选择强化学习方法;
构建地外探测样本采集仿真训练环境;
在构建的仿真训练环境中,进行数字训练,得到抓取模型;
将得到的抓取模型迁移到地外探测样本抓取物理实验系统中,进行地外探测基于强化学习的样品采集物理试验,从而完成端到端的地外探测样品智能抓取。
进一步的,采用近端策略优化方法PPO作为选择的强化学习方法。
进一步的,采用多平台机器人仿真软件Webots构建地外探测样本采集仿真训练环境。
进一步的,构建地外探测样本采集仿真训练环境时,建立目标机械臂、手爪、相机、目标物体、箱子和桌面模型;
手爪设置在目标机械臂的前端,用于抓取桌面上的目标物体;
相机设置在桌面上方,用于观察待抓取的目标物体;
箱子用于手爪抓取目标物体后,放置目标物体。
进一步的,所述进行数字训练,具体为:通过设计奖励函数和网络结构,训练深度神经网络,输入通过相机获得的RGB-D图像,输出对应图像坐标系下最佳抓取位姿。
进一步的,奖励函数如下:
近端策略优化方法PPO中执行网络Actor和评价网络Critic都采用稠密神经网络DenseNet,具体参数如下:选用DenseNet-121网络,121层,包含初始化层、密集连接层、过渡层与全连接层。
进一步的,训练过程包括如下:
(1)根据当前物品抓取环境状态,机械臂根据初始的抓取策略选取并执行抓取动作;初始的抓取策略根据选择的强化学习方法得到;
(2)执行抓取动作后,抓取环境转移到新的状态,并通过奖励函数获得相应的动作奖励;
(3)重复上述过程直到训练环境中物体全部抓取成功;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京控制工程研究所,未经北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110674012.2/2.html,转载请声明来源钻瓜专利网。