[发明专利]一种基于深度学习的无需深度信息的物体位姿预测算法在审
申请号: | 202210275347.1 | 申请日: | 2022-03-21 |
公开(公告)号: | CN114648687A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 尤波;岳远东;李佳钰 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 无需 信息 物体 预测 算法 | ||
本发明属于图像处理技术领域。本发明公开了一种基于深度学习的无需深度信息的物体位姿预测算法,可实时预测缺少深度信息的图片中包含物体的类别信息以及位姿信息,可有效降低目标位姿检测成本,提高目标识别以及目标位姿检测的实时性。本发明所述的一种基于深度学习的无需深度信息的物体位姿预测算法,只需以普通RGB图像作为输入,通过卷积神经网络直接预测目标物体的3D bounding box顶点的二维投影,通过Aruco二维码求解相机位姿得到相机的外部参数后计算得到目标物体的位姿信息。本发明所提出的位姿预测算法在Linemod数据集下的平均2D投影准确率可达到90.02%,能够有效降低目标位姿检测工作成本,提高目标检测的效率,同时保证目标检测与位姿预测的实时性。
技术领域
本发明属于图像处理技术领域,具体涉及一种能准确、实时地预测无深度信息图片中包含物体的类别信息及位姿信息的算法。
背景技术
随着计算机、多媒体和数据通信技术的高速发展,数字图像处理近年来得到了极大的重视和长足的发展,并在科学研究、工业生产、医疗卫生、教育、娱乐、管理和通信方面取得了广泛的应用。同时,人们对计算机视频应用的要求也越来越高,从而使得告诉、便捷、智能化的高性能数字图像处理设备成为未来视频设备的发展方向,实时图像处理技术在目标跟踪、机器人导航、辅助驾驶中都得到越来越多的应用。由于图像处理的数据量大,数据处理相关性高,实时应用环境决定严格的帧、场、时间限制,因此实时图像处理必须具有强大的运算能力。
在现代工业自动化生产中,涉及到产品检验、生产监视和零部件缺陷识别等多方面的应用,通常使用双目相机对图像信息进行处理,双目相机相对于单目相机的成本偏高,使用双目相机会增加机械臂抓取系统的成本,双目相机的耗电量远高于单目相机。同时在工业自动化生产机械臂的使用中,通常将机械臂与周围环境隔离防止由于意外情况导致的机械臂安全问题,限制了机械臂的使用场景必须是空旷的以保证机械臂工作时的安全性,同时抓取机械臂还存在抓取精度较差,抓取精度较低,抓取效率不高,不能自主规避障碍等问题。
发明内容
本发明的目的是提供一种基于深度学习的无需深度信息的物体位姿预测算法,能够预测无深度信息图片中包含物体的类别信息及位姿信息。
本发明提出的一种基于深度学习的无需深度信息的物体位姿预测算法,是一种基于单目相机的卷积神经网络架构,不同于传统位姿估计算法中需要将RGB图像与深度图像进行匹配,该算法无需深度图像,只需以普通RGB图像作为输入,通过卷积神经网络直接预测目标物体的3D bounding box顶点的二维投影,将位姿估计问题转化为PnP求解问题,通过Aruco二维码求解相机位姿得到相机的外部参数后即可计算得到目标物体的位姿信息。该算法可以实时预测RGB图片中所包含物体的类别信息及位姿信息,其在Linemod数据集下的平均2D投影准确率可达到90.02%。
所述算法采用了残差网络进行特征提取以便于网络可以提取到更深层次的特征值。由于特征提取网络中使用了多个残差网络,网络中对于特征张量尺寸的修改采用了卷积的方式而没有使用池化的方式,以保证特征张量中的次相关特征能够被提取而不是使用池化层将其舍弃。网络采用了Darknet53作为特征提取网络,采用了PassThrough层进行张量的尺寸修改,修改后的张量与特征提取网络进行张量拼接进行维度的扩充,这样可以保证网络得到多维度的特征,为了保证下采样后特征图的中心点对特征进行提取,卷积神经网络的输入采用了416×416×3的RGB图像,这样可以保证特征提取网络的输出张量的长宽为奇数,特征图在经过特征提取后特征图的中心只有一个网格,在输入的RGB图像经过32倍下采样之后,输出13×13×(19+C)维度的张量。
所述算法根据预测物体的3D模型相关联的虚拟3D控制点的2D图像坐标来制定6D位姿估计问题。给定二维坐标预测,使用EPnP算法计算物体的6D位姿。使用9个控制点队每个对象的三维模型进行参数化。对于这些控制点,选择紧密3D包围盒的8个角与3D模型拟合。另外,使用物体的三维模型的质心作为第9点,该参数化方法具有通用性,可用于任意形状和拓扑结构的三维刚性物体,这9个控制点保证在二维图像中很好地分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210275347.1/2.html,转载请声明来源钻瓜专利网。