[发明专利]一种基于深度学习的无需深度信息的物体位姿预测算法在审
申请号: | 202210275347.1 | 申请日: | 2022-03-21 |
公开(公告)号: | CN114648687A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 尤波;岳远东;李佳钰 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 无需 信息 物体 预测 算法 | ||
1.一种基于深度学习的无需深度信息的物体位姿预测算法,其特征在于,本发明提出的一种基于深度学习的无需深度信息的物体位姿预测算法,为了提高单目相机位姿估计的精度,提出了一种新的卷积神经网络结构,所提出的网络结构在Darknet53特征提取网络中加入一个卷积层和Passthrough层,目的是在特征提取网络中使用多尺度特征图进行张量拼接作为特征提取网络的输出,特征提取网络以大小为416×416×3的网络作为输入,经过Darknet53特征提取网络进行16倍下采样后,得到大小为26×26×512的特征张量,将经过16倍下采样的特征张量经过一个卷积层与Passthrough层处理,将16倍下采样的特征张量大小修改为13×13×2048,将修改后的16倍下采样特征张量与Darknet53特征提取网络输出的32倍下采样特征张量进行张量拼接,得到大小为13×13×3072的特征张量输出,此时特征提取网络输出的特征张量的维度相较于传统Darknet53输出的特征张量维度扩充了3倍大小,可以使卷积神经网络在提取局部特征的同时提取局部关联特征,使卷积神经网络特征提取更加准确,从而提高位姿估计算法的精度。该网络结构在保证位姿估计算法运行速度的基础上,提高位姿估计算法的精度。
算法首先需要明确所使用相机的内部参数,以含有Aruco二维码的RGB图片作为输入,将图片输入至卷积神经网络,卷积神经网络基于滑动窗口算法对416×416大小的区间进行特征提取,经过特征提取和回归,卷积神经网络输出RGB图片内目标物体的1个像素坐标系下的质心点、8个像素坐标系下的角点和物体的类别预测信息。
然后算法对图像中的Aruco二维码进行识别,同时根据Aruco二维码建立三维世界坐标系,由于Aruco二维码的边长和其在世界坐标系下的坐标已知,根据Aruco二维码的四个角点在图像坐标系下的像素位置,基于EPnP算法对相机的外部参数进行求解,外部参数包含旋转矩阵和平移矩阵。
得到相机在拍摄当前图像时的旋转矩阵与平移矩阵后,根据相机坐标转换原理将卷积神经网络所预测的目标物体的1个像素坐标系下的质心点、8个像素坐标系下的角点进行坐标转换,将目标物体的像素坐标系下的坐标转换为世界坐标系下的坐标,根据目标物体世界坐标系下的坐标计算目标物体的位姿,最终算法输出图片内物体的类别预测信息和位姿信息。
其具有端到端的可训练性和准确性,不需要任何后验改进,在Linemod数据集下的平均2D投影准确率可达到90.02%,其根据物体形状的三维边界框进行训练,还可以从其他更容易获得和近似的三维形状表示进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210275347.1/1.html,转载请声明来源钻瓜专利网。