[发明专利]一种基于图像检索和神经辐射场的重定位方法在审
申请号: | 202211700262.X | 申请日: | 2022-12-28 |
公开(公告)号: | CN116049477A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 颜成钢;傅晟;朱尊杰;魏宇鑫;汪奇挺;张文豪;高宇涵;孙垚棋;陈楚翘;王鸿奎;王廷宇;殷海兵;张继勇;李宗鹏;赵治栋 | 申请(专利权)人: | 杭电(丽水)研究院有限公司 |
主分类号: | G06F16/587 | 分类号: | G06F16/587;G06T7/73;G06V10/74;G06V10/774;G06V10/82;G06N3/04;G06N3/084 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 323010 浙江省丽水市莲都区南明山*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 检索 神经 辐射 定位 方法 | ||
本发明公开了一种基于图像检索和神经辐射场的重定位方法,在原有的建立在神经辐射场上进行重定位任务的基础上,结合了图像检索的方法,提供更加准确的重定位效果。并且通过随机厥对图像以及深度图进行了编码,还加入了语义信息,避免了考虑整幅图像的信息,大大减小了计算量,以及在一定程度上避免了噪点的干扰。同时不只通过图像检索的方法,通过引入深度学习的方法,一定程度上解决了光照变化,并且高质量的图像和隐式场景表示简化了计算和内存占用,使得到的估计位姿更加准确。
技术领域
本发明属于计算机视觉的领域,具体涉及一种融合传统图像检索和深度学习方法的基于神经辐射场的重定位方法。
背景技术
同步定位与地图构建的实现大致流程为根据重建设备所连接的相机在运动过程中拍摄场景或物体图像,并进行逐帧处理,帧间比较,然后估计出相机的位置的帧间相对变化,根据此估计出相机的运动轨迹,最后由新观测到的帧根据估计出的位姿对地图进行更新。在三维重建领域,通过图元表示三维场景模型的重建系统一般分为跟踪和建图两个阶段。通过输入到重建系统的RGB-D图像帧序列,进行2D到3D的转换,跟踪通过图像重叠部分进行位姿估计完成当前帧相对于场景地图的定位,方便后续建图相同位置一致性。相机跟踪在InfiniTam等实施重建系统中,是通过ICP迭代最近点算法来估计相对位姿,采用frametomodel方法,将当前帧的点与上一帧融合的地图模型的预测面上的点进行匹配。建立当前帧点与预测面上的点的对应是通过将当前帧点投影到上一帧相机的位置,得到的在预测面上的三维点就是它所对应的点。从而使用ICP进行当前帧点与对应点所在平面的垂直距离的误差度量的计算,然后通过梯度下降法求解非线性最小二乘,得到估计相机位姿。
然而,相机在运动过程中,可能会出现导致跟踪失败的情况。快速的相机运动和突然的视点变化可能是帧到帧跟踪失败的主要原因。相机跟踪失败会降低三维重建精度或者严重破坏原有的三维重建结果。检测跟踪失败对于构建鲁棒的地图系统以及我们在子地图之间构建约束的方法都至关重要。所以重建系统中大多都在定位模块后包含重定位模块,用于矫正错误的估计位姿,保证建图一致性。
视觉重定位的方法一般分为四类:基于特征匹配的方法,通过特征点将二维图像和三维模型对应起来,解算位姿;基于图像检索的方法,通过对图像进行特征编码构建数据库,然后输入帧进行数据库检索,找到最相似的图像计算相对位姿;基于场景坐标回归的方法,其中又可分为基于随机森林或者CNN网络进行场景坐标回归,通过二维像素直接回归出三维坐标,然后再用RANSAC随机抽样一致性算法估计出最佳位姿;使用神经网络直接回归出相机位姿。
神经场景表示无结构方法使用神经网络直接估计相机位姿而无需对地图进行建模。相机的定位是通过从图像到姿势的直接学习映射来执行的。隐式表示学习的最新进展证明了基于坐标的多层感知机(MLP)将已知世界坐标映射到有符号距离场的能力。NeRF(神经辐射场)的提出,对高质量的新视角图像合成有了新的思路,并且通过位置编码和体积渲染技术隐式表示场景。
深度学习(deeplearning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架(神经网络),如卷积神经网络、多层感知机和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。NeRF(神经辐射场)主要是使用多层感知机来完成场景表示和新视角合成任务的神经网络的别称。本发明使用了NeRF(神经辐射场)进行场景坐标回归,现有神经辐射场有用作重定位任务的,但是它们普遍存在很多问题,泛化性不足,初始位姿固定等原因导致训练和渲染时间长,无法处理光影问题等。基于图像检索的位姿估计很依赖光度一致性这个前提,然而现实生活中这一条件难以保证,且目前的系统存储模型的内存和计算问题也是必须解决的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭电(丽水)研究院有限公司,未经杭电(丽水)研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211700262.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示设备和数据显示方法
- 下一篇:一种显示面板及显示装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序