[发明专利]基于深度学习的跨视角影像实时匹配地理定位方法及系统在审
申请号: | 202111444175.8 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114241464A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 涂志刚;李松廉;陈雨劲 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06K9/62;G06N3/04;G06N3/08;G06V10/774;G06V10/75 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 视角 影像 实时 匹配 地理 定位 方法 系统 | ||
本发明提供一种基于深度学习的跨视角影像实时匹配地理定位方法及系统,包括利用域对齐算法将空视图像与街景图像初步对齐;构建孪生神经网络,所述孪生神经网络的结构包括两个提取特征图的卷积神经网络分支,后接全局描述向量编码模块,再接距离度量层;在包含街景图像与遥感图像的已有数据集基础上训练孪生神经网络;构建具体应用场景的数据集,并继续在训练所得的孪生神经网络基础上进行微调训练;现场抓拍街景图片,并利用训练好的网络在构建的数据集中检索与之匹配的卫星图像,从而完成街景图片的定位。本发明能适用于各类场景下的跨视角图像地理定位,对实际应用中定位的精度和鲁棒性都有一定程度的提高。
技术领域
本发明涉及计算机视觉图像定位技术领域,特别是涉及一种基于深度学习的地空跨视角图像实时匹配地理定位方法及系统。
背景技术
图像地理定位是指仅根据视觉信息确定图像的拍摄位置的问题。这类问题在计算机视觉领域有着广阔的应用场景,例如移动终端导航、AR/VR、汽车自动驾驶和视频地理轨迹生成等。传统的图像定位方法是基于街景图像与街景图像数据库进行匹配定位。近年来随着遥感卫星的不断发展,海量带有地理位置信息的卫星图像被采集下来。因此,估计拍摄图像地理位置的问题就被转换为了地面视角图像与空视图像的匹配问题,即通过匹配到的带有地理坐标的卫星图像去确定拍摄图像的地理位置,从而实现全球范围内的图像定位。
目前,主流的图像地理定位方法主要分为图像特征提取、图像全局描述向量编码和图像检索匹配这三个步骤。在学术研究领域。随着深度学习技术的不断发展,Workman和Jacobs首先将深度特征引入到图像定位匹配任务中。在图像特征提取方面,Workman等作者首先提出利用卷积神经网络从查询图像中提取特征图,再使用普通的全连接神经网络将特征图编码为全局描述向量,最后从构建的街景数据库中检索出全局描述向量与其最为接近的街景图像作为匹配图片;在图像全局描述向量编码之中,为了让网络结构学习到图像的旋转不变特征,Hu等人将VLAD池化算法进行了改进,通过引入soft assignment让其变成了一个可微分的算法,即可以通过反向传播算法端到端地训练该模块,并在卷积神经网络网络上上嵌入NetVLAD,用于跨视角视角图像匹配;在图像检索匹配中,Vo和Hays等作者采用计算全局描述向量的欧氏距离作为度量图像之间相似度的依据,即全局描述向量间欧式距离越大说明两图像相似度越低,被后续学者广泛采用。
但是,现有的地面图像与空视图像的跨视角匹配方法没能考虑到两视角图像之间巨大的域差异以及尺度差异。具体来说,首先地面图像一般为水平方向上的街景图像,其获取的往往是物体的侧面信息而空视图像则是垂直向下的视角,这种视角之下拍摄的往往是物体的上表面信息;其次,地面图像通常为小范围的街景图像而空视图像一般为覆盖大面积区域的遥感卫星图像。本发明则从这两个跨视角图像匹配中存在的主要问题入手,首先提出了域对齐算法将地面视角与遥感卫星图像的空间格局进行粗略地对齐从而加速匹配过程并且提高匹配精度。然后,本发明提出了多尺度注意力编码器充分考虑两图像的多尺度信息,并将其编码进图像全局描述向量之中,以提高模型整体的鲁棒性。
在实际运用领域,百度公司研发了一个定位一张图片位置的地点识别技术。用户将需要识别的图片上到服务器中,当服务器接收到需要定位的图片时,它会将图片编码为一维的全局描述向量,然后将这些信息与自己的地标数据库中的信息进行对比,通过一定的算法判识别照片中出现的中外著名地标、景点。然而此定位方法要求用户上传的图像必须包含全球范围内的著名建筑地标,定位准确率低,无法满足实际需求。
发明内容
为了解决跨视角图像定位匹配速度慢、匹配准确率低和覆盖范围小的问题,本发明公开了一种基于深度学习的地空跨视角图像实时匹配地理定位方法和系统,可以仅利用图片视觉信息进行地理定位,具有匹配速度快、定位精度高和覆盖范围广的特点。
本发明解决其技术问题所采用的技术方案是一种基于深度学习的跨视角影像实时匹配地理定位方法,包括以下步骤:
步骤S1,利用域对齐算法将空视图像与街景图像初步对齐;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111444175.8/2.html,转载请声明来源钻瓜专利网。