[发明专利]一种结合VP树和导向近邻图的近似最近邻搜索方法在审
申请号: | 202011223218.5 | 申请日: | 2020-11-05 |
公开(公告)号: | CN112287185A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 徐小良;马丁程;王宇翔 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 vp 导向 近邻 近似 搜索 方法 | ||
本发明提出的一种结合VP树和导向近邻图的近似最近邻搜索方法,该方法包括两个过程:索引构建过程和搜索过程。索引构建过程包含:(1)针对高维向量数据构建存放入口点的VP树;(2)使用可导航伸展图将高维向量数据构建成K近邻图;(3)将K近邻图中的每个点的邻居集均匀地划分来得到可导向近邻图。搜索过程包含:(1)查找入口点阶段,通过搜索VP树快速得到大致接近查询点的入口点;(2)导向搜索阶段,从入口点开始,得到查询点的局部最近点;(3)穷尽搜索阶段,利用范围搜索算法穷尽搜索查询点附近的点并返回查询点的top–K个最近点。本发明使用混合式搜索策略有效提升了近似最近邻搜索的性能。
技术领域
本发明涉及近似最近邻搜索领域,具体涉及一种结合VP树和导向近邻图的近似最近邻搜索方法。
背景技术
近似最近邻搜索是数据挖掘、机器学习、机器视觉和信息检索等邻域的一个关键技术,在过去的几十年中,人们一直致力于提高近似最近邻搜索的性能。目前近似最近邻搜索包括以下四类方法:基于树、基于哈希、基于量化和基于近邻图的方法,相比于其他的方法,基于近邻图的方法因其精度更高且速度更快的特点,成为近几年的研究热点。
目前已经有分层可导航小世界图(HNSW)、可导航卫星系图(NSSG)、可导航伸展图(NSG)等优秀的方法被提出,他们在实际生产环境中得到了广泛的应用,但是包括上述的大部分基于近邻图的近似最近邻搜索方法都存在一个问题:基于近邻图的方法的图搜索策略都仅仅使用单一的贪婪搜索算法,这会导致搜索的低效率问题,由于贪婪搜索算法在搜索过程中需要遍历当前访问点的所有邻居点并与查询点进行相似度计算,这在远离查询点的搜索区域是完全没有必要的,并且会严重降低搜索效率,尤其是针对大规模高维数据的情况下,搜索效率的优化更是面临的一个主要挑战。
发明内容
本发明针对现有技术的不足,提出了一种结合VP树和导向近邻图的近似最近邻搜索方法,这种方法包括两个过程:索引构建过程和搜索过程。
索引构建过程包含三个步骤:(1)针对高维向量数据构建用于搜索入口点的VP树;(2)使用可导航伸展图(NSG)将高维向量数据构建成K近邻图;(3)基于VP树将K近邻图中的每个点的邻居集均匀地划分为子邻居集left和子邻居集right得到可导向近邻图。
搜索过程包含三个阶段:查找入口点阶段、导向搜索阶段和穷尽搜索阶段。在查找入口点阶段,通过搜索VP树,快速得到大致接近查询点的入口点。在导向搜索阶段,从入口点开始,利用基于VP树的导向搜索算法高效的收敛并得到查询点的局部最近点。在穷尽搜索阶段,从查询点的局部最近点开始,利用范围搜索算法穷尽的搜索查询点附近的点,最后将返回的点作为搜索结果。
这种结合VP树和导向近邻图的近似最近邻搜索方法避免了在远离查询点的搜索区域穷尽的遍历所有的邻居点带来的低效问题,从而达到了快速收敛的目的,并且通过对查询点附近的搜索区域进行穷尽的搜索来保证最终结果的精度。
本发明所提出的一种结合VP树和导向近邻图的近似最近邻搜索方法包含索引构建过程和搜索过程,具体内容如下:
(1)索引构建过程:首先构建存放入口点的VP树,然后将高维向量数据构建成K近邻图,最后基于VP树和K近邻图生成可导向K近邻图;
(1-1)针对高维向量数据构建存放入口点的VP树;
(1-2)使用可导航伸展图(NSG)将高维向量数据构建成K近邻图;
(1-3)基于VP树将K近邻图中的每个点的邻居集均匀地划分为子邻居集left和子邻居集right得到可导向近邻图。
(2)执行搜索过程,搜索过程包括三个阶段:查找入口点阶段、导向搜索阶段和穷尽搜索阶段;
(2-1)查找入口点阶段:通过搜索存放入口点的VP树,快速得到大致接近查询点的入口点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011223218.5/2.html,转载请声明来源钻瓜专利网。