[发明专利]一种基于自适应的二进制量化哈希编码的数据检索方法有效
申请号: | 201710375388.7 | 申请日: | 2017-05-24 |
公开(公告)号: | CN107341178B | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 刘祥龙;夏柯 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06K9/62 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 二进制 量化 编码 数据 检索 方法 | ||
本发明提供了一种基于自适应的二进制量化哈希编码的数据检索方法,包括:S1,选取数据空间中的聚类中心构成聚类中心集合,并分别为每个聚类中心赋予海明空间中的二进制编码,得到对应的二进制编码集合;S2,根据得到的二进制编码集合,更新所述聚类中心集合和所述数据空间的数据所属的聚类中心,直到所述数据空间与所述海明空间对齐,将所述数据空间的所有数据映射至其所属聚类中心对应的二进制编码,以完成哈希编码。本发明提供的一种基于自适应的二进制量化哈希编码的数据检索方法,采取非完全编码的方案,自适应地确定聚类中心的数量和对应的二进制编码,从而减少量化损失,提高哈希检索的性能。
技术领域
本发明涉及计算机数据检索领域,更具体地,涉及一种基于自适应的二进制量化哈希编码的数据检索方法。
背景技术
目前,随着大数据时代的到来,互联网上每时每刻都在产生海量的图像、视频等等非结构化数据,如何对这些数据建立高效的检索算法成为了一个亟待解决的问题。在实际应用中,人们常常需要查询给定样例的最相似对象,而数据通常表示为由特征提取得到的特征向量,例如图像局部特征采用尺寸不变特征变换算法(Scale-invariant featuretransform,SIFT)得到特征向量,全局特征采用通用搜索树算法(Generalized SearchTrees,GIST)得到特征向量,因此问题就转化成在高维特征空间中的最近邻搜索问题。如果采用简单的顺序扫描的方法进行搜索,将面临维数过高和数据规模过大两重困难,效率非常低下。实际上,用户查询时并不苛求查询结果必须是严格的最近邻,近似最近邻搜索(Approximate Nearest Neighbor,ANN)足以满足需求。因为近似最邻近搜索允许一定的相似误差,返回近似的最近邻结果,从而降低搜索空间,提高查询效率。ANN算法的一个典型代表是基于树结构的索引方法,例如k-D树,但这类方法仅在处理低维数据时效果较好,随着维数的增长,其性能甚至会低于线性扫描。另外基于树的最近邻搜索很少能够在理论上保证最近邻搜索的准确率。
近年来,以位置敏感哈希(Locality Sensitive Hash,LSH)为代表的基于哈希的ANN方法因其存储效率高、检索速度快的优势得到了广泛关注。这类方法将高维特征映射为海明空间中的二元编码,使海明空间在一定程度上保持了原有空间的信息。通过采取由粗到细的查询策略,哈希编码方法可以在不牺牲过多查询精度的前提下,大幅度提高检索效率。在空间消耗方面,由于哈希编码方法使用压缩二进制编码,数据长度大大缩短,降低了数据存储消耗。在时间消耗方面,查询时利用哈希编码的海明距离,而这个过程涉及二进制位操作,直接为计算机底层硬件支持,具有非常快的检索速度。因此,利用此类哈希方法进行最近邻搜索,具有空间、时间上的双重优势。
但是,目前的方法大多试图建立数据空间到编码空间的一个完备匹配,而数据分布通常并不满足编码空间中的规则的超立方体结构,因此这些方法难以保持空间关系,从而检索效果不优。
发明内容
为克服上述问题或者至少部分地解决上述问题,本发明提供了一种基于自适应的二进制量化哈希编码的数据检索方法。
一方面,本发明提供了一种基于自适应的二进制量化哈希编码的数据检索方法,包括:S1,选取数据空间中的聚类中心构成聚类中心集合,并分别为每个聚类中心赋予海明空间中的二进制编码,得到对应的二进制编码集合;所述数据空间的数据为非结构化数据;S2,根据得到的所述二进制编码集合,更新所述聚类中心集合和所述数据空间的数据所属的聚类中心,直到所述数据空间与所述海明空间对齐,将所述数据空间的所有数据映射至其所属聚类中心对应的二进制编码,以完成哈希编码;S3,基于完成的哈希编码,对所述数据空间的数据进行检索。
优选的,所述S1具体包括:S11,随机选取数据空间中的聚类中心构成聚类中心集合;S12,根据贪心算法,在海明空间中获取构成的超立方体结构与所述数据空间结构最一致的二进制编码,构成二进制编码集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710375388.7/2.html,转载请声明来源钻瓜专利网。