[发明专利]一种基于三倍比特量化及非对称距离的最近邻搜索方法在审
| 申请号: | 201810657217.8 | 申请日: | 2018-06-22 |
| 公开(公告)号: | CN108830333A | 公开(公告)日: | 2018-11-16 |
| 发明(设计)人: | 宋馥莉;鲁明;杜金宇;谢洪涛;张少岗 | 申请(专利权)人: | 河南广播电视大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 郑州联科专利事务所(普通合伙) 41104 | 代理人: | 刘建芳 |
| 地址: | 450000 河*** | 国省代码: | 河南;41 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 比特量化 最近邻搜索 非对称 二进制编码 海明距离 中间数据 中间向量 最近邻 映射 加权 查询 | ||
本发明提出了一种基于三倍比特量化及非对称距离的最近邻搜索方法,通过提出了三倍比特量化方法,设置中值,将中间数据划分为四类,并映射三倍比特量化的二进制编码值,并进一步计算得加权海明距离。通过采用本发明所提供的方法可有效提高中间向量的区分能力,提升最近邻的查询精度。
技术领域
本发明涉及高维数据计算领域,具体涉及一种基于三倍比特量化及非对称距离的最近邻搜索方法。
背景技术
最近邻搜索是很多视觉应用,如图像检索、目标识别以及拷贝检测的关键技术之一。最近邻搜索旨在高维大规模数据库中为查询数据找到与之最相似的数据。当在大规模数据库中寻找最近邻时,计算量较大的欧式距离通常被用来计算查询数据与数据库中所有数据之间的距离,这将造成严重的性能瓶颈。对最近邻搜索的性能的影响主要包括两个方面:计算时间和内存占用。而二进制编码正好能解决这两大问题。一方面,海明距离的计算非常高效,只需要极少的机器指令即可完成;另一方面,二进制编码占用的存储空间远远少于浮点型数据。
二进制编码的显著优势推动了二进制嵌入技术的发展。目前为止,研究学者已提出了很多成功的二进制嵌入方法。比如,局部敏感哈希(LSH)、谱哈希(SH)、主成分分析嵌入(PCAE)以及迭代量化主成分分析嵌入(PCAE-ITQ)。二进制嵌入技术把原始的浮点型特征转换为二进制编码,并且保证相似的特征能在很高的概率下被映射为相似的二进制编码。
下面简单描述二进制嵌入技术的步骤流程:
s表示一个在Ω空间下的K维图像特征,hk表示一种二进制嵌入方法,也就是说hk:Ω→{0,1}。一组由K个这样的二进制嵌入方法构成了集合H={hk,k=1...K},这个集合定义了一个多维的二进制嵌入方法h(s)=[h1(s)…hK(s)]′,使得特征s被映射为K比特的二进制编码h:Ω→{0,1}K。然而,原始的浮点型特征并非直接被映射为二进制编码。对很多二进制嵌入方法如LSH,SH,PCAE和PCAE-ITQ来说,二进制嵌入技术可以被分解为以下两个过程:
hk(s)=qk[gk(s)]
其中,(为中介空间)是投影函数,是量化函数。也就是说,二进制嵌入技术首先把原始的浮点型图像特征s投影为一个多维的浮点型向量g(s)=[gk(s),k=1...K]′,投影后的向量g(s)极好地保持了原始特征s的相似性。然后,投影得到的向量g(s)通过预先选取的阈值τ被量化为二进制编码。
但是,在一般情况下,阈值τ往往被设置为0。所以,如果gi(s)>0,mi被映射为1.否则,mi映射为0。也就是说,传统的量化方法只能粗略地把中间向量的每一维数据映射为两类(表示为0或者1),这样的量化方法大大地降低了中间向量的区分能力。同时,最近邻的查询精度不高,有待提高。
发明内容
针对现有技术中存在的技术问题,本发明提供了一种基于三倍比特量化及非对称距离的最近邻搜索方法。
本发明的技术方案为:
一种基于三倍比特量化及非对称距离的最近邻搜索方法,其特征在于:
S01:将数据库中每一个K维度的特征向量x,进行特征映射;其中,K表示所述特征向量x的维度个数;
S02:计算每一个维度上的中值nmi和pmi,其中,所述nmi和所述pmi分别表示第i维度的正数数据以及负数数据的中值,即nmi<0<pmi;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南广播电视大学,未经河南广播电视大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810657217.8/2.html,转载请声明来源钻瓜专利网。





