[发明专利]位置敏感哈希随机性减弱方法有效
申请号: | 201210170014.9 | 申请日: | 2012-05-28 |
公开(公告)号: | CN102722554A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 高毫林;郭志刚;李弼程;蔺博宇 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 陈大通 |
地址: | 450002*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 位置 敏感 随机性 减弱 方法 | ||
(一)、技术领域:本发明涉及一种检索方法,特别是涉及一种位置敏感哈希随机性减弱方法。
(二)、背景技术:相似性搜索在许多方面有着非常重要的作用,如数据压缩、数据挖掘、信息检索、图像和视频检索、机器学习、模式识别、统计和数据分析等等。这些研究中的对象一般能用相关特征的集合或高维空间中的点表示。这些点的维数范围很大,会从几十到几千。当维数较低的时候,这类问题比较容易,但当维数比较高时,解决起来会比较困难,也就是所谓的“维数灾难”。尽管经过了几十年的努力,现在的解决方案仍然不能让人十分满意。因为对于高维向量搜索,这些方法和线性穷尽搜索相比几乎没有什么优势甚至会退化到线性搜索。这种情况严重影响了相似性搜索的效果。
位置敏感哈希(LSH,Locality Sensitive Hashing)是当前解决高维空间近似最近邻(ANN,Approximate Nearest Neighbor)搜索问题的速度最快的方法。其中,LSH在汉明空间进行搜索,E2LSH(Exact Euclidean Locality Sensitive Hashing)是对LSH的改进之一,在欧氏空间进行搜索。与基于树的索引方法相比,它们不但复杂度低、支持维数高,而且检索时间大大缩短,在图像检索、复制检测等方向都有应用。
LSH和E2LSH作为ANN解决方案的基础在于相似性搜索并不一定要得出精确的最近邻,在许多情况下,近似最近邻提供的结果已经比较让人满意了,关键在于它能以更小的代价完成目标。但这是这个基础使得LSH不可避免的存在一定的随机性。这样的随机性如果得不到好的控制,就会影响算法的性能。如在基于视觉词典的图像和视频搜索工作中,可以用它来产生视觉词典,而视觉词典本身就存在着不确定性,如果对LSH聚类产生词典过程中不加以控制,它的随机性会加剧这种不确定性传播,严重影响最终结果。
LSH的基本思想是:如果两个点相距很近,那么在进行映射操作后,这两个点仍然相距很近。为了对这些点进行映射,要先建立哈希表。好的哈希表可以使一个点的查询在O(1)时间内和O(N)内存空间上完成查询,N是数据点的数目。
在实现时,LSH用一系列哈希函数对数据点进行哈希,使那些比较接近的点对于每个哈希函数发生冲突的概率比距离远的点要大,也就是把比较相近的点哈希到同一个桶。这样,通过对查询点进行哈希并获取它所在桶中的标志就可以进一步得到比较近的邻居。哈希运算需要定义位置敏感哈希(LSH)函数。对于点域S,LSH函数族定义如下:
函数族是位置敏感(locality sensitive)的,如果对于任何q,函数:||q-v||=t]与t呈严格递减关系。也就是说,点q和v冲突概率随着它们之间的距离的增加而减少。
这样,对于点v∈B(q,R)和点就有p(||q-v||)>p(||q-u||)。LSH函数族把点集S中的点哈希到某个域U,然后计算点q的哈希值,据此找到与它冲突的点。为减少运行时间,需增大[0,R]和[R,∞]之间冲突概率的差距,可将多个函数连接起来。例如,定义一个函数族g(v)=(h1(v),…hk(v)),其中并从中选择独立且分不一致的L个函数g1,…gL组成哈希函数族。在预处理过程中,算法把每个点存储在桶gj(v)中。给出查询点q后,算法搜索所有的桶g1,…gL,并对某个桶中发现的每个点v计算q到v的距离,如果||q-v||≤R,则认为v就是算法要得到的点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210170014.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种镜像连接半模基片集成波导
- 下一篇:一种可微调旋转的万向节底座