[发明专利]一种基于位置敏感哈希的分布式索引方法在审

申请号：	201310746690.0	申请日：	2013-12-30
公开（公告）号：	CN103744934A	公开（公告）日：	2014-04-23
发明（设计）人：	武港山;徐向阳	申请（专利权）人：	南京大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京天翼专利代理有限责任公司 32112	代理人：	黄明哲
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于位置敏感分布式索引方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于位置敏感哈希的分布式索引方法，其特征是以多台计算机作为节点，多机协同创建索引与搜索，包括以下步骤：

1)对原始海量数据利用聚类方法进行聚类，所述原始海量数据指被检索的原始海量图片或视频特征数据；

2)聚类结束后，将每个聚类中心映射到不同计算机节点上；

3)将原始海量数据映射到所属类对应的节点上，每个节点处理一个类，映射到节点上的数据作为该节点的特征数据点；

4)利用基于p-稳定分布的位置敏感哈希方法建立不同节点上的数据索引，即分布式索引，以供后续搜索；

5)根据得到的分布式索引，对查询特征数据点进行分布式搜索，所述查询特征数据点指待搜索的特征数据点。

2.根据权利要求1所述的一种基于位置敏感哈希的分布式索引方法，其特征是步骤1)对原始海量数据进行聚类时，首先对原始海量数据进行采样，然后在样本数据集上利用聚类算法进行聚类，进行聚类计算时，利用MapReduce对采样数据进行并行聚类，得到聚类结果，所述聚类算法包括k-means，BIRCH，CLIQUE，SUBCLU，DBSCAN和近邻传播。

3.根据权利要求1或2所述的一种基于位置敏感哈希的分布式索引方法，其特征是步骤4)具体为：

4.1)生成基于p-稳定分布的位置敏感哈希的哈希函数i=1，...，N，其中N为哈希函数的个数，a_i为d维向量，其元素是服从高斯分布的随机数，v表示d维特征数据点，b_i是随机偏移，服从区间[0，w]上的均匀分布，w为一正整数，根据不同的应用场景设定；一共生成L×k个哈希函数对每个特征数据点利用生成的L×k个哈希函数进行哈希，供特征数据点所属的节点使用，k和L的选择对应于搜索结果质量和搜索反应速度，设定标准为p₁是位置敏感哈希函数族中近距离数据点的至少冲突概率，δ是搜索结果的最低召回率；

4.2)计算每个节点上的各特征数据点的哈希值g₀，…，g_L-1，得到节点的哈希表，其中g_f=(h_f0，…，h_f(k-1))，f=0，...，L-1，即对于每一特征数据点，将哈希得到的L×k个哈希结果每k个拼接到一起，组成一个k维向量g_f=(h_f0，…，h_f(k-1))，共L组k维向量，用这L组哈希结果向量来构成索引文件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310746690.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于生成与目标系统对应的用户页面方法和装置
下一篇：用于电子化文章的商品口碑辨识方法及其系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于位置敏感哈希的分布式索引方法在审

专利文献下载