[发明专利]一种基于IDistance的细粒度位码过滤的相似性检索方法有效
申请号: | 201610124087.2 | 申请日: | 2016-03-04 |
公开(公告)号: | CN105574214B | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 袁鑫攀;汪灿飞;何岸;向一平;朱艳辉;满君丰;李长云 | 申请(专利权)人: | 湖南工业大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 任重;冯振宁 |
地址: | 412000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于IDistance的细粒度位码(fine grained bit code,简称FGBC)过滤的相似性检索方法:该方法在建立索引时,划分了更加细粒度的区域,每个区域对应一个FGBC码,利用FGBC码实现了环体搜索得到的候选集更精准的过滤。相较BC码过滤,FGBC‑IDistance的距离计算次数最多能减少到1/22d,在距离计算次数上比较为:FGBC‑IDistance≤BC‑IDistance≤IDistance。 | ||
搜索关键词: | 一种 基于 idistance 细粒度 过滤 相似性 检索 方法 | ||
【主权项】:
1.一种基于IDistance的细粒度位码过滤的相似性检索方法,其特征在于,包括以下步骤:S1、建立FGBC‑IDistance的索引结构图;S11、在锚点Pi(Pi1,Pi2,…,Pij,…,Pid)的每一维的两边再寻找2个锚点作为次锚点,次锚点用((L1,R1),(L2,R2),…,(Lj,Rj)…,(Ld,Rd))表示,Rj>Lj,1≤j≤d,Pij表示锚点Pi在第j维上的值,Rj和Lj表示锚点Pi的第j维上的两个次锚点;S12、细粒度位码FGBC,设向量S(S1,S2,…,Sd)所属的聚类子空间的锚点为Pi(Pi1,Pi2,…,Pij,…,Pid),向量S的FGBC码表示为BS(bS11bS12,bS21bS22,…,bSj1bSj2,…,bSd1bSd2),其中bSj1bSj2满足公式(1):其中,bSj1bSj2是向量S在锚点Pi的第j维上的位码,Sj是向量S在第j维上的值;S13、建立索引结构图;S2、基于FGBC‑IDistance的索引结构图进行检索,检索过程为:S21、通过IDistance检索获得候选集通过和各个锚点Pi的距离来测算:查询点q的搜索圆是否与该锚点Pi的向量子集相交;相交的判断公式为:dist(q,Pi)Ci+r其中,函数dist(q,Pi)表示查询点q到锚点Pi的距离,Ci为锚点Pi的向量子集中离锚点Pi最远的向量的距离,r为查询点q的搜索圆的半径;若不相交则该锚点的向量子集中无检索目标点;若相交,则确定锚点Pi搜索的距离(dist)环体范围:{x∈Pi,max(dist(Pi,q)‑r,0)<dist(Pi,x)<min(dist(Pi,q)+r,Ci)}其中,x表示任意向量;从而确定iDist的搜索范围:{x∈Pi,i*c+max(dist(Pi,q)‑r,0)<iDist(Pi,x)<i*c+min(dist(Pi,q)+r,Ci)}检索到的向量集则为候选集;S22、对候选集中的每个向量进行FGBC码过滤;判断是否过滤的原则是:查询点q的搜索圆和锚点Pi的FGBC码所在区域是否相交,若相交则不过滤,若不相交则过滤;FGBC码所在区域是FGBC码将锚点Pi聚类子空间的每一维分成4个区域,每一维度产生的位码长度为2,则d维的数据产生的位码长度为2d,位码将整个聚类子空间划分成了22d个小区域;S23、对过滤后的候选集中的每个向量与查询点q进行距离计算,若距离小于r,则进入最终的检索结果集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工业大学,未经湖南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610124087.2/,转载请声明来源钻瓜专利网。