[发明专利]一种基于IDistance的细粒度位码过滤的相似性检索方法有效
| 申请号: | 201610124087.2 | 申请日: | 2016-03-04 |
| 公开(公告)号: | CN105574214B | 公开(公告)日: | 2019-04-09 |
| 发明(设计)人: | 袁鑫攀;汪灿飞;何岸;向一平;朱艳辉;满君丰;李长云 | 申请(专利权)人: | 湖南工业大学 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 任重;冯振宁 |
| 地址: | 412000 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 idistance 细粒度 过滤 相似性 检索 方法 | ||
1.一种基于IDistance的细粒度位码过滤的相似性检索方法,其特征在于,包括以下步骤:
S1、建立FGBC-IDistance的索引结构图;
S11、在锚点Pi(Pi1,Pi2,…,Pij,…,Pid)的每一维的两边再寻找2个锚点作为次锚点,次锚点用((L1,R1),(L2,R2),…,(Lj,Rj)…,(Ld,Rd))表示,Rj>Lj,1≤j≤d,Pij表示锚点Pi在第j维上的值,Rj和Lj表示锚点Pi的第j维上的两个次锚点;
S12、细粒度位码FGBC,设向量S(S1,S2,…,Sd)所属的聚类子空间的锚点为Pi(Pi1,Pi2,…,Pij,…,Pid),向量S的FGBC码表示为BS(bS11bS12,bS21bS22,…,bSj1bSj2,…,bSd1bSd2),其中bSj1bSj2满足公式(1):
其中,bSj1bSj2是向量S在锚点Pi的第j维上的位码,Sj是向量S在第j维上的值;
S13、建立索引结构图;
S2、基于FGBC-IDistance的索引结构图进行检索,检索过程为:
S21、通过IDistance检索获得候选集
通过和各个锚点Pi的距离来测算:查询点q的搜索圆是否与该锚点Pi的向量子集相交;
相交的判断公式为:dist(q,Pi)<Ci+r
不相交的判断公式为:dist(q,Pi)>Ci+r
其中,函数dist(q,Pi)表示查询点q到锚点Pi的距离,Ci为锚点Pi的向量子集中离锚点Pi最远的向量的距离,r为查询点q的搜索圆的半径;
若不相交则该锚点的向量子集中无检索目标点;
若相交,则确定锚点Pi搜索的距离(dist)环体范围:
{x∈Pi,max(dist(Pi,q)-r,0)<dist(Pi,x)<min(dist(Pi,q)+r,Ci)}
其中,x表示任意向量;
从而确定iDist的搜索范围:
{x∈Pi,i*c+max(dist(Pi,q)-r,0)<iDist(Pi,x)<i*c+min(dist(Pi,q)+r,Ci)}检索到的向量集则为候选集;
S22、对候选集中的每个向量进行FGBC码过滤;
判断是否过滤的原则是:查询点q的搜索圆和锚点Pi的FGBC码所在区域是否相交,若相交则不过滤,若不相交则过滤;
FGBC码所在区域是FGBC码将锚点Pi聚类子空间的每一维分成4个区域,每一维度产生的位码长度为2,则d维的数据产生的位码长度为2d,位码将整个聚类子空间划分成了22d个小区域;
S23、对过滤后的候选集中的每个向量与查询点q进行距离计算,若距离小于r,则进入最终的检索结果集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工业大学,未经湖南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610124087.2/1.html,转载请声明来源钻瓜专利网。





