[发明专利]云存储系统中基于数据分布感知的近邻查询方法有效

专利信息
申请号: 201710822371.1 申请日: 2017-09-13
公开(公告)号: CN107656989B 公开(公告)日: 2019-09-13
发明(设计)人: 华宇;孙园园;冯丹;左鹏飞 申请(专利权)人: 华中科技大学
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2458;G06F16/28
代理公司: 华中科技大学专利中心 42201 代理人: 廖盈春;李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种云存储系统中基于数据分布感知的近邻查询方法,该方法利用数据的主成分作为局部灵敏哈希的投影向量,并进一步量化索引表中每个哈希函数的权值和调整每个哈希表中哈希函数的切割间隔大小,以保证近邻查询精确度的同时减少构建索引所需的哈希表数量,从而减少哈希表的空间开销。进一步地,该方法根据近邻查询结果的哈希冲突频率来精炼查询结果集合,消除大量不相关的元素,极大地减小了用于距离计算的数据量,减小了查询时延,本发明能够充分利用数据分布的特性,满足快速查询特性,并具有良好的可拓展性。
搜索关键词: 存储系统 基于 数据 分布 感知 近邻 查询 方法
【主权项】:
1.一种云存储系统中基于数据分布感知的近邻查询方法,其特征在于,包括:S1、从原始高维数据集中随机抽取部分数据组成高维特征数据集;S2、将高维特征数据集中的每一个元素表示为一个多维向量,以将高维特征数据集表示为由多个多维向量组成的矩阵,通过主成分分析来离线计算该矩阵的协方差矩阵,进而得到该矩阵的特征向量和特征值;S3、获取索引表中所需哈希表个数,每个哈希表中哈希函数个数以及冲突阈值;S4、按照特征值的降序顺序,将各特征值对应的特征向量一一对应的作为哈希函数的投影向量,并根据特征向量对应的特征值计算每个哈希表中每个哈希函数的权值,然后调整每个哈希表中哈希函数的切割间隔大小,最后将原始高维数据集通过优化得到的哈希函数映射到整个索引表中,产生哈希冲突的元素通过链表存储;S5、对于每一个查询点,在每个哈希表中,通过优化后的哈希函数计算得到相应的哈希值,通过哈希值定位到哈希表中发生哈希冲突的位置,将该位置的链表中所有元素都存入结果候选集合中,记录结果候选集合中每个元素与查询点产生哈希冲突的次数,将小于预设冲突阈值的元素去除,得到近邻查询集合,通过将近邻查询集合中的每个点与查询点进行距离计算比较,输出所有与查询点距离小于预设距离阈值的元素。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710822371.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top