[发明专利]云存储系统中基于数据分布感知的近邻查询方法有效
申请号: | 201710822371.1 | 申请日: | 2017-09-13 |
公开(公告)号: | CN107656989B | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | 华宇;孙园园;冯丹;左鹏飞 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06F16/28 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 廖盈春;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种云存储系统中基于数据分布感知的近邻查询方法,该方法利用数据的主成分作为局部灵敏哈希的投影向量,并进一步量化索引表中每个哈希函数的权值和调整每个哈希表中哈希函数的切割间隔大小,以保证近邻查询精确度的同时减少构建索引所需的哈希表数量,从而减少哈希表的空间开销。进一步地,该方法根据近邻查询结果的哈希冲突频率来精炼查询结果集合,消除大量不相关的元素,极大地减小了用于距离计算的数据量,减小了查询时延,本发明能够充分利用数据分布的特性,满足快速查询特性,并具有良好的可拓展性。 | ||
搜索关键词: | 存储系统 基于 数据 分布 感知 近邻 查询 方法 | ||
【主权项】:
1.一种云存储系统中基于数据分布感知的近邻查询方法,其特征在于,包括:S1、从原始高维数据集中随机抽取部分数据组成高维特征数据集;S2、将高维特征数据集中的每一个元素表示为一个多维向量,以将高维特征数据集表示为由多个多维向量组成的矩阵,通过主成分分析来离线计算该矩阵的协方差矩阵,进而得到该矩阵的特征向量和特征值;S3、获取索引表中所需哈希表个数,每个哈希表中哈希函数个数以及冲突阈值;S4、按照特征值的降序顺序,将各特征值对应的特征向量一一对应的作为哈希函数的投影向量,并根据特征向量对应的特征值计算每个哈希表中每个哈希函数的权值,然后调整每个哈希表中哈希函数的切割间隔大小,最后将原始高维数据集通过优化得到的哈希函数映射到整个索引表中,产生哈希冲突的元素通过链表存储;S5、对于每一个查询点,在每个哈希表中,通过优化后的哈希函数计算得到相应的哈希值,通过哈希值定位到哈希表中发生哈希冲突的位置,将该位置的链表中所有元素都存入结果候选集合中,记录结果候选集合中每个元素与查询点产生哈希冲突的次数,将小于预设冲突阈值的元素去除,得到近邻查询集合,通过将近邻查询集合中的每个点与查询点进行距离计算比较,输出所有与查询点距离小于预设距离阈值的元素。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710822371.1/,转载请声明来源钻瓜专利网。
- 上一篇:文档编辑方法及系统
- 下一篇:一种基于字和词两个层面特征信息的文本分类方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置