[发明专利]基于高熵超平面簇的大规模数据局部敏感哈希搜索方法在审
申请号: | 201910040277.X | 申请日: | 2019-01-16 |
公开(公告)号: | CN109783497A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 肖如良;黄劲;邹利琼;杜欣;倪友聪;蔡声镇 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/953 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 戴雨君 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 超平面 高熵 哈希 大规模数据 哈希搜索 数据索引 查询 字典 最大熵原则 查询结果 估计算法 量化信息 矢量量化 数据分布 索引编码 索引构建 投影矢量 估测 敏感 数据点 组分割 映射 构建 索引 过滤 筛选 返回 赋予 | ||
本发明公开基于高熵超平面簇的大规模数据局部敏感哈希搜索方法,分为两个阶段:(1)索引构建:首先,采用矢量量化方法对数据分布进行估测,并在量化信息基础上构建一组分割数据的候选超平面;其次,利用分布估计算法根据最大熵原则对候选超平面进行筛选,得到多组高熵超平面簇;最后,利用高熵超平面簇作为投影矢量,为分布在超平面两侧的数据点赋予不同的哈希编码,形成多组高质量的数据索引字典;(2)查询阶段:首先,计算查询点在所有哈希字典中的编码映射;其次,根据查询点的哈希编码,找到具有相同哈希编码的数据索引集;最后,对返回的索引集过滤得到质量最高的查询结果。本发明具有较高的索引编码效率,相同编码长度下具有更高精确度和召回率。
技术领域
本发明涉及无线多媒体传感器网络技术领域,尤其涉及基于高熵超平面簇的大规模数据局部敏感哈希搜索方法。
背景技术
无线多媒体传感器网络(Wireless Multimedia Sensor Networks,WMSN)在国防军事,城市管理,生物医疗,环境监测等各个领域都具有广泛的应用前景。WMSN是由部署在环境中的大量多媒体传感器节点以自组织的方式构成的无线监测网络,其作用在于协同地采集目标区域中感知对象的信息,并汇总至中心节点进行统一处理。WMSN传感数据的组织和管理技术是WMSN应用的核心技术。WMSN监测系统通常由一个规模较大的分布式网络构成,其规模特性主要体现在两方面:(1)覆盖区域非常广阔;(2)节点分布非常密集。因此,整个网络会包含数量较多的传感器节点,在作业时将产生大量的高维度数据,这给中心节点的数据处理能力带来了很大的挑战。对大规模高维数据集的快速搜索已经呈现出巨大的应用潜力,构建一个性能良好的大规模高维数据索引结构将对WMSN的数据搜索有非常重要的应用意义。
大规模的WMSN数据搜索由三个步骤组成:(1)对原始监测数据进行特征提取;(2)在标准化数据上构建索引结构;(3)将查询对象映射到索引结构中,得到查询结果。其中,第一个步骤属于表示学习的研究范畴,目前已有很多研究成果。本发明将针对第二个及第三个步骤进行研究。
一般的数据搜索应用中由于其数据规模小,常规的树形索引结构就可以达到很好的检索性能。但WMSN应用通常具备两个特点:(1)很大的数据规模;(2)很高的数据维度。常规的索引结构在这样大规模的高维数据集中检索性能将大幅下降,在WMSN实际场景下已呈现出应用瓶颈。目前,在学术界以及工业界已有许多的相关研究工作[15-17,19-22]。这些方法大多从降低数据维度的角度出发,通过较短的数据索引编码实现快速近似近邻搜索。其索引结构主要有二种类型的构建方法:其一,基于哈希的索引结构构建方法;其二,基于量化方法的索引结构构建方法。前者以局部敏感哈希(Locality Sensitive Hashing)算法为代表,通过把相似的点映射到相同的索引编码中来实现近邻搜索;后者通过合理地分割数据,来构建基于数据簇代表点的索引结构。这两种方法都是利用一对多的索引编码的思想来实现近似查询。
为了充分利用原始数据特征,提高算法的检索速度,已有很多学者做了大量的工作。Princeton University的Charikar于2002年提出了基于随机投影的局部敏感哈希方法,以投影的方式取代了传统哈希算法中较为复杂的变换操作,提升了局部敏感哈希算法的查询速度。但由于其算法中的投影平面是随机产生的,平均质量较低,因此其索引结构需要消耗较大的空间资源。微软亚洲研究院的Xin-Jing于2006年提出用主成分分析方法对局部敏感哈希中的投影进行优化,在一定程度上改善了投影平面的质量,但主成分分析方法在大规模高维数据集中需要消耗较多的时间资源。2012年,北京邮电大学的Wang Qiang尝试用最大熵原则[28,29]来指导局部敏感哈希函数的优化,但由于算法引入了较高的时间复杂度,在实用性上仍存在缺陷。同年,浙江大学的Lin Yue提出了密度敏感哈希方法(Density Sensitive Hshing,DSH),通过原始数据的密度信息优化局部敏感哈希算法中的投影平面,并利用最大熵原则对投影平面进行筛选。由于DSH只考虑单个投影平面的信息熵,因此当编码长度上升时,由于候选平面的增多,其高熵投影平面将趋于同质化,使平面簇总体质量下降,导致搜索精度降低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910040277.X/2.html,转载请声明来源钻瓜专利网。