[发明专利]一种支持高维数据实时有偏查询的并行索引方法有效
申请号: | 201310041516.6 | 申请日: | 2013-02-01 |
公开(公告)号: | CN103455531A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 王寅峰;邓果丽;许志良 | 申请(专利权)人: | 深圳信息职业技术学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 梁珣 |
地址: | 518029 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 高维数 据实 时有 查询 并行 索引 方法 | ||
技术领域
本发明属于搜索技术领域,尤其涉及一种支持高维数据实时有偏查询的并行索引方法。
背景技术
高维数据:指属性(特征)多于20维的数据。各种类型的交易数据、社交网络信息、Web文档和使用数据、地理信息、文档词频数据、用户评分数据、多媒体数据等呈现出多源、海量、异构(非结构化的数据模型)与高维的特征即它们的维度(属性)通常可以达到成百上千维,甚至更高,造成各种应用中需要检索的数据日益复杂且数据量急剧膨胀。有偏查询:用户基于自身的偏好与在环境交互中的体验,在不同的场景中仅对数据属性中的某些特征维比较关心,选取部分特征(动态选择几个或更多特征)作为检索的要求,同时所选维度也具有了随机(用户定义)的权重,呈现出有偏(Bias-based)查询的特征。KNN相似搜索:K最邻近结点(k-Nearest Neighbor)搜索,不同于范围(Range)搜索,不能预先确定要搜索的范围,即最近邻节点可能很近也可能很远(相对搜索条件而言)。
并行索引:采用多个索引服务器构建索引,索引服务器具备通讯接口可以接受查询命令,每个服务器分别选取部分维度建立索引关系,各个索引服务器间的维度以正交关系为主,避免冗余。相似性度量:相似性度量是衡量两个案例相似的依据,是相似性查询的基础。一方面,相似性度量影响到查询的完备性;另一方面,相似性度量的选择决定了相似性查询能否描述案例中的关系与构建索引的方法。高维数据的相似性度量主要分为两步完成:1)通过一定的形式表示可以度量的特征;2)给出度量接近程度的函数。海量数据:指要处理的数据量规模非常大(记录一般超过100万条)、数据的内容和关系也很丰富,如各种空间数据、交易数据、报表统计数据、文字、声音、图像、超文本等各种环境和文化数据信息。实时性:不仅仅是响应快或者低延迟,更主要的是系统必须在限定时间内做出反应,即:在限定的时间内必有响应。hash函数:就是把任意长的输入字符串变化成固定长的输出字符串的一种函数。通俗的说,hash函数用来生成信息的摘要。输出字符串的长度称为hash函数的位数。
现有技术提供的高维数据索引方法主要包括:
以空间划分方法为主的聚类索引
B树、R树、K-D树、X树、M树这些树形索引及其基础上的各种变形,如B+树,R*树等等均采用基于向量或度量空间划分的方法,能够很好的解决低维(少于20维)数据中的索引问题。但是这些索引机制其需要划分的空间随着维数的增加而成指数增长,造成其查找性能随维数增加急剧下降,不能有效的支持高维数据索引。
使用空间填充曲线的索引方法
希尔伯特、Z,Gray等填充曲线法的基本思想是用一维的线来填满二维的平面,从而达到快速查找的目的。但是填充曲线法一方面面临单位空间的数目随着维度增加而成指数增长,另一方面在进行kNN搜索时要查找的相邻空间数目也呈指数增长。由于空间数据稀疏的特性,即使付出很高的地址映射计算代价如采用多条填充曲线,也不能在确定的时间保证完成近邻数据搜索。
位置敏感哈希函数(Locality Sensitive Hashing,LSH)索引方法
在保证较查询高准确性的前提下,时间和空间复杂度得到降低,并且能够很好地支持高维数据的检索,但是预先构建完成的索引机制如何支持用户对任意特征属性的动态组合查询是高维数据索引技术所面临的挑战。
发明内容
本发明实施例的目的在于提供一种支持高维数据实时有偏查询的并行索引方法,旨在解决现有处理海量数据有偏查询搜索中实时性、可扩展性无法满足的问题。
本发明实施例是这样实现的,一种支持高维数据实时有偏查询的并行索引方法,所述方法包括:
查询系统使用MapReduce对数据属性进行特征抽取作为输入,由查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数,然后以所述哈希函数优化LSH算法分别构建数据的向量索引,其中,各个索引服务器的向量索引之间形成正交关系;
查询系统接收用户的有偏查询,通过有向聚类映射方法将有偏查询所携带的距离改变投影以映射到该查询系统的多个索引服务器中;
如果所述映射的误差超过用户能够接受的范围,查询系统将有偏查询提交并行组合的索引服务器分别处理;并行组合的索引服务器按所述有偏查询中的用户给出的权重的比例分别返回经筛选后的结果,然后对所有返回的结果进行计算与合并,确保在确定的时间内返回查询响应的结果。
可选的,所述查询系统中的多个索引服务器采用数据密度弹性划分数据桶的哈希函数具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳信息职业技术学院,未经深圳信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310041516.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能配电网模型库系统
- 下一篇:服饰搜索方法及系统