[发明专利]一种基于发布/订阅模式的分布式度量相似查询处理方法有效
申请号: | 201710408855.1 | 申请日: | 2017-06-02 |
公开(公告)号: | CN107273464B | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 高云君;陈璐;杨克宇;李信晗;陈刚;陈纯 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/245 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 发布 订阅 模式 分布式 度量 相似 查询 处理 方法 | ||
本发明公开了一种基于发布/订阅模式的分布式度量相似查询处理方法。在系统构建阶段,本发明将给定的度量空间数据集通过支枢点映射至向量空间;在分布式系统中,首先利用基于KD树的划分技术将数据划分到各个节点;其次各个节点建立局部索引并统计内部数据信息;最后各个节点组织成树形结构。在处理相似查询请求时,本发明在发布/订阅模式下,将查询请求作为任务发布到分布式系统中;各个工作节点利用基于相交的方法判断、订阅属于自己职责范围的任务,而后对其进行处理,将查询结果返回给用户。本发明充分利用了数据库中的索引、查询技术,采用统一的方法来处理度量相似查询,丰富和优化了分布式环境下的相似查询处理方法。
技术领域
本发明涉及数据库的索引与查询技术,特别是一种基于发布/订阅模式的分布式度量相似查询处理方法。
背景技术
度量相似查询包括度量空间区域查询和度量k最近邻查询。度量区域查询是指:给定度量空间中的一个数据集、一个查询点和一个距离阈值,找到给定数据集中与查询点距离小于阈值的所有数据对象。度量k最近邻查询是指:给定度量空间中的一个数据集、一个查询点和一个整数k,找到给定数据集中与查询点距离最近的k个数据对象。度量相似查询是数据库领域的重要查询类型,被广泛地应用于社会的各个领域中。
现有的查询处理大多关注欧氏空间,并用欧式距离来度量对象之间的邻近关系;但在许多的实际应用,如地理信息系统、数据挖掘、模式识别,对象之间的邻近关系并不能用欧式距离来度量,而需要用借助其它的距离度量方式。例如,路网上两个位置间的距离度量往往借助于路网距离;字符串之间的距离则更多使用编辑距离进行度量。
为此,我们需要借助度量空间进行统一表达。度量空间是支持任意距离函数的一种更为广泛的空间,只要求其距离度量函数满足非负性、对称性和三角不等式性。为了快速有效地组织、存储和访问度量空间数据,专家学者们提出了大量的索引方式。迄今为止,影响最大、应用最广泛的是M树索引结构。M 树是Ciaccia、Patella和Zezula在1997年提出的,它是一棵基于外存的平衡树,其更新操作代价小且无需重构树。
另一方面,随着互联网的发展,特别是移动设备的广泛使用,使得数据在体量,多样性和丰富度上有着极大的增长,这也对传统的度量相似查询算法在时间效率和空间效率上提出了挑战。因此,我们需要一种具有良好可伸缩性的度量相似查询处理方法来提供高效的查询处理服务以适应这样的场景。
目前,面向相似查询的方法大多针对欧式空间,并利用欧氏空间的几何特性以加速查询;但不幸的是,这些欧氏空间的几何特性并不能通用于度量空间。所以,这些方法不能用来解决度量相似查询。此外,现存集中式的度量相似查询方法因扩展性有限、查询效率低,并不能用来处理大规模数据。所以,设计一种具有高可扩展性、高效率的分布式度量相似查询处理方法成为了学术界与工业界的迫切需求。
发明内容
针对现有技术的不足,本发明提供一种基于发布/订阅模式的分布式度量相似查询处理方法。该方法在分布式系统中对数据进行划分后,建立局部M树索引,并将系统中的节点组织成树形结构,便于后续查询任务的处理;在处理用户相似查询请求时,本方法基于发布/订阅模式将查询请求包装成任务供对应的节点进行处理。
为了达到上述目的,本发明所采用技术方案如下:一种基于发布/订阅模式的分布式度量相似查询处理方法,具体包括如下步骤:
(1)对应用中给定的度量空间数据集进行随机采样,得到样本数据;
(2)对得到的样本数据进行支枢点选择,并据此将应用中给定的整个数据集(包括样本数据)从度量空间映射至向量空间;
(3)利用样本数据构建KD树,得到叶子节点对应的空间划分;
(4)根据步骤(3)得到空间划分,将应用中给定的度量空间数据集(包括样本数据)进行划分,并将划分后的数据分发到对应的工作节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710408855.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大数据文具检索系统
- 下一篇:SQL注入检测方法