[发明专利]联机分析处理中分布式计算及查询海量数据的方法和系统无效
申请号: | 200710032157.2 | 申请日: | 2007-12-06 |
公开(公告)号: | CN101183368A | 公开(公告)日: | 2008-05-21 |
发明(设计)人: | 奚建清;游进国;陈虎;张平建 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州粤高专利代理有限公司 | 代理人: | 何淑珍 |
地址: | 510640广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联机 分析 处理 分布式 计算 查询 海量 数据 方法 系统 | ||
技术领域
本发明涉及联机分析处理(OLAP)中分布式预计算及查询的方法及系统,尤其是针对海量数据的OLAP处理。
背景技术
OLAP是近年来研究的热点,它以维度模型,即数据立方体为核心,以分析为目标,通过预聚合的技术为用户提供多视角的在线数据分析。然而随着Internet的不断发展和用户需求的日益复杂性,高维以及大容量数据将会使数据立方体产生信息爆炸,如何对其有效地压缩并快速计算,已成为OLAP面临的一大挑战。
当前研究者提出了许多数据立方体压缩算法。Yannis Sismanis等人在2002年提出Dwarf Cube,该方法通过识别相同前缀和相同后缀来消除空间冗余。Laks V.S.Lakshmanany、Jian Pei等2002年提出了Quotient Cube方法,其将度量相等,且具有上卷下钻语义的一组单元无损压缩成该组中的有且仅有一个的上界,并采用自底向上,深度优先的DFS算法计算出上界集。其后Dong Xin等人于2006年称Quotient Cube为更有直观意义的封闭立方体,即closed cube,相应上界称为封闭单元,并且提出基于度量的方法有效进行单元封闭性判断,即C-Cubing。以上算法主要是基于共享元组思想对数据立方体进行压缩,而view selection、iceberg等采用了部分物化策略。然而它们大多数基于如下假设:单机处理,内存无限。面临大容量数据,这些算法却没有提出一个有效的方法和系统。shell fragments垂直分割高维数据集为多个低维数据集,即fragments,然而却没有研究怎样对fragments并行或分布式处理;cgmCUBE项目研究并行的数据立方体计算,但它采用的pipesort算法没有对数据立方体压缩,因而十分消耗空间占用,并且它是针对ROLAP(Relational OLAP)。存储模式,并不是本发明要处理的MOLAP(Multidimensional OLAP)存储模式。MapReduce是最近在并行处理领域中提出的一种实现分布式计算任务的通用框架或编程模式,它简化了由普通机器组成的超大集群上数据处理任务;在该框架中,用户只需要把主要精力专注于怎样实现map和reduce这两个函数来满足业务需求,而像数据切割、任务调度、结点通讯、系统容错等通用功能由MapReduce自动完成。然而当前文献没有研究利用MapReduce如何处理数据立方体的计算和查询任务,以及Map和Reduce的任务个数多少时,能使数据立方体取得存储空间和查询时间上的平衡。
综合上述,当前针对大容量数据集简单而有效的OLAP计算仍需要进一步的研究和改进,不仅要对数据立方体做进一步的压缩,而且要求查询响应速度快。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种联机分析处理中分布式计算及查询海量数据的方法和系统,即基于MapReduce的封闭立方体的分布式预计算和查询。
封闭立方体(closed cube)是迄今为止,已知最好的数据立方体压缩算法。它在最大压缩数据空间的同时还保留了数据单元间上卷下钻的语义关联信息。本发明提供的方法中将封闭立方体的预计算和查询在MapReduce下分布式处理。
本发明提供的方法包括如下步骤:
1)根据用户指定对空间存储和查询时间的需求,计算出合适的Map任务个数;
2)MapReduce对要计算的大容量数据集进行分块,每块的大小等于该数据集的大小除以Map任务的个数,并将数据块分发到节点上;
3)节点上的Map任务对其数据块计算并输出一个本地封闭立方体;
4)用户请求查询,MapReduce将该查询提交到节点上的Map任务;
5)Map任务对该节点上的本地封闭立方体进行查询,并返回对应的度量值;
6)Reduce任务将各个返回的度量值聚合为一个值交给用户。
上述数据块的个数等于所述Map任务的个数。
上述本地封闭立方体与所述其数据块是一一对应的,一个数据块只生成一个封闭立方体;一个封闭立方体也只来自一个数据块。
上述方法中,所有本地封闭立方体总的大小由预计算Map任务的个数决定,并随着所述预计算Map任务的增加而减小,直至所有本地封闭立方体总的大小等于所述数据集的大小。所述本地封闭立方体并不合并成一个全局的封闭立方体,从而可以获得更大的压缩率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710032157.2/2.html,转载请声明来源钻瓜专利网。