[发明专利]一种基于MapReduce的并行数据立方构建方法在审
申请号: | 201910879241.0 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110597929A | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 李晓涛;朱海平;金炯华;倪明堂;黄培;张卫平;吴淑敏 | 申请(专利权)人: | 广东省智能机器人研究院 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/21;G06F16/23 |
代理公司: | 44102 广州粤高专利商标代理有限公司 | 代理人: | 罗晓林;杨桂洋 |
地址: | 523000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 等价 并行 数据立方结构 并行数据 高压缩性 可扩展性 快速查询 优化操作 增量更新 并行性 高压缩 索引性 分割 索引 存储 查询 更新 | ||
一种基于MapReduce的并行数据立方构建方法,包括以下步骤:S1,Dwarf数据立方划分,对Dwarf数据立方进行等价分割,划分成为若干个子Dwarf数据立方;S2,并行Dwarf数据立方构建,根据等价分割后的子Dwarf数据立方,进行并行的建立、查询、更新和优化操作,完成Dwarf数据立方的构建。本发明一方面结合了MapReduce框架的并行性和高可扩展性,另一方面结合了Dwarf数据立方结构的数据高压缩性及数据的自索引性,既实现了数据立方的高压缩存储、提供快速的构造、增量更新操作,又克服了MapReduce机制没有索引的劣势,实现了数据立方上的快速查询操作。
技术领域
本发明涉及一种数据压缩方法,具体地说是一种基于MapReduce的并行数据立方构建方法。
背景技术
随着数字技术和计算机信息化的普及和发展,大多数企业都采用了计算机进行管理和运营。这些计算机系统通常都具有强大的收集、存储和处理数据的能力。生产监控数据、医疗数据、人口统计数据、财经数据和海洋数据等,这些日积月累的数据形成了一个巨大的“宝藏”。随着市场竞争的加剧和信息社会需求的发展,从大量数据中挖掘规律性知识,指导制定生产和营销策略,就显得越来越重要。数据仓库技术和联机分析处理OLAP技术正是为此提供解决方案而产生的,它能实现对海量数据的存储管理,并给用户提供了交互的、多维的、多角度的数据结果展示方式,应分析人员要求快速、灵活地进行大数据量的复杂查询处理。数据仓库中OLAP应用需要对大量数据进行聚集计算,对系统的查询性能有较高要求。数据仓库和OLAP分析都是基于多维模型的,而多维模型将数据看作数据立方cube的形式。为了有效地提高数据仓库和OLAP分析的查询性能,在数据仓库中预计算并储存数据立方是非常必要的。预先计算并实例化数据立方,就可以缩短查询的响应时间。数据立方对所有可能的分组属性组合进行预先聚集计算,并将聚集结果实例化存储,是联机分析处理的核心。但针对不断庞大的数据总量和越来越快的信息增长速度,数据立方的尺寸会急剧增长,数据立方的存储空间大小成为数据立方的一个很重要的问题。为了减小数据立方的存储尺寸,很多数据立方的压缩方法被研究。
Dwarf数据立方对于计算、存储、查询来说是一种高度的压缩结构。通过研究发现,在数据立方中存在大量的前缀冗余和后缀冗余。一般来说,数据方体中数据密集的地方前缀冗余比较多,数据稀疏的地方后缀冗余比较多。Dwarf数据立方是将具有相同前缀和后缀的数据元素压缩存储在一起,消除了这两种类型的冗余信息,大大缩减了数据立方的存储空间,将一个完全实例化的数据立方缩减到一个非常密集的数据结构中。通过消除数据的前缀冗余和后缀冗余来实现对cube压缩的目的,对cube的压缩比比较高,是一种比较有效的cube压缩算法。但随着数据量的快速增加,由于传统Dwarf立方采取单一数据文件和单机构建的方式,所以传统Dwarf立方的构造速度变的十分缓慢,数据立方的结构也变得非常复杂,远远跟不上大数据时代实际应用的需求。
而诸如MapReduce等分布式计算架构的出现,为数据立方的并行构建带来了契机。Google公司提出的分布式并行计算框架MapReduce,它简化了超大集群上的数据处理任务,可以实现应用程序和底层分布式处理机制的隔离。用户只需考虑如何实现Map和Reduce过程以满足业务需求,数据切割、任务调度、节点通信和系统容错等功能均由MapReduce自动完成。如果将数据立方的压缩、构建、查询等与MapReduce架构相结合,一定可以达到良好的效果。
综上所述,数据立方技术是数据仓库、OLAP分析、大数据处理等技术中的重要研究内容,不仅具有重要的理论研究意义,而且具有广泛的实际应用价值。而随着大数据时代各个领域内数据量的快速增加,数据立方的尺寸会急剧增长,数据立方的压缩技术成为一个核心的研究问题。
发明内容
为了解决上述的技术问题,本发明提供了一种基于MapReduce的并行数据立方构建方法。
为了解决上述技术问题,本发明采取以下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东省智能机器人研究院,未经广东省智能机器人研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910879241.0/2.html,转载请声明来源钻瓜专利网。