[发明专利]一种基于预运算的分布式OLAP分析方法及系统在审
申请号: | 201710402937.5 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107301206A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 林育蓓;古振威;张星明;梁桂煌;陈霖;吴世豪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 运算 分布式 olap 分析 方法 系统 | ||
1.一种基于预运算的分布式OLAP分析方法,其特征在于:首先,在服务器集群上搭建Hadoop平台,在HDFS基础上构建分布式数据仓库;然后基于分布式数据仓库选择事实表和关联一组维表构建数据模型,根据数据模型定义数据立方体;再对给定的数据立方体启动数据立方体预运算任务,将作业提交到Hadoop集群中运行进行数据立方体预构建,并在构建过程中对作业运行情况进行实时监控,及时掌握作业运行状态,将计算好的中间结果保存到分布式键值存储系统中供后续分析查询;而后将用户多维操作转换为MDX语句并提交,根据MDX语句进行缓存检查,如果查询结果命中则直接返回结果集,否则,执行MDX查询语句,将MDX查询转换为SQL进行查询;接着将SQL生成的执行计划转换为对数据立方体的key-value查询操作;最后,分布式键值存储系统根据查询操作返回查询结果集,并将结果集以数据表或者图表的形式返回给用户。
2.根据权利要求1所述的一种基于预运算的分布式OLAP分析方法,其特征在于,所述数据立方体预构建流程按如下步骤执行:
1)根据cube的定义将数据仓库中源数据表中所有相关的表连接后提取相关数据,从而生成原始数据并插入到一个临时表中;
2)生成原始数据表后,这些数据文件存储在HDFS中,但文件大小不一甚至有些文件是空的,为了避免后续的mapreduce任务受数据文件大小不同和分布不均的影响导致任务执行缓慢的情况,需要对表数据进行重新分配来均衡数据文件的分布;
3)根据上一步生成的表计算表中度量的distinct值从而生成事实表并写入文件;
4)依据上一步生成的distinct column文件和维度表计算各个维度的distinct值以构建字典表,查询字典表能够获得维成员值;
5)通过临时表计算所有维度可能的组合生成Base Cuboid文件;
6)计算各层Cuboid文件,从第N层开始计算Cuboid文件,每一步都以前一步的结果作为输入,然后从中去除某个维度后进行聚合,生成一个子Cuboid,直到第0层Cuboid文件计算完成;
7)将顺序文件格式的Cuboid文件转换为HFile文件,避免Cuboid文件频繁地直接插入而影响HBase的性能,也减少了大量的磁盘IO操作;
8)将HFile文件加载到HTable中从而将结果存储到HBase中,同时将原始文件删除。
3.一种基于预运算的分布式OLAP分析系统,其特征在于,包括:
cube构建模块,该cube构建模块包括源数据加载单元、数据模型定义单元、数据立方体预构建单元;所述源数据加载单元用于配置数据源连接信息从分布式数据仓库中加载原始数据表信息到分析系统中;所述数据模型定义单元用于定义事实表和一组维表,构建面向主题的星状模型或雪花型模型结构,根据模型结构定义相应的数据立方体,包括cube名称、维度信息、度量信息,并将数据立方体相关元数据保存到系统中;所述cube预构建单元用于根据数据立方体的定义从数据仓库中读取原始数据通过mapreduce计算生成Htable并将其加载到HBase中;
多维查询模块,该多维查询模块包括MDX转换单元、NoSQL缓存单元和OLAP查询单元;所述MDX转换单元用于将多维操作语言MDX转换为SQL;所述NoSQL缓存单元用于管理用户已经查询过的结果集;所述OLAP查询单元用于将SQL进行解析转换成对预先构建好的数据立方体的key-value查询操作以获取结果并返回给用户;
分析结果可视化模块,该分析结果可视化模块包括多维查询单元和结果显示单元;所述多维查询单元负责将用户操作转换为对应的MDX语句,并将其发送到OLAP服务器;所述结果显示单元负责将查询结果集以数据表或图表形式进行前端展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710402937.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大数据分布式实时查询方法及系统
- 下一篇:一种解析XML的方法及装置