[发明专利]一种基于Hive的高校数据仓库分层设计方法在审
申请号: | 201811098136.5 | 申请日: | 2018-09-20 |
公开(公告)号: | CN109189764A | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 杨连群 | 申请(专利权)人: | 北京桃花岛信息技术有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/28 |
代理公司: | 合肥中谷知识产权代理事务所(普通合伙) 34146 | 代理人: | 洪玲 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于Hive的高校数据仓库分层设计方法,包括:获取数据,使用ETL工具进行数据抽取,将获取的结构化、非结构化数据同步到Hive平台上;使用Hive构建数据仓库,将数据仓库分为ODS数据存储层、DWD数据明细层、DW数据汇总层、DWA数据应用层;数据仓库建模,确定分析主题,使用维度建模法,使用最小粒度设计维表,设计事实表;设计事实表,分为事实表‑非分区表,和分区事实表。本发明提出的数据仓库分层设计相比其他大数据仓库设计三层分析处理更灵活,可扩展性强,后期可根据业务需求增加相应的分析主题,将Hive大数据平台优点和数据仓库星型模型设计方法高效地结合起来。 | ||
搜索关键词: | 数据仓库 事实表 分层设计 大数据 非结构化数据 数据存储层 数据汇总层 数据应用层 获取数据 可扩展性 模型设计 三层分析 数据抽取 业务需求 最小粒度 分区表 建模法 结构化 构建 建模 维度 星型 分区 分析 仓库 灵活 | ||
【主权项】:
1.一种基于Hive的高校数据仓库分层设计方法,其特征在于,包括以下步骤:步骤1,获取数据,从学工系统、教务系统、一卡通系统、资助系统、上网行为管理系统、校园无线系统、人事系统、考勤系统、门禁系统、宿舍管理系统、财务系统,获取结构化与非结构化的数据;步骤2,使用ETL工具进行数据抽取,将获取的结构化、非结构化数据同步到Hive平台上;步骤3,使用Hive构造数据仓库,将数据仓库分为ODS数据存储层、DWD数据明细层、DW数据汇总层、DWA数据应用层;其中ODS数据存储层为数据缓存层,用于存放获取的原始数据,保留一个固定长度时间,不对数据做任何处理;其中DWD数据明细层用于对ODS数据存储层的数据进行清洗、转码、增量转全量,对表名字与字段名进行统一规范后存储;其中DW数据汇总层用于面向主题组织数据,按业务需要构造多维模型数据,进行相关主题域内的数据整合、相关业务的拆分、汇总;其中DWA数据应用层用于根据业务应用需要构造多维模型数据,所得数据直接用于分析展现,该层也承担专题类数据模型的建设;步骤4,数据仓库建模,确定分析主题,使用维度建模法,使用最小粒度设计维表,设计事实表;设计事实表,分为事实表‑非分区表,和分区事实表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京桃花岛信息技术有限公司,未经北京桃花岛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811098136.5/,转载请声明来源钻瓜专利网。