[发明专利]一种多源异构行业领域大数据处理全链路解决方案在审
申请号: | 201710376130.9 | 申请日: | 2017-05-25 |
公开(公告)号: | CN107193967A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 张莹;罗永洪;杨志帆;史慧珂;宋珂慧;袁晓洁 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司12002 | 代理人: | 李益书 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种多源异构行业领域大数据处理全链路解决方案。本发明在理解行业领域大数据海量性、多样性、快速性、价值性特点的基础上,根据行业领域管理决策的应用需求,设计与实现了多源异构行业领域大数据处理全链路解决方案。本解决方案首先总结归纳了行业领域大数据处理流程,然后提出了面向行业领域大数据的三层存储架构方案,又提出了面向管理决策的多层次多维度数据分析与知识发现方案,最后搭建了面向行业领域大数据的全链路数据处理平台。 | ||
搜索关键词: | 一种 多源异构 行业 领域 数据处理 全链路 解决方案 | ||
【主权项】:
一种多源异构行业领域大数据处理全链路解决方案,所述解决方案详细步骤如下:第1、归纳行业领域大数据处理流程总结现有的大数据处理平台,在传统大数据处理基本流程基础上,结合行业领域大数据的可视性和真实性特点和领域应用需求,探索出面向行业领域大数据处理的最基本流程;第2、设计三层数据存储模型定义1:用于选取数据存储模型的指标具体定义如下:①.查询代价:查询代价是指在数据存储模型中对单位数据进行查询所耗费的时间;②.插入代价:插入代价是指在数据存储模型中对单位数据进行插入操作所耗费的时间;③.删除代价:删除代价是指在数据存储模型中删除单位数据所耗费的时间;④.压缩效率:压缩效率是指数据压缩后的大小和压缩前的大小之比;在选取每层数据存储模型时,每个指标对每层数据存储模型的影响程度是不一样的,通过分析这些指标对每层数据存储模型的影响大小来选取合适的数据存储工具以构建三层数据存储模型;第2.1、设计第一层数据源层存储模型;数据源层用于存储抽取自众多外部数据源的数据;第2.2、设计第二层中间数据层存储模型;中间数据层用于存储在行业领域日常使用中涉及的报表;中间数据层存储模型分为基础数据层表和数据集市层表;在中间数据层存储模型中,将由数据源层存储模型经过数据集成产生的表称为基础数据层表,这些内容包含更多内容,面向广泛的需求;将由基础数据层表经过ETL(Extraction,Transormation and Loading),即数据抽取、转化和装载产生的表称为数据集市层表,这些内容往往涉及某一具体领域,为某一具体部门服务;第2.3、设计第三层结果表示层存储模型;结果表示层用于存储中间数据层经过数据统计分析或数据挖掘分析产生的结果表;第3、提出面向管理决策的多层次多维度数据分析与知识发现方案第3.1、构建多层次多维度分析模型;定义2:多层次多维度分析模型被定义成一个四元组的形式,Dimension=(Subject,Time,Attributes,Rules),四元组分别是:①.主体元(Subject),为个体、群体或全体;其中个体指的是某一具体事物,大部分情况下指的是某一特定用户;群体指的是一群事物,这些事物往往具有某些共同特征,全体指的是所有事物的全集;②.时间元(Time),为年、月、日、小时或分钟的不同粒度,能够按照不同时间粒度进行统计分析;③.属性元(Attributes),存在单属性行为分析和多属性行为分析;单属性分析的意义在于分析某一属性的价值,而多属性分析则侧重于分析多个属性之间的联系和在多属性共同作用下对事物的影响;④.规则元(Rules),表示对属性元、时间元组施加的规则,这些规则是统计分析规则,或是数据挖掘算法;第3.2、设计基于Spark的分布式决策知识发现方法;设计分布式数据挖掘算法,使之能够和分布式计算平台Spark进行交互;第4、构建行业领域大数据处理分析平台第4.1、数据集成实现;数据集成模块主要完成从数据源导入数据源层存储模型、将数据从数据源层存储模型通过ETL和清洗融合导入中间数据层存储模型中的基础数据层表、将数据从中间数据层的基础数据层表通过ETL导入中间数据层的数据集市层表的功能;第4.2、数据存储模型具体实现;根据第2步设计得到的三层数据存储模型,选取数据存储工具构建三层数据存储架构;第4.3、数据分析实现;使用基于Spark的分布式计算框架搭建数据分析模块;第4.4、数据可视分析;采用HTML5,echarts技术进行数据可视分析;第4.5、任务流管理;使用上下游机制和基于任务队列的生产者消费者模型并行任务流调度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710376130.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种带有醒酒台的移动式红酒柜
- 下一篇:一种智能开合的床头柜