[发明专利]基于批处理和流式处理的数据处理架构及数据处理方法在审
申请号: | 201611245710.6 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106873945A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 吴贺俊;冯辉 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 批处理 处理 数据处理 架构 方法 | ||
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种基于批处理和流式处理的数据处理架构及数据处理方法。
背景技术
随着互联网的普及、物联网的快速发展以及智能手机等设备的广泛使用,使得人们能随时随地产生数据,引起了数据的爆炸式增长。针对大规模数据,人们已经提出分布式的批处理模型和流式处理模型。
其中,批处理模型实现了大规模历史数据的高吞吐、海量分析和挖掘,它先存储后计算,往往适用于实时性要求不高,同时数据的准确性和全面性更为重要的场景,批处理模型被广泛的应用于离线分析、离线机器学习等领域。而流式处理模型更注重于对流式数据的实时分析,数据以流的方式到达,携带了大量信息,只有小部分的流式数据被保存在有限的内存中。流式处理模型被广泛地应用在在线推荐、在线分析、在线机器学习等低延时的场景中。
然而,批处理模型和流式处理模型的数据处理模式单一、使用场景有限,它们都是针对单一的问题和场景提出的解决方案,两者之间并不具备通用性。批处理模型能够处理更加全面的数据进而得到比较准确的结果,却延时比较大。流式处理模型能低延时地进行计算,却只在内存中缓存比较有限的数据导致计算精度比较低。而随着科技的进步,现代企业越来越需要一种低延时的方法同时处理历史数据和实时数据。既能保证对整个数据集的全面处理,又能保证处理的效率。
发明内容
本发明为解决以上技术的难题,提供了一种基于批处理和流式处理的数据处理架构,该架构具备批处理和流式处理的能力,因而在保证对数据集进行全面处理的同时能够兼顾处理的效率。
为实现以上发明目的,采用的技术方案是:
一种基于批处理和流式处理的数据处理架构,包括数据采集模块、批处理模块、流式处理模块、数据合并模块、数据可视化模块和资源监控模块;
其中数据采集模块用于从多个数据采集终端中获取采集的实时数据,并将采集的数据传输至批处理模块和流式处理模块;
所述批处理模块用于对接收的实时数据进行持久化处理,然后在满足执行批处理条件的情况下,采用重计算的机制对经持久化处理的实时数据进行批量处理,并根据处理的结果生成不同粒度的批处理视图;
所述流式处理模块用于对接收的实时数据采用增量计算的机制进行流式处理,并根据处理的结果生成不同粒度的流式处理视图;
所述数据合并模块用于根据具体查询需求,采用相应的合并策略对批处理视图、流式处理视图进行合并;
所述数据可视化模块用于对批处理视图、流式处理视图或合并后的批处理视图、流式处理视图进行展示;
所述资源监控模块用于对数据采集模块、批处理模块、流式处理模块、数据合并模块、数据可视化模块进行资源监控。
优选地,所述数据采集模块包括数据收集子模块和数据清洗子模块,所述数据收集子模块用于接收从多个数据采集终端中获取采集的实时数据,所述数据清洗子模块用于采用相应的过滤规则对接收的实时数据进行清洗。
优选地,所述批处理模块包括数据预处理子模块、数据处理子模块和批处理视图存储子模块;
所述数据预处理子模块用于对接收的实时数据采用数据集成技术、数据变换技术、数据规约技术进行持久化处理;
所述数据处理子模块在满足执行批处理条件的情况下,采用重计算的机制对经持久化处理的实时数据进行批处理;
所述批处理视图存储子模块用于将数据处理子模块得到的处理结果保存在Hbase中,以生成不同粒度的批处理视图。
优选地,所述流式处理模块包括数据处理子模块、流式处理视图存储子模块,其中所述数据处理子模块用于采用增量计算的机制对实时数据进行流式处理,所述流式处理视图存储子模块用于对数据处理子模块产生的数据处理结果保存在Hbase中,以生成不同粒度的流式处理视图。
优选地,所述数据采集模块采用Flume日志采集系统实现。
优选地,所述批处理模块采用Spark集群实现。
优选地,所述流式处理模块采用Storm集群实现。
同时,本发明还提供了一种基于以上架构的数据处理方法,其方案具体包括以下步骤:
S1.数据采集模块用于从多个数据采集终端中获取采集的实时数据,并将采集的数据传输至批处理模块和流式处理模块;
S2.批处理模块对接收的实时数据进行持久化处理,然后在满足执行批处理条件的情况下,采用重计算的机制对经持久化处理的实时数据进行批量处理,并根据处理的结果生成不同粒度的批处理视图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611245710.6/2.html,转载请声明来源钻瓜专利网。