[发明专利]一种适用流式处理的大规模数据连续分析系统有效
申请号: | 201110450268.1 | 申请日: | 2011-12-29 |
公开(公告)号: | CN102546247A | 公开(公告)日: | 2012-07-04 |
发明(设计)人: | 金海;赵峰;袁平鹏;张冬洁 | 申请(专利权)人: | 华中科技大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;G06F17/30 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用 处理 大规模 数据 连续 分析 系统 | ||
技术领域
本发明属于数据分析领域,具体涉及一种适用流式处理的大规模数据连续分析系统。它适用于针对大规模数据的并行分析计算,满足对查询响应时间要求较高数据分析应用。
背景技术
随着大数据时代的来临,面对如何从海量的数据中获取有价值的信息的问题,大规模数据分析变得越来越重要,同时也对数据分析系统提出了更高的要求。传统的使用单一数据库管理系统(DBMS)进行数据分析的方法已经无法支撑不断增长的数据,也无法满足多样的,快速的数据分析需求。
现有的两类主要的大规模数据分析系统:并行数据库系统(Parallel DBMS)和基于MapReduce(MR)框架的系统均存在不足之处。并行数据库的扩展性有限,且随着数据量的增量容错性难以保证,而基于MR的系统面对多数据集的处理效率较低,尤其是对关系数据的处理。因此,无论是学术界还是业界都开始考虑对两者的优势进行整合。但是大部分的整合仅仅是在接口层次上的整合,很少有进行体系结构上的整合。
对于已有的从体系结构上对MR框架和数据库进行整合的系统,依然存在整合不彻底,没有充分利用二者的优点的问题,而且缺乏对现有架构的改进,不能很好地适应多样的,快速的数据分析需求。如长时间的数据导入过程,MR的批处理设计等问题并没有很好的解决。
发明内容
本发明的目的是提供一种适用流式处理的大规模数据连续分析系统,该系统有机地整合了分布式数据处理系统Hadoop和数据库系统的优点,使用连续和流式的处理方式,在保持系统的可扩展性和可靠性的前提下,大大提高了对大规模数据集查询的响应速度。
一种适用流式处理的大规模数据连续分析系统,包括元数据管理模块、查询计划生成模块、数据导入任务生成模块、增量处理模块、MR消息处理模块和数据库连接模块;
所述元数据管理模块,用于存储配置文件、源数据模式信息、数据导入模式信息、数据库节点信息和数据库连接信息;
所述查询计划生成模块,用于接收用户查询请求,依据所述元数据管理模块的源数据模式信息解析用户查询请求,依据查询解析结果生成查询计划传送给增量处理模块,并将所述查询解析结果传送给数据导入任务生成模块;
所述数据导入任务生成模块,用于接收用户数据导入请求,依据所述用户数据导入请求和元数据管理模块提取源数据信息,生成配置文件,配置文件包含分配给源数据的数据库节点信息以及数据库连接信息;接收所述查询计划生成模块的查询解析结果,依据所述查询解析结果和源数据模式确定数据导入模式,数据导入模式只包含与查询相关的属性以及用于标识数据导入进度的增量标识属性,将配置文件、源数据模式和数据导入模式信息存储于所述元数据管理模块;依据数据导入模式和配置文件生成Hapdoop系统可执行的数据导入MR作业集,将数据导入MR作业集传送给增量处理模块;
所述增量处理模块,用于接收查询计划生成模块的查询计划和数据导入任务生成模块的数据导入MR作业集;所述增量处理模块将数据导入MR作业集提交给Hapdoop系统,Hapdoop系统调用所述数据库连接模块执行数据导入MR作业集;所述增量处理模块结合所述元数据管理模块中的配置文件将所述查询计划编译成Hapdoop系统可执行的查询MR作业集,每当导入数据达到预定量后,所述增量处理模块就向Hapdoop系统提交一次查询MR作业集,Hapdoop系统调用所述数据库连接模块针对导入的这一部分数据执行查询MR作业集;
MR消息处理模块,嵌入在Hadoop系统中,用于使Hadoop系统在执行数据导入或查询MR作业集时,将Map端产生的中间数据推送给对应的Reduce端,将Reduce端产生的执行结果推送给下一任务的Map端;
数据库连接模块,用于提供Hadoop系统与数据库之间的接口。
进一步地,所述查询计划生成模块包括查询缓存、解析器、优化器和规划器;
所述查询缓存,用于缓存历史查询和对应的查询计划;
所述解析器,用于接收用户查询请求,在所述查询缓存查找是否有与本次查询请求相同的历史查询请求,若有,则从查询缓存中提取相应的查询计划并传送给所述增量处理模块,否则,依据所述元数据管理模块的源数据模式信息,通过进行词法和语义分析生成抽象语法树,再将抽象语法树转化成由查询子操作组成的有向无连通图即逻辑查询计划;
所述优化器,用于对所述逻辑查询计划中的查询子操作进行修剪和合并生成优化的逻辑查询;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110450268.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置