[发明专利]一种基于分布式列式存储的大数据并行计算方法及系统在审
申请号: | 201710402942.6 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107329982A | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 张星明;陈霖;王昊翔;梁桂煌;古振威;吴世豪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 存储 数据 并行 计算方法 系统 | ||
技术领域
本发明涉及大数据处理技术领域,具体涉及一种基于分布式列式存储的大数据并行计算方法及系统。
背景技术
互联网的高速发展以及硬件的不断升级和更新换代,使得政府,企业等各个单位的数据规模呈现爆炸式增长,逐渐向海量数据迈进。面对海量数据的存储和处理要求,传统的关系型数据库主要基于表和数据行的操作,已逐渐无法满足用户需求,甚至制约着海量数据的存储和处理。因此,仅仅依靠传统的存储技术顺应不了时代的发展和需求,需要在传统处理技术的基础上建立一种新的大数据存储技术,确保数据存储能够满足人们的需要。
现有大数据分析系统的分布式数据仓库规模都是TB级甚至PB级以上,如何从大规模的数据仓库中高效,稳定,准确且实时地进行数据查询和分析成为衡量大数据分析系统性能的一个关键指标。而传统关系型数据库是按行数据的规则进行存储,数据的行式存储会带来弊端是在查询数据时,即使只涉及其中的几列,所有无关的数据列都会被一并读取。而在数据分析处理中,一般只需要对少数列频繁进行查询访问,但却不得不读取大量无关数据列,这势必会对分析性能的造成无谓的损耗。特别是在TB级以上海量数据的条件下,耗费在读取无关数据上的时间将会成为系统性能的一个瓶颈。
对于大数据的挖掘与实时分析查询来说,从采集源数据到最终获得分析结果一般要经过几个主要步骤,包括数据采集、数据预处理、数据存储与管理、分析处理、数据挖掘、数据可视化等。其中,数据存储与管理是整个大数据分析处理流程的基础。该部分的工作直接关系数据分析及实时查询的效率及质量,从而影响到数据分析处理结果呈现的质量。对于目前的数据存储来讲,基于Hadoop的数据仓库是比较常见平台,但是在实时查询的过程中,如果直接对Hadoop数据节点文件系统查询,将导致频繁的磁盘读取,从而大大拖慢查询速度,满足不了查询和分析的实时性。因此,在处理海量数据的实时查询需求时,我们需要一个基于内存的,尽量避免直接磁盘数据读取的中间缓存平台,作为系统实时查询分析的支撑。
另外对于大数据实时查询分析的需求而言,传统的串行计算已经没办法满足,因为串行计算的方式要求任务按照时间先后的顺序或优先级处理顺序逐个进行,限制了现有CPU多核多线程和分布式处理架构可同时处理多任务的性能发挥,计算速度慢。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种基于分布式列式存储的大数据并行计算方法及系统,该方法及系统充分利用集群云服务器内存查询的处理性能和列式存储的优势,避免了查询时直接读取HDFS文件系统数据所导致的延时问题和行式存储带来的多余数据传输问题,大大提高了数据读取效率。此外,在NoSQL列式存储之上还运用了基于Spark的并行计算框架,通过并行计算进一步提高实时查询分析的效率。同时,由于分布式集群具有一定的可扩展性,因此采用分布式的体系架构能够满足海量数据存储弹性可伸缩的要求。
为实现上述目的,本发明所提供的技术方案如下:
一种基于分布式列式存储的大数据并行计算方法,主要将数据存储方式由传统的行式存储转变为列式存储,同时利用内存加快系统响应,采用分布式集群实现扩展性服务和节点调度监控,运用基于Spark的并行计算框架提供分析与计算的支持;所述列式存储有基于内存的NoSQL缓存单元,集群文件写入单元和任务调度单元支持,在工作过程中,NoSQL缓存单元的MemStore负责存储数据,当发起的查询请求到达相应的数据节点时,将首先查询内存中基于NoSQL的数据存储的数据,若内存中的数据命中,则将内存中的命中结果及时返回;所述集群由云平台上搭建的数据服务器组成,包括一台主服务器和多台子服务器,主服务器负责数据查询请求的分发和负载均衡,同时管理各个子服务器,包括存储空间的分配操作以及失效存储的数据迁移操作,每一个子服务器包含基于内存的NoSQL缓存单元MemStore,是实际数据访问读取的单元,还包括集群文件系统写入单元和任务调度单元,通过分布式服务器构建的列式存储服务集群,能大大提高大数据系统的实时调度能力,实现高效率的实时查询分析,同时实现面向海量数据的存储空间可伸缩;此外,基于Spark的并行计算框架为用户提供毫秒级的响应速度,及时呈现结果,该框架是将串行计算的过程按照时间片分解成一系列短小的批处理作业,而这里的批处理引擎是Spark,也就是把输入数据按照固定的大小分段,每一段数据都转换成Spark中的RDD,然后对RDD进行并行的转换操作和相关的业务逻辑操作,将RDD经过操作变成的中间结果保存在内存中;
上述的大数据并行计算方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710402942.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:页面检测的方法和装置
- 下一篇:一种多元化清洁能源智能发电装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置