[发明专利]一种基于分布式列式存储的大数据并行计算方法及系统在审
申请号: | 201710402942.6 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107329982A | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 张星明;陈霖;王昊翔;梁桂煌;古振威;吴世豪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 存储 数据 并行 计算方法 系统 | ||
1.一种基于分布式列式存储的大数据并行计算方法,其特征在于:该大数据并行计算方法主要将数据存储方式由传统的行式存储转变为列式存储,同时利用内存加快系统响应,采用分布式集群实现扩展性服务和节点调度监控,运用基于Spark的并行计算框架提供分析与计算的支持;所述列式存储有基于内存的NoSQL缓存单元,集群文件写入单元和任务调度单元支持,在工作过程中,NoSQL缓存单元的MemStore负责存储数据,当发起的查询请求到达相应的数据节点时,将首先查询内存中基于NoSQL的数据存储的数据,若内存中的数据命中,则将内存中的命中结果及时返回;所述集群由云平台上搭建的数据服务器组成,包括一台主服务器和多台子服务器,主服务器负责数据查询请求的分发和负载均衡,同时管理各个子服务器,包括存储空间的分配操作以及失效存储的数据迁移操作,每一个子服务器包含基于内存的NoSQL缓存单元MemStore,是实际数据访问读取的单元,还包括集群文件系统写入单元和任务调度单元,通过分布式服务器构建的列式存储服务集群,能大大提高大数据系统的实时调度能力,实现高效率的实时查询分析,同时实现面向海量数据的存储空间可伸缩;此外,基于Spark的并行计算框架为用户提供毫秒级的响应速度,及时呈现结果,该框架是将串行计算的过程按照时间片分解成一系列短小的批处理作业,而这里的批处理引擎是Spark,也就是把输入数据按照固定的大小分段,每一段数据都转换成Spark中的RDD,然后对RDD进行并行的转换操作和相关的业务逻辑操作,将RDD经过操作变成的中间结果保存在内存中;
上述的大数据并行计算方法,包括以下步骤:
步骤1,云平台为云服务器分配所需资源,并初始化云服务器集群;
步骤2,云平台初始化集群中的主服务器的任务调度器,调度器负责管理数据操作节点活动、监听操作节点的执行,以及指导数据集的划分和查询请求分发,负载均衡这些任务;
步骤3,云服务器中的NoSQL存储加载元数据,元数据定义了数据操作节点的名称和操作数据集的字段信息,包括字段名称、数据类型、数据精度,云服务器对加载的数据操作节点按先后顺序排列;
步骤4,NoSQL列式存储加载数据和进行内部数据操作,包括数据单元的拆分split与合并compact操作,以及调用LRU算法将不常访问数据写入HDFS文件系统;
步骤5,主服务器根据查询请求获取当前数据操作节点,分发查询请求至对应数据节点;
步骤6,获得请求的子服务器,根据请求内容及元数据获取操作节点名称以及操作的数据集信息,查询高性能NoSQL存储,返回查询到的数据集;
步骤7,主服务器从上一操作节点获取查询到数据集,将数据集返回给部署Spark并行处理框架的服务器;
步骤8,进行实时计算分析的服务器收到数据集后,采用基于Spark的并行计算框架,将数据集划分为RDD进行操作,同时进行业务逻辑方面的处理,处理完成的数据将返回给前端图表引擎;
步骤9,前端图表引擎加载后台服务器返回的数据,进行可视化实时展示;至此,流程结束。
2.一种基于分布式列式存储的大数据并行计算系统,其特征在于,包括:
分布式NoSQL存储模块,为数据实时查询提供快速响应,该模块包括主节点和若干子节点,所述主节点进行集群的统一调度和请求分发,实现系统的负载均衡,所述子节点负责数据存储及实际查询访问,同时,子节点能够根据数据规模及实际需要进行伸缩扩展;其中,所述子节点由数据存储单元、调度单元和集群文件写入单元构成,所述数据存储单元基于数据节点的内存,按照列式存储的方式存储最近最常访问的数据,所述调度单元是统一调度数据存储单元的拆分及合并操作,实现合理利用存储空间及优化数据查询,所述集群文件统一写入单元是根据LRU算法将数据存储单元中不常访问的数据写入HDFS文件系统中;
Spark并行计算模块,运用Spark的并行工作方式,提供实时性支撑,在计算过程中,该模块将数据集分成一个个Spark的RDD,然后对每个RDD进行并行的业务操作,操作结束的中间结果保存在内存中,再进行合并或下一步的操作,直至得到最终结果;
数据可视化模块,用于接收来自实时计算后台返回的数据集,通过图形图表引擎动态生成相应的图形图表,经过渲染组合成数据可视化实时滚动大屏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710402942.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:页面检测的方法和装置
- 下一篇:一种多元化清洁能源智能发电装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置