[发明专利]一种基于分布式列式存储的大数据并行计算方法及系统在审
申请号: | 201710402942.6 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107329982A | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 张星明;陈霖;王昊翔;梁桂煌;古振威;吴世豪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分布式列式存储的大数据并行计算方法及系统,主要是利用基于内存的NoSQL列式存储存放最近最常访问的数据,达到缓存优化的功能,实现数据的快速查询;采用分布式集群的架构,满足海量数据存储需求,实现数据存储容量动态伸缩;结合基于Spark的并行计算框架,实现业务层数据分析并行化作业,提高计算速度;运用图形图表引擎实现大屏滚动分析的实时数据可视化体验。本发明充分发挥了分布式云服务器的内存处理性能和并行计算的优势,克服了单一服务器和串行计算的性能瓶颈,避免了数据节点之间多余的数据传输,提高了系统实时响应速度,实现了快速的大数据分析。 | ||
搜索关键词: | 一种 基于 分布式 存储 数据 并行 计算方法 系统 | ||
【主权项】:
一种基于分布式列式存储的大数据并行计算方法,其特征在于:该大数据并行计算方法主要将数据存储方式由传统的行式存储转变为列式存储,同时利用内存加快系统响应,采用分布式集群实现扩展性服务和节点调度监控,运用基于Spark的并行计算框架提供分析与计算的支持;所述列式存储有基于内存的NoSQL缓存单元,集群文件写入单元和任务调度单元支持,在工作过程中,NoSQL缓存单元的MemStore负责存储数据,当发起的查询请求到达相应的数据节点时,将首先查询内存中基于NoSQL的数据存储的数据,若内存中的数据命中,则将内存中的命中结果及时返回;所述集群由云平台上搭建的数据服务器组成,包括一台主服务器和多台子服务器,主服务器负责数据查询请求的分发和负载均衡,同时管理各个子服务器,包括存储空间的分配操作以及失效存储的数据迁移操作,每一个子服务器包含基于内存的NoSQL缓存单元MemStore,是实际数据访问读取的单元,还包括集群文件系统写入单元和任务调度单元,通过分布式服务器构建的列式存储服务集群,能大大提高大数据系统的实时调度能力,实现高效率的实时查询分析,同时实现面向海量数据的存储空间可伸缩;此外,基于Spark的并行计算框架为用户提供毫秒级的响应速度,及时呈现结果,该框架是将串行计算的过程按照时间片分解成一系列短小的批处理作业,而这里的批处理引擎是Spark,也就是把输入数据按照固定的大小分段,每一段数据都转换成Spark中的RDD,然后对RDD进行并行的转换操作和相关的业务逻辑操作,将RDD经过操作变成的中间结果保存在内存中;上述的大数据并行计算方法,包括以下步骤:步骤1,云平台为云服务器分配所需资源,并初始化云服务器集群;步骤2,云平台初始化集群中的主服务器的任务调度器,调度器负责管理数据操作节点活动、监听操作节点的执行,以及指导数据集的划分和查询请求分发,负载均衡这些任务;步骤3,云服务器中的NoSQL存储加载元数据,元数据定义了数据操作节点的名称和操作数据集的字段信息,包括字段名称、数据类型、数据精度,云服务器对加载的数据操作节点按先后顺序排列;步骤4,NoSQL列式存储加载数据和进行内部数据操作,包括数据单元的拆分split与合并compact操作,以及调用LRU算法将不常访问数据写入HDFS文件系统;步骤5,主服务器根据查询请求获取当前数据操作节点,分发查询请求至对应数据节点;步骤6,获得请求的子服务器,根据请求内容及元数据获取操作节点名称以及操作的数据集信息,查询高性能NoSQL存储,返回查询到的数据集;步骤7,主服务器从上一操作节点获取查询到数据集,将数据集返回给部署Spark并行处理框架的服务器;步骤8,进行实时计算分析的服务器收到数据集后,采用基于Spark的并行计算框架,将数据集划分为RDD进行操作,同时进行业务逻辑方面的处理,处理完成的数据将返回给前端图表引擎;步骤9,前端图表引擎加载后台服务器返回的数据,进行可视化实时展示;至此,流程结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710402942.6/,转载请声明来源钻瓜专利网。
- 上一篇:页面检测的方法和装置
- 下一篇:一种多元化清洁能源智能发电装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置