[发明专利]一种大数据分布式实时查询方法及系统在审
申请号: | 201710402894.0 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107301205A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 王昊翔;吴世豪;张星明;陈霖;梁桂煌;古振威 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分布式 实时 查询 方法 系统 | ||
技术领域
本发明涉及大数据处理技术领域,尤其是指一种大数据分布式实时查询方法及系统。
背景技术
随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。如果能利用飞速发展的大数据技术对各个大数据业务领域数据进行挖掘和统计分析,可为各行各业的决策者制定方针提供参考依据,实现创新性的大数据服务,从而进一步推进各行各业的工程建设。
大数据的挖掘与分析从采集源数据到最终获得分析结果一般要经过几个主要步骤,包括数据采集、数据预处理、数据存储与管理、实时查询处理、联机分析处理(OLAP)、数据挖掘、数据可视化等。其中,实时查询处理负责对查询语句及查询脚步文件进行解析和分析、生成查询计划树、执行查询阶段和整合结果集,最后返回到数据可视化模块进行结果可视化,或者成为联机分析处理的分析结果。数据实时查询是数据分析流程中对处理性能要求最高,响应时间要求最高,同时也是数据仓库中非常重要的一环,该部分的工作直接关系到数据仓库的查询速度,从而影响到联机分析处理的性能。尤其在面对海量数据的处理需求时,高效迅速低响应时间的实时查询系统的设计更是突显出它在数据仓库中的重要性。系统的结构设计主要包含查询语句解析和分析、生成查询计划树、执行查询阶段以及查询结果集的整合。
现有业务系统的实时查询系统是基于传统的关系型数据库或NoSQL数据库进行实时查询。在对大数据进行实时查询中,若全部数据存储在单一服务器上会占据巨大的空间,并且如果出现服务器故障将导致大量的数据丢失。而将数据分布式的存储在多个服务器上能有效的降低单服务器在空间上的负担同时降低服务器故障导致的数据丢失风险。但使用现有业务系统对分布式集群进行查询需要在每台服务器上安装数据库,并且还需对查询结果进行整合,这使得传统的关系型数据库或NoSQL数据库不足以进行大数据处理,因此如何有效扩展实时查询服务器的性能显得十分必要。因此需要设计一个稳定高效完成分布式数据仓库实时查询的分布式实时查询系统。
现有实时查询系统仅支持在单台服务器上进行数据的实时查询,因此只需直接执行查询语句就能得到最终结果。但对于分布式数据仓库,数据是分别存储在不同服务器上,直接执行查询语句或查询脚本得到的结果是分散的,并且每台服务器都完整执行查询语句或查询脚本并不能很好的提升分布式实时查询的性能,因此如何对查询语句及查询脚本进行解析和分析,并分配到各个服务器上以及对查询结果集的整合,是实现分布式实时查询系统的重大难点。同时,对于分布式数据仓库,数据分布在各个子节点上,要进行实时查询就需要对各个子节点上的数据都访问。只有子服务器主要查询本地数据的减少网络IO才能减少数据访问时间,从而减少查询时间,提高实时查询性能。因此,如何进行调度,尽量减少IO调度,将是将会是影响分布式实时查询系统查询性能的一个重要瓶颈。
同时系统也需要一个健康监控中心来是实现对各个节点上的查询组件的健康状态检查。当某个查询组件由于硬件错误、软件错误或其他原因导致离线时,就需要监控中心通知其他节点从而避免其他节点对该离线节点发送请求,同时也需要根据各个节点的监控状态对查询语句以及查询脚本的解析分配进行更改。因此,需要健康监控中心保证分布式实时查询系统的可靠性。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种大数据分布式实时查询方法及系统,充分利用实时查询云服务器的处理性能,提供一定的可扩展性,避免了服务器与分布式文件系统数据节点之间多余的数据访问,从而提高分布式实时查询的效率。
为实现上述目的,本发明所提供的技术方案,如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710402894.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置