[发明专利]一种大数据分布式实时查询方法及系统在审
申请号: | 201710402894.0 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107301205A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 王昊翔;吴世豪;张星明;陈霖;梁桂煌;古振威 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种大数据分布式实时查询方法及系统,主要将实时查询处理流程定义成一个包含多个执行阶段的查询计划树,复杂度低的查询计划树在独立的线程中并行的执行;对复杂度高的查询计划树分配多个操作线程,并以分布式云服务器集群的形式并行的处理多个执行阶段;分布式实时查询系统对各服务器的查询结果集整合并返回最终结果,同时利用NOSQL对数据查询操作进行缓存优化。本发明充分利用了实时查询云服务器的处理性能,突破了单一服务器的性能瓶颈,同时避免了服务器与HDFS数据节点之间多余的数据访问,从而提高分布式实时查询的效率。 | ||
搜索关键词: | 一种 数据 分布式 实时 查询 方法 系统 | ||
【主权项】:
一种大数据分布式实时查询方法,其特征在于:首先,将通过SQL APP和ODBC/JDBC得到的查询语句和查询脚本文件进行解析和分析,如果是查询脚本文件则将其分割为多个查询语句分别进行处理,对于单个查询语句则通过关键字进行划分,随后查询协调器将划分的各个部分用不同的节点表示不同的操作,然后根据节点的执行顺序生成基本的查询计划树,查询计划树的根节点是用于汇聚结果并返回,而查询计划树的叶子节点为Scan操作,用于获取相关表数据,对于复杂度低的查询计划树,主服务器将为查询计划树分配一个或多个线程进行处理,分配了多个线程的节点成为并行查询计划树,处理并行查询计划树即启动多个线程同时工作,仅包含单线程的查询计划树将是单方向进行处理,而对于复杂度高的查询计划树,选择以分布式集群的方式执行,集群由云平台上搭建的分布式实时查询服务器组成,包括一台主服务器和多台子服务器,系统会对基本的查询计划树进行分布式修改,group by&local agg之下包括自身的子节点都能够在各个子服务器上的查询组件上分布式执行,而之上的只能在查询协调器上处理,因此将查询计划树划分成多个查询阶段,并且每个查询阶段将会被分配到相应的子服务器的查询组件上进行处理,在每个查询组件都处理完得到相应查询结果集后,都会汇聚到查询协调器进行处理,包括对相关节点数据进行Aggregation以及进行order by和limit处理,得到最终的结果并返回。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710402894.0/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置