[发明专利]一种大数据分布式实时查询方法及系统在审

专利信息
申请号: 201710402894.0 申请日: 2017-06-01
公开(公告)号: CN107301205A 公开(公告)日: 2017-10-27
发明(设计)人: 王昊翔;吴世豪;张星明;陈霖;梁桂煌;古振威 申请(专利权)人: 华南理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州市华学知识产权代理有限公司44245 代理人: 冯炳辉
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种大数据分布式实时查询方法及系统,主要将实时查询处理流程定义成一个包含多个执行阶段的查询计划树,复杂度低的查询计划树在独立的线程中并行的执行;对复杂度高的查询计划树分配多个操作线程,并以分布式云服务器集群的形式并行的处理多个执行阶段;分布式实时查询系统对各服务器的查询结果集整合并返回最终结果,同时利用NOSQL对数据查询操作进行缓存优化。本发明充分利用了实时查询云服务器的处理性能,突破了单一服务器的性能瓶颈,同时避免了服务器与HDFS数据节点之间多余的数据访问,从而提高分布式实时查询的效率。
搜索关键词: 一种 数据 分布式 实时 查询 方法 系统
【主权项】:
一种大数据分布式实时查询方法,其特征在于:首先,将通过SQL APP和ODBC/JDBC得到的查询语句和查询脚本文件进行解析和分析,如果是查询脚本文件则将其分割为多个查询语句分别进行处理,对于单个查询语句则通过关键字进行划分,随后查询协调器将划分的各个部分用不同的节点表示不同的操作,然后根据节点的执行顺序生成基本的查询计划树,查询计划树的根节点是用于汇聚结果并返回,而查询计划树的叶子节点为Scan操作,用于获取相关表数据,对于复杂度低的查询计划树,主服务器将为查询计划树分配一个或多个线程进行处理,分配了多个线程的节点成为并行查询计划树,处理并行查询计划树即启动多个线程同时工作,仅包含单线程的查询计划树将是单方向进行处理,而对于复杂度高的查询计划树,选择以分布式集群的方式执行,集群由云平台上搭建的分布式实时查询服务器组成,包括一台主服务器和多台子服务器,系统会对基本的查询计划树进行分布式修改,group by&local agg之下包括自身的子节点都能够在各个子服务器上的查询组件上分布式执行,而之上的只能在查询协调器上处理,因此将查询计划树划分成多个查询阶段,并且每个查询阶段将会被分配到相应的子服务器的查询组件上进行处理,在每个查询组件都处理完得到相应查询结果集后,都会汇聚到查询协调器进行处理,包括对相关节点数据进行Aggregation以及进行order by和limit处理,得到最终的结果并返回。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710402894.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top