[发明专利]基于分布式系统的交互式大数据查询方法、装置、存储介质和终端设备有效
申请号: | 201810004955.2 | 申请日: | 2018-01-03 |
公开(公告)号: | CN108241539B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 张志宏;陈驰;张文歆;刘成;梁国蓉 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 张臻贤;李够生 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于分布式系统的交互式大数据查询方法、装置、存储介质及终端设备,所述分布式系统包括执行name node进程的hadoop hdfs调度服务器、执行master进程的spark调度服务器、执行job tracker进程的mapreduce调度服务器以及多个节点服务器,其中,每个节点服务器均部署有执行hdfs datanode进程、spark worker进程和mapreduce node进程。以及原始数据经过mapreduce的处理导入到hadoop hdfs中并进行格式优化,查询任务提交到spark上,会以最大的并发度执行,直接读取导入的数据进行本地化计算,能够极大的提高大数据查询的效率。 | ||
搜索关键词: | 基于 分布式 系统 交互式 数据 查询 方法 装置 存储 介质 终端设备 | ||
【主权项】:
1.一种基于分布式系统的交互式大数据查询方法,其特征在于,所述分布式系统包括用于执行name node进程的Hadoop hdfs调度服务器、用于执行master进程的spark调度服务器、以及至少一个均部署有hdfs datanode进程和spark worker进程的节点服务器,所述方法由所述spark调度服务器或节点服务器执行,包括:接收客户端的查询请求;其中,所述查询请求包括查询条件;根据所述查询条件,计算获得待执行的查询任务和与该查询任务关联的查询逻辑;其中,该查询任务记载有从所述Hadoop hdfs调度服务器中查询到的执行该查询任务的查询数据所存储在的节点服务器;判断当前空闲节点服务器的节点数量是否大于待执行的查询任务的任务数量;若是,则从当前空闲节点服务器中选取出存储有所述查询数据的节点服务器,并继续从剩余的空闲节点服务器中选取使并发数量满足所述任务数量的节点服务器,以及向选取到的节点服务器并发查询任务和与该查询任务关联的查询逻辑;若否,则向当前空闲节点服务器均并发查询任务和与该查询任务关联的查询逻辑,并实时查询是否有空闲的节点服务器以下发剩余的查询任务;接收节点服务器返回的执行查询任务的任务结果;根据任务结果计算生成查询结果,并将所述查询结果发送给所述客户端。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810004955.2/,转载请声明来源钻瓜专利网。