[发明专利]海量结构化数据复杂查询任务的分布式查询方法和系统有效
申请号: | 201110442091.0 | 申请日: | 2011-12-26 |
公开(公告)号: | CN102521406A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 吴广君;李超;王树鹏;云晓春;王勇;李斌斌 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量 结构 数据 复杂 查询 任务 分布式 方法 系统 | ||
1.一种海量结构化数据的分布式查询方法,包括:
步骤1,接收用户发出的查询任务并将查询任务分解为多个查询子任务;以及
步骤2,根据该多个查询子任务中的每个查询子任务,对分布式存储的各组数据并发执行分批次查询,并分布式返回查询到的结果集。
2.如权利要求1所述的分布式查询方法,还包括:步骤3,对分布式返回的结果集进行汇总,并将汇总后的结果集呈现给用户。
3.如权利要求1或2所述的分布式查询方法,其中步骤1包括根据分区类查询条件、过滤类查询条件或全局统计分析类查询条件将查询任务分解为多个查询子任务。
4.如权利要求3所述的分布式查询方法,其中根据分布式存储的数据的索引类型设置分区类查询条件。
5.如权利要求4所述的分布式查询方法,其中根据以时间属性建立的索引,以时间属性设置该分区类查询条件。
6.如权利要求3所述的分布式查询方法,其中对分布式存储的各组数据并发执行分批次查询的步骤包括针对分布式存储的每组数据执行以下步骤:
步骤211,为查询分布式存储数据的操作设置单次最大返回记录数目;
步骤212,根据查询子任务对存储的数据进行查询,并且基于该单次最大返回记录数目,获得结果集;
步骤213,判断该结果集中的记录数目是否达到单次最大返回记录数目,如果未达到单次最大返回记录数目,则执行步骤215,如果达到单次最大返回记录数目,则由用户确定是否继续进行查询,如果需要继续查询即为多次查询,则执行步骤214,否则为单次查询,执行步骤215;
步骤214,保存当前的查询状态并基于该查询状态继续进行查询,直到获得包括符合查询条件的所有记录的结果集;以及
步骤215,返回查询到的结果集。
7.如权利要求6所述的分布式查询方法,其中步骤212包括通过分区类查询条件获得目标索引分片,在每个索引分片上并发执行过滤类查询条件,以获得结果集。
8.如权利要求7所述的分布式查询方法,其中步骤212还包括:在获得结果集之后,执行全局统计、分析类查询条件。
9.如权利要求8所述的分布式查询方法,其中执行全局统计、分析类查询条件包括:根据查询子任务中的分组命令,利用hash算法进行数据集快速分组操作。
10.如权利要求8所述的分布式查询方法,其中执行全局统计、分析类查询条件还包括:根据查询子任务中的去重命令进行组内去重或全局去重。
11.如权利要求8所述的分布式查询方法,其中执行全局统计、分析类查询条件包括根据统计函数SUM、COUNT、AVG、MAX、MIN对查询结果计算统计结果,其中SUM是对分组后的字段计算具体数值,COUNT是统计记录条数,AVG是计算平均值,MAX是查询到的所有记录中的最大值,MIN是查询到的所有记录中的最小值。
12.如权利要求6所述的分布式查询方法,其中步骤212包括:当查询到的符合查询条件的记录数目达到该单次最大返回记录数目时获得结果集,或者虽然查询到的符合查询条件的记录未达到该单次最大返回记录数目但已经完成了对所有存储数据的查询时获得的结果集。
13.如权利要求6所述的分布式查询方法,其中步骤213包括:当该结果集中的记录数目等于单次最大返回记录数目时,将“未全面查询”的标记返回给用户,用户基于该标记根据实际需要确定是否继续查询。
14.如权利要求6所述的分布式查询方法,其中步骤214包括:为每个查询子任务提供一个与其相关的标识符,并且根据该标识符保存当前的查询状态。
15.如权利要求2所述的分布式查询方法,其中步骤3包括:
步骤311,将分布式返回的结果集进行合并;
步骤312,根据统计分析查询命令,对合并后的结果集执行全局统计、分析类操作;以及
步骤313,对生成的结果集根据用户要求的格式、路径生成结果文件,并将该结果文件呈现给用户。
16.如权利要求6所述的分布式查询方法,还包括在步骤214之后,对所有的结果集进行全局排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110442091.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置