[发明专利]基于Spark平台建立数据索引方法及数据查询方法在审

专利信息
申请号: 201911324622.9 申请日: 2019-12-20
公开(公告)号: CN111078705A 公开(公告)日: 2020-04-28
发明(设计)人: 陈海涛;邢彩燕 申请(专利权)人: 南京聚力云成电子科技有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2455;G06F16/2458
代理公司: 江苏瑞途律师事务所 32346 代理人: 李维朝
地址: 210019 江苏省南京市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 spark 平台 建立 数据 索引 方法 查询
【权利要求书】:

1.一种基于Spark平台建立数据索引方法,其特征在于:(1)为数据表创建内存索引,该内存索引对应的索引表包括两个字段,两个字段分别表示索引字段,以及该索引字段对应的数据文件清单;(2)扫描数据表下的所有数据文件,针对索引字段的每个值搜寻索引字段值出现在哪些数据文件中,将所有的索引字段值,数据文件清单键值对写入索引表中。

2.如权利要求1所述的基于Spark平台建立数据索引方法,其特征在于:所述步骤(2)中,按照索引字段值的升序或降序将键值对写入索引表中。

3.一种基于Spark平台建立数据索引方法,其特征在于:(1)创建数据表时,设定两个表属性,分别为create.store.index、row.index.rows,分别表示是否创建存储索引、行索引行数;(2)向数据表中导入数据时,先判断是否需要创建存储索引,即,表属性create.store.index是否开启,若开启,则统计需要导入的数据的总行数,按照表属性row.index.rows设置的行索引行数对数据行进行分组;针对每个行组分别计算行组数据的起始地址以及各个列的最大值、最小值、平均值、行个数;将计算得到的每个行组的统计信息写在文件头部,一个行组对应一行统计信息,作为行索引;(3)统计整个文件的数据起始地址以及各个列的最大值、最小值、平均值、行个数,然后将这些统计信息写入文件末尾,单独作为一行,作为文件索引。

4.一种基于Spark平台的数据查询方法,其特征在于:判断数据表是否包含内存索引,如果不包含内存索引,则针对所有数据文件生成计算job;如果包含内存索引并且查询语句要对索引字段值进行筛选,则读取索引表,根据索引字段值从索引表中获取到数据文件清单,为数据文件清单的每个数据文件生成只扫描该数据文件的计算job。

5.如权利要求4所述的基于Spark平台的数据查询方法,其特征在于:索引表中的索引字段值以及数据文件清单是按照索引字段值的升序或降序存储的,使用二分法在索引表中查找索引字段值对应的的数据文件清单。

6.如权利要求4所述的基于Spark平台的数据查询方法,其特征在于:如果包含内存索引,但查询语句不是要对索引字段值进行筛选,则针对所有数据文件分别生成计算job。

7.如权利要求4、5或6所述的基于Spark平台的数据查询方法,其特征在于:在执行计算job过程中,(1)判断是查询语句否包含谓词,如果包含谓词,则对谓词进行解析,获得想要查询的数据;(2)读取数据文件的末尾,判断是否有存储索引;(3)如果有存储索引,则读取索引数据并判断索引的范围是否可能包含所述想要查询的数据,如果可能包含,则加载相应数据到内存中;如果数据文件不可能存在所述想要查询的数据,则返回空数据。

8.如权利要求7所述的基于Spark平台的数据查询方法,其特征在于:所述步骤(3)具体为,获取文件索引,将所述想要查询的数据是否落入文件索引记载的最大值、最小值之间,如果位于两者之间则索引的范围可能包含所述想要查询的数据;逐条读取行索引,获取要扫描的行组,根据行索引中的行组数据的起始地址读取行组数据,对数据进行解析后加载至内存。

9.一种基于Spark平台的数据查询方法,其特征在于:(1)判断是查询语句否包含谓词,如果包含谓词,则对谓词进行解析,获得想要查询的数据;(2)读取数据文件的末尾,判断是否有存储索引;(3)如果有存储索引,则读取索引数据并判断索引的范围是否可能包含所述想要查询的数据,如果可能包含,则加载相应数据到内存中;如果数据文件不可能存在所述想要查询的数据,则返回空数据。

10.如权利要求9所述的基于Spark平台的数据查询方法,其特征在于:所述步骤(3)具体为,获取文件索引,将所述想要查询的数据是否落入文件索引记载的最大值、最小值之间,如果位于两者之间则索引的范围可能包含所述想要查询的数据;逐条读取行索引,获取要扫描的行组,根据行索引中的行组数据的起始地址读取行组数据,对数据进行解析后加载至内存。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京聚力云成电子科技有限公司,未经南京聚力云成电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911324622.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top