[发明专利]一种SparkSQL系统中的数据处理方法和装置在审
申请号: | 201611028735.0 | 申请日: | 2016-11-18 |
公开(公告)号: | CN106599062A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 李远策;李振炜;白泉;王锋;武志刚 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所11323 | 代理人: | 权鲜枝,何立春 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 sparksql 系统 中的 数据处理 方法 装置 | ||
1.一种SparkSQL系统中的数据处理方法,其中,该方法包括:
为SparkSQL系统中的数据表的指定列建立索引;
当接收到对数据表的查询请求时,判断该请求是否命中具有索引的列;
如果命中,则使用命中的列的索引完成本次查询请求;
如果未命中,则通过遍历所述查询请求对应的数据表完成本次查询请求。
2.如权利要求1所述的方法,其中,所述为SparkSQL系统中的数据表的指定列建立索引包括:
为数据表的指定列建立JSON格式的索引,所述索引包括:索引号和数据位置标识。
3.如权利要求2所述的方法,其中,
所述索引号包括:指定列的列名、该条索引对应的列值;
所述数据位置标识包括:该数据表的存储路径、该条索引对应的数据在该数据表中的偏移量。
4.如权利要求2或3所述的方法,其中,所述为SparkSQL系统中的数据表的指定列建立索引还包括:
将建立的索引保存在指定搜索服务器的文件系统中。
5.如权利要求4所述的方法,其中,所述使用命中的列的索引完成本次查询请求包括:
将所述查询请求发送至所述指定搜索服务器,接收所述指定搜索服务器返回的查询结果;其中,所述查询结果为空,或者为一个或多个数据位置标识;
当所述查询结果不为空时,根据所述指定搜索服务器返回的一个或多个数据位置标识,从数据表中读取与相应数据位置标识匹配的数据。
6.如权利要求1-5中任一项所述的方法,其中,所述判断该请求是否命中具有索引的列包括:
从所述查询请求中解析出待查询的表名和列名;
根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的索引,若存在则判断为命中,若不存在则判断为未命中。
7.如权利要求6所述的方法,其中,所述为SparkSQL系统中的数据表的指定列建立索引还包括:
在该数据表的表结构中标识已建立索引的列;
所述根据所述待查询的表名,判断相应的数据表是否存在与待查询的列名对应的索引包括:
根据所述待查询的表名,从相应数据表的表结构中读取该数据表已建立的索引的列,根据所述待查询的列名判断所述表结构中是否存在与该列名对应的索引。
8.一种SparkSQL系统中的数据处理装置,其中,该装置包括:
索引建立单元,适于为SparkSQL系统中的数据表的指定列建立索引;
请求处理单元,适于在接收到对数据表的查询请求时,判断该请求是否命中具有索引的列;如果命中,则使用命中的列的索引完成本次查询请求;如果未命中,则通过遍历所述查询请求对应的数据表完成本次查询请求。
9.如权利要求8所述的装置,其中,
所述索引建立单元,适于为数据表的指定列建立JSON格式的索引,所述索引包括:索引号和数据位置标识。
10.如权利要求9所述的装置,其中,
所述索引号包括:指定列的列名、该条索引对应的列值;
所述数据位置标识包括:该数据表的存储路径、该条索引对应的数据在该数据表中的偏移量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611028735.0/1.html,转载请声明来源钻瓜专利网。