[发明专利]一种基于Spark的索引方法在审

专利信息
申请号: 201911026342.X 申请日: 2019-10-26
公开(公告)号: CN110737667A 公开(公告)日: 2020-01-31
发明(设计)人: 王帅 申请(专利权)人: 南京录信软件技术有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2458;G06F16/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 210000 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引 查询语言 结构化数据 自定义接口 查询接口 检索性能 接口建立 实时数据 数据索引 数据通过 索引查询 索引程序 索引功能 消费接口 查询 数据处理 统计分析 自定义 离线 检索 返回 进程 学习 服务
【说明书】:

发明公开了一种基于Spark的索引方法,包括如下步骤,S1:在Spark进程中通过自定义消费接口消费实时数据,数据通过索引接口建立索引;S2:修改lucene的原生索引接口;S3:将整个索引程序、查询接口与Spark的服务结合起来;S4:进行数据处理,之后进行数据的查询;主要是在原始的Spark检索上添加了一层索引功能,从而加快了检索性能;该功能在索引层使用的是原生的lucene,通过自定义接口,Spark或者离线程序会将数据索引到HDFS上面,以后的统计分析都可以使用Spark的索引查询快速返回,而在查询语言的使用上选择的是Spark SQL,本发明完美的与Spark SQL引擎结合在一起,这种基于结构化数据的查询语言简化了查询难度,降低了学习成本。

技术领域

本发明涉及大数据查询处理技术领域,具体为一种基于Spark的索引方法。

背景技术

近年来,随着物联网、社交网络、云计算等技术不断融入我们的生活以及现有的计算能力、存储空间、网络带宽的高速发展,人类积累的数据在互联网、通信、金融、商业、医疗等诸多领域不断地增长和累积。人们不仅希望能够从大数据中提取出有价值的信息,更希望发现能够有效支持生产生活中需要决策的更深层次的规律。但是如何从数亿TB级别的数据中得到更有价值的信息,是科技工作者一直在思考的问题与努力的方向。

从而在该时代背景下,大数据产业蓬勃发展,出现了很多优秀的大数据技术。一如起初开源Hadoop,可以存储TB级的数据,亦可以进行TB级数据的分析。再到后来围绕Hadoop生态圈建立的Hive、Hbase、Pig等,使得人们选择处理的技术简单多样化。更有近年来优秀的大数据处理组件如Spark,Flink等,都使得人们在TB级别数据处理与事实数据处理方面有了长足的进步。

近年来大数据技术有了很大的突破,涌现出很多优秀的项目,但是在处理以及查询分析上面依然有很多难点需要突破。现归纳一下不足之处:

1、数据查询事实性较差,例如hive,hive底层需要走mapreduce,众所周知hadoop的mapreduce在IO交互上面太频繁,效率较差;

2、为了保证查询的时效性,不得不在数据存储格式上面作出妥协。现在流行的Hbase、Cassandra、MongoDB等都为非结构化存储;

3、组件学习成本高。例如使用ElasticSearch、Solr等,都需要再次学习一套完整的API,成本较高;

4、存储格式单一,没有较好的压缩比;

5、基于原始的索引组件开发,缺少优化,使得如lucene等其索引功能没有更好的发挥作用;

6、原始组件分析数据只能读取数据后再处理,在数据检索上缺少索引功能,即使提供了索引功能,在检索易用性上面也会做出妥协。

发明内容

本发明的目的在于提供一种基于Spark的索引方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于Spark的索引方法,包括如下步骤,

S1:在Spark进程中通过自定义消费接口消费实时数据,数据通过索引接口建立索引;

S2:修改lucene的原生索引接口;

S3:将整个索引程序、查询接口与Spark的服务结合起来;

S4:进行数据处理,之后进行数据的查询。

优选的,所述步骤S1中,索引建立之后,在Spark进程中维护索引的合并、删除与更新。

优选的,所述步骤S2中,修改原生索引接口之后,将数据索引到HDFS上面,满足TB级别数据的存储查询。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京录信软件技术有限公司,未经南京录信软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911026342.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top