[发明专利]一种基于Spark的索引方法在审
申请号: | 201911026342.X | 申请日: | 2019-10-26 |
公开(公告)号: | CN110737667A | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 王帅 | 申请(专利权)人: | 南京录信软件技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458;G06F16/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 查询语言 结构化数据 自定义接口 查询接口 检索性能 接口建立 实时数据 数据索引 数据通过 索引查询 索引程序 索引功能 消费接口 查询 数据处理 统计分析 自定义 离线 检索 返回 进程 学习 服务 | ||
本发明公开了一种基于Spark的索引方法,包括如下步骤,S1:在Spark进程中通过自定义消费接口消费实时数据,数据通过索引接口建立索引;S2:修改lucene的原生索引接口;S3:将整个索引程序、查询接口与Spark的服务结合起来;S4:进行数据处理,之后进行数据的查询;主要是在原始的Spark检索上添加了一层索引功能,从而加快了检索性能;该功能在索引层使用的是原生的lucene,通过自定义接口,Spark或者离线程序会将数据索引到HDFS上面,以后的统计分析都可以使用Spark的索引查询快速返回,而在查询语言的使用上选择的是Spark SQL,本发明完美的与Spark SQL引擎结合在一起,这种基于结构化数据的查询语言简化了查询难度,降低了学习成本。
技术领域
本发明涉及大数据查询处理技术领域,具体为一种基于Spark的索引方法。
背景技术
近年来,随着物联网、社交网络、云计算等技术不断融入我们的生活以及现有的计算能力、存储空间、网络带宽的高速发展,人类积累的数据在互联网、通信、金融、商业、医疗等诸多领域不断地增长和累积。人们不仅希望能够从大数据中提取出有价值的信息,更希望发现能够有效支持生产生活中需要决策的更深层次的规律。但是如何从数亿TB级别的数据中得到更有价值的信息,是科技工作者一直在思考的问题与努力的方向。
从而在该时代背景下,大数据产业蓬勃发展,出现了很多优秀的大数据技术。一如起初开源Hadoop,可以存储TB级的数据,亦可以进行TB级数据的分析。再到后来围绕Hadoop生态圈建立的Hive、Hbase、Pig等,使得人们选择处理的技术简单多样化。更有近年来优秀的大数据处理组件如Spark,Flink等,都使得人们在TB级别数据处理与事实数据处理方面有了长足的进步。
近年来大数据技术有了很大的突破,涌现出很多优秀的项目,但是在处理以及查询分析上面依然有很多难点需要突破。现归纳一下不足之处:
1、数据查询事实性较差,例如hive,hive底层需要走mapreduce,众所周知hadoop的mapreduce在IO交互上面太频繁,效率较差;
2、为了保证查询的时效性,不得不在数据存储格式上面作出妥协。现在流行的Hbase、Cassandra、MongoDB等都为非结构化存储;
3、组件学习成本高。例如使用ElasticSearch、Solr等,都需要再次学习一套完整的API,成本较高;
4、存储格式单一,没有较好的压缩比;
5、基于原始的索引组件开发,缺少优化,使得如lucene等其索引功能没有更好的发挥作用;
6、原始组件分析数据只能读取数据后再处理,在数据检索上缺少索引功能,即使提供了索引功能,在检索易用性上面也会做出妥协。
发明内容
本发明的目的在于提供一种基于Spark的索引方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于Spark的索引方法,包括如下步骤,
S1:在Spark进程中通过自定义消费接口消费实时数据,数据通过索引接口建立索引;
S2:修改lucene的原生索引接口;
S3:将整个索引程序、查询接口与Spark的服务结合起来;
S4:进行数据处理,之后进行数据的查询。
优选的,所述步骤S1中,索引建立之后,在Spark进程中维护索引的合并、删除与更新。
优选的,所述步骤S2中,修改原生索引接口之后,将数据索引到HDFS上面,满足TB级别数据的存储查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京录信软件技术有限公司,未经南京录信软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911026342.X/2.html,转载请声明来源钻瓜专利网。