[发明专利]一种IndexR实时数据分析库在审

申请号：	201710355812.1	申请日：	2017-05-16
公开（公告）号：	CN107133342A	公开（公告）日：	2017-09-05
发明（设计）人：	李华煜;韦万	申请（专利权）人：	广州舜飞信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06Q30/02
代理公司：	北京华仲龙腾专利代理事务所(普通合伙)11548	代理人：	李静
地址：	510000 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种IndexR实时数据分析库；IndexR实时数据分析库实现了一种可部署于分布式环境，可并行化处理，带索引的，列式的结构化数据格式。基于这种数据格式，IndexR构建了一个数据仓库系统(Data Warehouse)，基于Hadoop生态，可以对海量数据集做快速统计分析(OLAP)，数据可实时导入并且对于查询零延迟。IndexR为解决大数据场景下分析缓慢、数据延迟、系统复杂等问题而设计。本发明的IndexR实时数据分析库把数据存放于HDFS，使用Zookeeper在集群中通讯和交涉，使用Hive方便的管理分区数据，可以通过Kafka高速实时导入数据，查询层使用优秀的分布式查询引擎Apache Drill。
搜索关键词：	一种 indexr 实时数据分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种IndexR实时数据分析库,其特征在于，包括：系统构架、部署架构、存储结构和实时模块；所述系统构架负责文件存储格式，包括索引和数据，数据的实时导入、表定义操作，查询优化，以及数据缓存等。分布式计算框架(Drill/Spark)负责在IndexR数据上的具体查询操作，以及其他计算任务，Hadoop以及周边工具‑提供分布式文件存储，离线批量计算，离线数据管理，以及各种离线ETL任务，IndexR与Hadoop完美结合，可以作为一个高度压缩、自带索引的文件格式，兼容Hive的所有操作，Kafka‑消息队列，数据经过kafka流入IndexR，Zookeeper‑集群状态管理；所述部署架构在Hadoop系统的环境下，在现有集群上部署IndexR通常可以在半小时之内完成，只需要在所有Hadoop的DataNode(和NameNode)节点上部署一份带有IndexR插件的Drill节点，只有几项必须配置项，并且所有节点的配置都是一样的，IndexR的服务逻辑嵌入了Drillbit进程，无需额外启动服务；所述存储结构以列式存储数据，并分片存储，分片称为Segment，每一个Segment都是自解释的，包括Schema，数据以及索引，Segment通常是固定不变的，这极大简化了数据管理，便于分布式处理；所述实时模块可以极高效率的导入实时数据，并且数据可以立刻被查询，可以多节点同时导入，实时导入的数据叫做Realtime Segment，在达到一定阀值后，IndexR会将它们合并成历史Segment，并上传到HDFS，之后数据就可以被离线分析工具所使用和管理，Realtime Segment具体实现参考了LSM‑Tree，通过在磁盘上的commitlog文件保存所有更新操作，最新数据放在内存中以快速入库和索引，周期性将内存数据dump到磁盘，IndexR进程可以随时被重启，或者直接杀死，不用担心数据丢失。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州舜飞信息科技有限公司，未经广州舜飞信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710355812.1/，转载请声明来源钻瓜专利网。

上一篇：一种可编程的通用视频处理分析模块
下一篇：基于时间序列近似匹配的大数据异常状态检测方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

一种IndexR实时数据分析库

[发明专利]一种IndexR实时数据分析库在审

专利文献下载