[发明专利]基于数据湖的大数据采集治理快速检索系统在审

专利信息
申请号: 202010340728.4 申请日: 2020-04-26
公开(公告)号: CN111460236A 公开(公告)日: 2020-07-28
发明(设计)人: 李光;李延波;张建军;俞光日;夏连杰;刘金栋;李延勇 申请(专利权)人: 天津七一二通信广播股份有限公司
主分类号: G06F16/901 分类号: G06F16/901;G06F16/903
代理公司: 天津企兴智财知识产权代理有限公司 12226 代理人: 马倩倩
地址: 300462 天津市滨海*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 数据 采集 治理 快速 检索系统
【说明书】:

本发明提供了一种基于数据湖的大数据采集治理快速检索系统,包括数据采集前端模块、数据关联元数据提取模块、数据资源池模块、数据治理模块、数据服务模块和数据业务模块;数据关联元数据提取模块用于完成多源异构数据的元数据提取,并将提取的信息存储在数据服务模块的分布式全文检索数据库中;所述数据服务模块具备冷数据的自动清除功能。本发明提出的系统充分利用大数据技术、数据治理技术、不同类型数据库的特性实现的基于数据湖的数据采集治理快速检索系统,可以有效的避免数据资源碎片化、数据检索效率低的问题,还有避免数据存储资源庞大、存储资源浪费的问题。

技术领域

本发明属于大数据技术领域,尤其是涉及一种基于数据湖的大数据采集治理快速检索系统。

背景技术

所谓的数据湖就是通过原始数据分类存储到不同的数据池,然后在各个数据池中将数据整合转化为容易分析的统一存储格式进行存储。这种方式极大的方便用户对数据进行分析和利用,从而产生经济效益。

数据湖实现的常用手段是利用Hadoop技术,数据湖把原始数据按照类别进行存储,在各数据池中可将数据转化为统一的可直接提取的格式,这种方式具有极大的商业价值,对大数据分析做出了极大贡献。

但是,现有的数据湖架构也存在一些问题和挑战,比如:数据来源不同造成数据碎片化、检索效率低;还有数据湖中很多数据永远不会删除,所需要的存储空间庞大,造成资源浪费等问题。

例如现有技术的中国专利:一种基于数据湖的数据治理方法及装置,专利申请号:201910570011.6;一种面向全数据形态开放共享的数据湖系统,专利申请号:201810963494.1;工业数据湖系统,专利申请号:201910944246.7;上述三个专利只描述了一种基于数据湖思想的数据系统的实现方式,在专利中均未涉及如何避免数据存储资源庞大、存储资源浪费、数据资源碎片化、检索效率低等问题。

发明内容

有鉴于此,本发明旨在提出一种基于数据湖的大数据采集治理快速检索系统,基于Hadoop、快速检索、分布式数据库等技术实现的具备多源异构数据采集、治理、快速检索系统,有效的避免了上述问题。

为达到上述目的,本发明的技术方案是这样实现的:

基于数据湖的大数据采集治理快速检索系统,其特征在于,包括:

数据采集前端模块,用于完成多源异构数据的采集,并将采集到的数据存储在数据资源池中;

数据资源池模块,包括分布式文件系统、非关系型数据库、关系型数据库,用于存储数据采集前端模块输出的数据;

数据治理模块,用于批量或实时治理存储在数据资源池模块中的数据,并将治理后的数据按照用户的需求形成数据主题库,并存储在数据服务模块的分布式分析型数据库中;

数据服务模块,包括分布式全文检索数据库、分布式分析型数据库、分布式内存型数据库三个部分;

数据业务模块,用于为用户提供数据业务服务;

数据关联元数据提取模块,用于完成多源异构数据的元数据提取,并将提取的信息存储在数据服务模块的分布式全文检索数据库中。

进一步的,所述数据关联元数据提取模块提取的元数据包括如下关键参数:数据的版本信息、类型、来源、采集时间、数据结构信息、存储位置信息;所述数据采集前端模块和数据关联元数据提取模块分别实现数据储存及元数据提取的步骤如下:

步骤A:多个数据采集前端模块分别部署在不同的数据源前端,每个数据采集前端模块采集一种数据来源的数据;

步骤B:采集到的数据通过采集前端模块的数据版本信息检测模块监测出数据相关的版本信息;通过采集前端模块的数据标签处理模块将数据进行打标签,标签信息包括:类型、来源、采集时间、数据结构信息、存储位置;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津七一二通信广播股份有限公司,未经天津七一二通信广播股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010340728.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top