[发明专利]基于数据湖的大数据采集治理快速检索系统在审
| 申请号: | 202010340728.4 | 申请日: | 2020-04-26 |
| 公开(公告)号: | CN111460236A | 公开(公告)日: | 2020-07-28 |
| 发明(设计)人: | 李光;李延波;张建军;俞光日;夏连杰;刘金栋;李延勇 | 申请(专利权)人: | 天津七一二通信广播股份有限公司 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
| 代理公司: | 天津企兴智财知识产权代理有限公司 12226 | 代理人: | 马倩倩 |
| 地址: | 300462 天津市滨海*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 数据 采集 治理 快速 检索系统 | ||
本发明提供了一种基于数据湖的大数据采集治理快速检索系统,包括数据采集前端模块、数据关联元数据提取模块、数据资源池模块、数据治理模块、数据服务模块和数据业务模块;数据关联元数据提取模块用于完成多源异构数据的元数据提取,并将提取的信息存储在数据服务模块的分布式全文检索数据库中;所述数据服务模块具备冷数据的自动清除功能。本发明提出的系统充分利用大数据技术、数据治理技术、不同类型数据库的特性实现的基于数据湖的数据采集治理快速检索系统,可以有效的避免数据资源碎片化、数据检索效率低的问题,还有避免数据存储资源庞大、存储资源浪费的问题。
技术领域
本发明属于大数据技术领域,尤其是涉及一种基于数据湖的大数据采集治理快速检索系统。
背景技术
所谓的数据湖就是通过原始数据分类存储到不同的数据池,然后在各个数据池中将数据整合转化为容易分析的统一存储格式进行存储。这种方式极大的方便用户对数据进行分析和利用,从而产生经济效益。
数据湖实现的常用手段是利用Hadoop技术,数据湖把原始数据按照类别进行存储,在各数据池中可将数据转化为统一的可直接提取的格式,这种方式具有极大的商业价值,对大数据分析做出了极大贡献。
但是,现有的数据湖架构也存在一些问题和挑战,比如:数据来源不同造成数据碎片化、检索效率低;还有数据湖中很多数据永远不会删除,所需要的存储空间庞大,造成资源浪费等问题。
例如现有技术的中国专利:一种基于数据湖的数据治理方法及装置,专利申请号:201910570011.6;一种面向全数据形态开放共享的数据湖系统,专利申请号:201810963494.1;工业数据湖系统,专利申请号:201910944246.7;上述三个专利只描述了一种基于数据湖思想的数据系统的实现方式,在专利中均未涉及如何避免数据存储资源庞大、存储资源浪费、数据资源碎片化、检索效率低等问题。
发明内容
有鉴于此,本发明旨在提出一种基于数据湖的大数据采集治理快速检索系统,基于Hadoop、快速检索、分布式数据库等技术实现的具备多源异构数据采集、治理、快速检索系统,有效的避免了上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
基于数据湖的大数据采集治理快速检索系统,其特征在于,包括:
数据采集前端模块,用于完成多源异构数据的采集,并将采集到的数据存储在数据资源池中;
数据资源池模块,包括分布式文件系统、非关系型数据库、关系型数据库,用于存储数据采集前端模块输出的数据;
数据治理模块,用于批量或实时治理存储在数据资源池模块中的数据,并将治理后的数据按照用户的需求形成数据主题库,并存储在数据服务模块的分布式分析型数据库中;
数据服务模块,包括分布式全文检索数据库、分布式分析型数据库、分布式内存型数据库三个部分;
数据业务模块,用于为用户提供数据业务服务;
数据关联元数据提取模块,用于完成多源异构数据的元数据提取,并将提取的信息存储在数据服务模块的分布式全文检索数据库中。
进一步的,所述数据关联元数据提取模块提取的元数据包括如下关键参数:数据的版本信息、类型、来源、采集时间、数据结构信息、存储位置信息;所述数据采集前端模块和数据关联元数据提取模块分别实现数据储存及元数据提取的步骤如下:
步骤A:多个数据采集前端模块分别部署在不同的数据源前端,每个数据采集前端模块采集一种数据来源的数据;
步骤B:采集到的数据通过采集前端模块的数据版本信息检测模块监测出数据相关的版本信息;通过采集前端模块的数据标签处理模块将数据进行打标签,标签信息包括:类型、来源、采集时间、数据结构信息、存储位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津七一二通信广播股份有限公司,未经天津七一二通信广播股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010340728.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种眼镜修复矫正装置
- 下一篇:防近视纸的制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





