[发明专利]湖仓一体系统在审
申请号: | 202211736751.0 | 申请日: | 2022-12-30 |
公开(公告)号: | CN116166191A | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 王维峰 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F16/28 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 任亚娟 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一体 系统 | ||
本发明实施例提供了一种湖仓一体系统,该系统包括:存储计算模块,所述存储计算模块包括:计算单元和湖仓统一存储单元;所述湖仓统一存储单元是将数据仓库和数据湖融合后形成的,用于进行数据存储;所述计算单元用于进行数据计算。上述方案,能够实现计算资源和存储资源的分离,快速按需为用户提供计算服务或者存储服务,打造储算分离的存储计算环境,使系统能够扩展到更大规模的并发能力和数据容量,有效降低了能耗。
技术领域
本发明涉及互联网技术领域,尤其涉及一种湖仓一体系统。
背景技术
为了研究数据之间的关系,挖掘数据隐藏的价值,需要将数据进行“开采/储存”即数据的收集储存,其次进行“精炼”即数据的挖掘和分析,最终实现数据创造更多价值。数据仓库的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。企业通常依靠昂贵且私有的本地数据仓库解决方案来存储和分析数据,由于模型范式的要求,底层数据无法做到多样变化,导致企业业务不能随意变迁。
同时随着互联网/移动互联网的爆发,数据量从TB到PB到EB级,数据类型更是涵盖结构化数据、非结构化数据、半结构化数据,并且用户对地域性、及时性的要求愈发苛刻,使得传统的数据仓库方案需要更新,催生了数据湖技术。
数据湖是一个存储企业各种各样原始数据的大型仓库,可供数据存取、处理、分析以及传输,可看作一种大型数据存储库和处理引擎。相比于数据仓库而言,数据湖存储容量更大,数据类型更为丰富,增加了对半结构化数据和非结构化数据的支持,同时对所有数据进行集中式存储。并具有庞大的PB级数据存储规模以及计算能力,提供多元化数据信息交叉分析,及大容量高速度的数据管道。而数据湖架构本身缺少对数据监管、控制和必要的治理手段,导致运维成本不断增加,数据治理效率降低。长此以往,企业落入了“数据沼泽”的境地。随着企业数字化转型的深化,跨多业务、多数据类型的新型应用场景不断涌现,海量大数据场景下的实时处理、非结构化数据治理等需求,给企业数据基础设施带来了新的挑战。
发明内容
本发明实施例提供一种湖仓一体系统,以解决上述问题。
第一方面,本发明实施例提供了一种湖仓一体系统,包括:
存储计算模块,所述存储计算模块包括:计算单元和湖仓统一存储单元;
所述湖仓统一存储单元是将数据仓库和数据湖融合后形成的,用于进行数据存储;
计算单元用于进行数据计算。
可选的,所述计算单元包括:云原生计算资源单元;
所述云原生计算资源单元用于对第一数据进行聚合快照处理,得到第一快照数据,所述第一快照数据用于索引第一数据信息,所述第一数据信息包括:所述第一数据的位置信息和内容信息。
可选的,所述计算单元还包括:汇总单元;
所述汇总单元包括:汇总层、中间层和整合层;
所述汇总层用于存储指标率数据和标签率数据。
可选的,还包括:数据源模块和数据采集模块;
所述数据采集模块包括:实时入湖单元和数据文件单元;
所述数据文件单元用于将所述数据源模块中的数据文件传输至所述实时入湖单元;
所述实时入湖单元用于将所述数据文件进行数据处理后传输至所述湖仓统一存储单元。
可选的,所述数据采集模块还包括:日志采集单元;
所述日志采集单元用于通过采集工具获取日志数据,并将所述日志数据生成消息数据,并将所述消息数据传输至所述实时入湖单元以及所述计算单元中的实时分析单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211736751.0/2.html,转载请声明来源钻瓜专利网。