[发明专利]元数据处理方法、装置、设备、介质和程序产品在审
| 申请号: | 202211179839.7 | 申请日: | 2022-09-27 |
| 公开(公告)号: | CN115658683A | 公开(公告)日: | 2023-01-31 |
| 发明(设计)人: | 王照坤;张恒;蔡睿 | 申请(专利权)人: | 中国农业银行股份有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27;G06F16/182;G06F16/16 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 王潇;臧建明 |
| 地址: | 100005 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 设备 介质 程序 产品 | ||
本申请提供一种元数据处理方法、装置、设备、介质和程序产品,该方法包括:在分布式数据库组件中建立数据湖的数据组织格式组件对应的元数据表,根据数据湖的数据组织格式组件在执行事务时涉及的数据操作,确定待执行数据操作的记录所在分区和分区中的文件组,根据待执行数据操作的记录所在分区和分区中的文件组,从元数据表中获取目标文件路径,在目标文件路径下执行数据操作。该技术方案中,通过借助分布式数据库组件,以键值对的方式维护元数据表中数据文件路径信息,可以避免Hudi在文件读写操作中对分布式文件系统的大量读写口的占用,减轻文件系统负担,防止由于文件系统负担过大,造成读写操作过程中出现失败、不断重试的情况。
技术领域
本申请涉及分布式系统技术领域,尤其涉及一种元数据处理方法、装置、设备、介质和程序产品。
背景技术
Apache Hudi(简称Hudi)是一种数据湖的存储格式,在Hadoop文件系统之上提供更新数据和删除数据的能力。
现有技术中,Hudi采用数据分区、文件组与文件切片的目录结构,并使用列式存储文件Parquet作为文件切片保存表数据,相较传统大数据方案,这样的组织方式能够有效克服数据更新效率低、无法及时修改表结构、历史快照数据冗余、小批量增量数据处理成本高等问题。
但是,由于Hudi采用数据文件备份的方式保存历史数据,因此分区文件夹、数据文件数据量存在规模很大的情况,Hudi对文件夹、文件的操作会为分布式文件系统带来很大的负担,导致任务执行过程中出现失败、不断重试的情况,影响任务执行效率。
发明内容
本申请提供一种元数据处理方法、装置、设备、介质和程序产品,用于解决现有Hudi对文件夹、文件的操作会增加分布式文件系统的负担,导致任务执行出错的问题。
第一方面,本申请实施例提供一种元数据处理方法,包括:
在分布式数据库组件中建立数据湖的数据组织格式组件对应的元数据表,所述元数据表中包括有元数据的文件路径信息;
根据所述数据湖的数据组织格式组件在执行事务时涉及的数据操作,确定待执行所述数据操作的记录所在分区和所述分区中的文件组;
根据待执行所述数据操作的记录所在分区和所述分区中的文件组,从所述元数据表中获取目标文件路径;
在所述目标文件路径下执行所述数据操作。
在第一方面的一种可能设计中,所述在分布式数据库组件中建立数据湖的数据组织格式组件对应的元数据表,包括:
获取所述数据湖的数据组织格式组件的分区路径、文件组、所述文件组下所有文件切片的信息,所述数据湖的数据组织格式组件包括不同的分区路径,不同的分区路径中包括有不同的文件组,所述文件切片的信息包括文件名和文件大小;
将所述分区路径、文件组作为键,所有文件切片的信息作为键值,构建关联的键值对;
根据所述关联的键值对,构建得到所述元数据表,所述关联的键值对用于作为所述文件路径信息。
在第一方面的另一种可能设计中,所述在所述目标文件路径下执行所述数据操作之后,还包括:
根据在所述目标文件路径下执行的所述数据操作,确定待更新信息,所述待更新信息包括分区更新信息、文件组更新信息、文件切片更新信息中的至少一种;
根据所述待更新信息,对所述元数据表中的文件路径信息进行更新。
在第一方面的再一种可能设计中,所述对所述元数据表中的文件路径信息进行更新,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211179839.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:云任务分配方法及设备
- 下一篇:一种基于无线传输的耐三高温湿度传感器





