[发明专利]一种数据提取方法、装置、设备及存储介质在审
申请号: | 202310620305.1 | 申请日: | 2023-05-29 |
公开(公告)号: | CN116644471A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 操庐宁 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F18/214;G06F18/24;G06F21/64 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 马小青 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 提取 方法 装置 设备 存储 介质 | ||
本申请提供了一种数据提取方法、装置、设备及存储介质,可应用于大数据领域或金融领域。该方法包括:获取目标数据提取任务后,根据数据查询信息从数据湖中提取数据并对数据进行脱敏,得到第一数据集。然后,根据分隔符配置表对第一数据集中的数据添加分隔符,得到第二数据集。最后,向分析层发送第二数据集和分隔符信息,以使分析层中的数据库识别并加载第二数据集。这样,通过分隔符配置表进行分隔符转义,可以将提取的数据直接加载到分析层中的数据库,从而提高数据提取效率的效果。如此,解决了数据提取的分隔符及分析层中的分隔符不一致导致的无法识别或转化需要较长时间的问题,使银行系统中的分析层能够高效便捷地从数据湖中提取数据。
技术领域
本申请可应用于大数据领域或金融领域,尤其涉及一种数据提取方法、装置、设备及存储介质。
背景技术
随着提出的“数据湖”架构方案越发成熟,数据湖作为支撑企业数字化转型的数据底座,能够为企业提供数据驱动、精准决策等全方位技术支撑,因此企业级数据湖的建设,是数据价值逐渐释放的基础,是企业数字化战略转型的关键,也是银行大数据应用建设中支撑银行数据服务需求的解决方案。现如今银行业务线上化、数字化的趋势明显加快,基于数据驱动的业务场景不断涌现,业务变化多、弹性大、需要快速响应,数据量大、类型丰富,数据湖可以用来整合银行内、内部各类业务零碎数据,增强数据安全管控及数据安全,应对大量的银行数据业务需求。
一般情况下,当银行业务需要从数据湖中提取数据时,分析层会向提数服务发送数据提取请求,提数服务将从数据湖中查询数据,并将查询到的数据及下载到本地,再传输给分析层,由分析层展现到银行业务中。然而这种方法由于数据湖的权限管理,需要先将查询结果下载到本地,在传输到分析层中,在数据量巨大的情况下,数据提取所需的时间过长。而且从HIVE表提取后的数据分隔符和分析层GBASE数据库支持的分隔符不一致,导致查询到的数据无法直接加载到分析层,从而导致这样的数据提取方法具有数据提取效率低下的缺点。
因此,如何高效便捷地从数据湖中提取数据,是本领域技术人员急需解决的技术问题。
发明内容
有鉴于此,本申请提供了一种数据提取方法、装置、设备及存储介质,旨在使银行系统中的分析层高效便捷地从数据湖中提取数据。
第一方面,本申请提供了一种数据提取方法,所述方法包括:
获取目标数据提取任务,所述目标数据提取任务包括数据查询信息;
根据所述数据查询信息从数据湖中提取数据并对数据进行脱敏,得到第一数据集;
根据分隔符配置表对所述第一数据集中的数据添加分隔符,得到第二数据集;
向分析层发送所述第二数据集和分隔符信息,所述分隔符信息为从分隔符配置表中选取与所述分隔符对应的分隔符信息,用于使所述分析层中的数据库识别并加载所述第二数据集。
可选地,对提取到的数据进行脱敏,包括:
根据预设脱敏规则制定脱敏函数,并利用所述脱敏函数对所述第一数据集进行敏感字段的脱敏,
其中,所述预设脱敏规则包括加密或隐藏处理所述第一数据集中的非校验位和校验位,所述校验位为敏感字段中的一个或多个数据位,所述敏感字段的类型包括用户身份标识、客户名称、账号信息和银行卡标识。
可选地,所述分隔符信息包括在所述分隔符配置表中所述分隔符对应的第一分隔符,所述第一分隔符为所述分析层中的数据库支持且能够识别的分隔符;
其中,所述分隔符配置表是在为所述第一数据集中的数据添加分隔符前预先创建并设定的。
可选地,所述获取目标数据提取任务后,所述方法还包括:
接收分析层的分区校验请求,所述分区校验请求包括所述目标数据提取任务的数据湖中的目标数据分区;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310620305.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置