[发明专利]一种数据提取方法、装置、设备及存储介质在审

专利信息
申请号: 202310620305.1 申请日: 2023-05-29
公开(公告)号: CN116644471A 公开(公告)日: 2023-08-25
发明(设计)人: 操庐宁 申请(专利权)人: 中国银行股份有限公司
主分类号: G06F21/62 分类号: G06F21/62;G06F18/214;G06F18/24;G06F21/64
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 马小青
地址: 100818 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 提取 方法 装置 设备 存储 介质
【说明书】:

本申请提供了一种数据提取方法、装置、设备及存储介质,可应用于大数据领域或金融领域。该方法包括:获取目标数据提取任务后,根据数据查询信息从数据湖中提取数据并对数据进行脱敏,得到第一数据集。然后,根据分隔符配置表对第一数据集中的数据添加分隔符,得到第二数据集。最后,向分析层发送第二数据集和分隔符信息,以使分析层中的数据库识别并加载第二数据集。这样,通过分隔符配置表进行分隔符转义,可以将提取的数据直接加载到分析层中的数据库,从而提高数据提取效率的效果。如此,解决了数据提取的分隔符及分析层中的分隔符不一致导致的无法识别或转化需要较长时间的问题,使银行系统中的分析层能够高效便捷地从数据湖中提取数据。

技术领域

本申请可应用于大数据领域或金融领域,尤其涉及一种数据提取方法、装置、设备及存储介质。

背景技术

随着提出的“数据湖”架构方案越发成熟,数据湖作为支撑企业数字化转型的数据底座,能够为企业提供数据驱动、精准决策等全方位技术支撑,因此企业级数据湖的建设,是数据价值逐渐释放的基础,是企业数字化战略转型的关键,也是银行大数据应用建设中支撑银行数据服务需求的解决方案。现如今银行业务线上化、数字化的趋势明显加快,基于数据驱动的业务场景不断涌现,业务变化多、弹性大、需要快速响应,数据量大、类型丰富,数据湖可以用来整合银行内、内部各类业务零碎数据,增强数据安全管控及数据安全,应对大量的银行数据业务需求。

一般情况下,当银行业务需要从数据湖中提取数据时,分析层会向提数服务发送数据提取请求,提数服务将从数据湖中查询数据,并将查询到的数据及下载到本地,再传输给分析层,由分析层展现到银行业务中。然而这种方法由于数据湖的权限管理,需要先将查询结果下载到本地,在传输到分析层中,在数据量巨大的情况下,数据提取所需的时间过长。而且从HIVE表提取后的数据分隔符和分析层GBASE数据库支持的分隔符不一致,导致查询到的数据无法直接加载到分析层,从而导致这样的数据提取方法具有数据提取效率低下的缺点。

因此,如何高效便捷地从数据湖中提取数据,是本领域技术人员急需解决的技术问题。

发明内容

有鉴于此,本申请提供了一种数据提取方法、装置、设备及存储介质,旨在使银行系统中的分析层高效便捷地从数据湖中提取数据。

第一方面,本申请提供了一种数据提取方法,所述方法包括:

获取目标数据提取任务,所述目标数据提取任务包括数据查询信息;

根据所述数据查询信息从数据湖中提取数据并对数据进行脱敏,得到第一数据集;

根据分隔符配置表对所述第一数据集中的数据添加分隔符,得到第二数据集;

向分析层发送所述第二数据集和分隔符信息,所述分隔符信息为从分隔符配置表中选取与所述分隔符对应的分隔符信息,用于使所述分析层中的数据库识别并加载所述第二数据集。

可选地,对提取到的数据进行脱敏,包括:

根据预设脱敏规则制定脱敏函数,并利用所述脱敏函数对所述第一数据集进行敏感字段的脱敏,

其中,所述预设脱敏规则包括加密或隐藏处理所述第一数据集中的非校验位和校验位,所述校验位为敏感字段中的一个或多个数据位,所述敏感字段的类型包括用户身份标识、客户名称、账号信息和银行卡标识。

可选地,所述分隔符信息包括在所述分隔符配置表中所述分隔符对应的第一分隔符,所述第一分隔符为所述分析层中的数据库支持且能够识别的分隔符;

其中,所述分隔符配置表是在为所述第一数据集中的数据添加分隔符前预先创建并设定的。

可选地,所述获取目标数据提取任务后,所述方法还包括:

接收分析层的分区校验请求,所述分区校验请求包括所述目标数据提取任务的数据湖中的目标数据分区;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310620305.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top