[发明专利]数据脱敏方法及装置有效

专利信息
申请号: 201611260695.2 申请日: 2016-12-30
公开(公告)号: CN106778351B 公开(公告)日: 2020-04-21
发明(设计)人: 王明;马晓雨 申请(专利权)人: 中国民航信息网络股份有限公司
主分类号: G06F21/62 分类号: G06F21/62;G06F16/22;G06F16/21
代理公司: 北京瑞思知识产权代理事务所(普通合伙) 11341 代理人: 李涛
地址: 101318 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 方法 装置
【说明书】:

发明提供了一种数据脱敏方法及装置,其中,该方法包括:根据脱敏策略从HBase数据库获取表结构,用于配置MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。通过本发明,解决了现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题。

技术领域

本发明涉及数据处理领域,具体而言,涉及一种数据脱敏方法及装置。

背景技术

相关技术中,数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统,HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(归约),是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。JAR文件格式以流行的ZIP文件格式为基础。与ZIP文件不同的是,JAR文件不仅用于压缩和发布,而且还用于部署和封装库、组件和插件程序,并可被像编译器和JVM这样的工具直接使用。一个JAR文件可以用于:用于发布和使用类库、作为应用程序和扩展的构建单元、作为组件、Applet或者插件程序的部署单位、用于打包与组件相关联的辅助资源。FAT JAR打包插件,可以方便的完成各种打包任务,可以包含外部的包等。

数据脱敏传统的脱敏方式,是将源数据库的数据抽取到脱敏平台,对数据进行脱敏转换后,再将转换后的数据装载到目标数据库。现有技术对于处理传统关系型数据库(如ORACLE、DB2、Mysql等)的数据量,一般都可以在一个晚上执行完脱敏任务。但是,对于Hadoop这样的超大规模数据处理平台,用传统的脱敏方式处理将需要半个月甚至一个月的时间,这样的处理速度是不可忍受的。现有的对Hadoop平台HBase脱敏的处理方式一般是通过Hadoop API或者第三方工具如Phoenix,将HBase数据抽取到脱敏平台进行脱敏转换处理,再将转换后的数据通过API或工具装载回HBase数据库。这些方式都面临脱敏平台单点处理能力上限问题。

针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种数据脱敏方法及装置,以至少解决现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题。

根据本发明的一个实施例,提供了一种数据脱敏方法,包括:根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。

可选地,在根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业之前,所述方法还包括:配置所述HBase数据库的所述脱敏策略。

可选地,配置所述HBase数据库的所述脱敏策略包括:将所述Hadoop的应用程序编程接口API作为提交所述MapReduce作业的通道;将所述HBase数据库的类信息、所述HBase数据库的配置文件、以及第三方JAR包配置在包括所述MapReduce作业的胖JAR包;设置系统环境变量Hadoop_USER_NAME对提交所述MapReduce作业的用户进行鉴权。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航信息网络股份有限公司,未经中国民航信息网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611260695.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top