[发明专利]数据脱敏方法及装置有效
申请号: | 201611260695.2 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106778351B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 王明;马晓雨 | 申请(专利权)人: | 中国民航信息网络股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/22;G06F16/21 |
代理公司: | 北京瑞思知识产权代理事务所(普通合伙) 11341 | 代理人: | 李涛 |
地址: | 101318 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 方法 装置 | ||
本发明提供了一种数据脱敏方法及装置,其中,该方法包括:根据脱敏策略从HBase数据库获取表结构,用于配置MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。通过本发明,解决了现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据脱敏方法及装置。
背景技术
相关技术中,数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统,HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(归约),是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。JAR文件格式以流行的ZIP文件格式为基础。与ZIP文件不同的是,JAR文件不仅用于压缩和发布,而且还用于部署和封装库、组件和插件程序,并可被像编译器和JVM这样的工具直接使用。一个JAR文件可以用于:用于发布和使用类库、作为应用程序和扩展的构建单元、作为组件、Applet或者插件程序的部署单位、用于打包与组件相关联的辅助资源。FAT JAR打包插件,可以方便的完成各种打包任务,可以包含外部的包等。
数据脱敏传统的脱敏方式,是将源数据库的数据抽取到脱敏平台,对数据进行脱敏转换后,再将转换后的数据装载到目标数据库。现有技术对于处理传统关系型数据库(如ORACLE、DB2、Mysql等)的数据量,一般都可以在一个晚上执行完脱敏任务。但是,对于Hadoop这样的超大规模数据处理平台,用传统的脱敏方式处理将需要半个月甚至一个月的时间,这样的处理速度是不可忍受的。现有的对Hadoop平台HBase脱敏的处理方式一般是通过Hadoop API或者第三方工具如Phoenix,将HBase数据抽取到脱敏平台进行脱敏转换处理,再将转换后的数据通过API或工具装载回HBase数据库。这些方式都面临脱敏平台单点处理能力上限问题。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种数据脱敏方法及装置,以至少解决现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题。
根据本发明的一个实施例,提供了一种数据脱敏方法,包括:根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。
可选地,在根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业之前,所述方法还包括:配置所述HBase数据库的所述脱敏策略。
可选地,配置所述HBase数据库的所述脱敏策略包括:将所述Hadoop的应用程序编程接口API作为提交所述MapReduce作业的通道;将所述HBase数据库的类信息、所述HBase数据库的配置文件、以及第三方JAR包配置在包括所述MapReduce作业的胖JAR包;设置系统环境变量Hadoop_USER_NAME对提交所述MapReduce作业的用户进行鉴权。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航信息网络股份有限公司,未经中国民航信息网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611260695.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置