[发明专利]一种基于MapReduce的分布式数据匿名处理方法有效
| 申请号: | 201710030621.8 | 申请日: | 2017-01-16 |
| 公开(公告)号: | CN106599726B | 公开(公告)日: | 2019-05-28 |
| 发明(设计)人: | 黄凯;张启亮 | 申请(专利权)人: | 江苏徐工信息技术股份有限公司 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F21/57 |
| 代理公司: | 徐州市三联专利事务所 32220 | 代理人: | 刘囝 |
| 地址: | 221000 江苏省徐*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 mapreduce 分布式 数据 匿名 处理 方法 | ||
本发明公开一种基于MapReduce的分布式数据匿名处理方法,包括服务器端和计算机终端,服务器端内存储有数据原表,对数据进行全域泛化,给出可能满足k‑匿名的泛化格;服务器端利用二分法分配给各计算机终端计算节点;各计算机终端并行进行计算,将计算情况向服务器端返回数值;若返回值表示不满足k‑匿名,服务器端则向计算机终端发送一个利用二分法确定的子孙节点;反之,服务器端则向计算机发送一个利用二分法确定的祖先节点;各个计算机终端根据服务器端给出新的节点再次计算,直至找到所有满足k‑匿名的节点。本发明解决了数据爆炸式增长与现今服务器存储和计算能力不足的矛盾,提高了海量数据处理的效率。
技术领域
本发明涉及一种基于MapReduce的分布式数据匿名处理方法,属于数据处理技术领域。
背景技术
由于知识决策、信息共享、科学研究的需求,数据拥有者需要将数据对外发布。为了减少数据发布过程中隐私泄露的可能性,数据拥有者有必要在发布前对数据进行隐私保护的相关处理。
目前,Sweeney和Samarati等人提出了k-anonymity隐私保护模型。k-anonymity隐私保护模型能够避免连接攻击发生,对隐私数据信息起到有效的防护作用,但是对于敏感属性信息并没有采取有效的防护手段,仍然存在着隐私数据信息泄漏的风险。在发生同质攻击、背景知识攻击、相似性攻击等情况下,k-anonymity隐私保护模型并不能有效地保护敏感属性信息的安全。
k-anonymity模型作为现今研究最为广泛的匿名模型,近年来不断有学者提出各种算法来实现或者改进k-anonymity隐私模型。Dtafly算法首先统计出每个准标识符属性值出现的次数,然后泛化相同属性值出现次数小于k的属性值,最终使得每个准标识符均满足k-anonymity算法的要求。MinGen最小泛化算法目的在于获得最小信息损失量的泛化结果,它采用完全搜索的方式选出每一步的最优泛化结果,直到所有的数据都满足k-anonymity模型。Incognito算法首先构建包含全域泛化方案的泛化格,然后根据自底向上原则对原始数据进行泛化,使得数据满足k-anonymity模型。Mondrian算法提出了多维k-anonymity模型的概念。
以上提出的隐私模型都是基于单机模式下,它们在处理大数据的隐私保护方面存在着低效率的缺陷。现今流行的隐私保护算法大多都是在单机模式下进行研究的,然而随着大数据时代的来临,这些算法在处理海量数据方面的效率不容乐观。
虽然现今已经有不少学者针对这一缺点提出了许多解决方案,如:Roy等人提出了一个名为Airavat的基于MapReduce的系统,它是强制访控制和差分隐私的集成。Blass等人提出了一个名为PRISM的隐私保护方案,它以Hadoop平台的MapReduce分布式编程模型为基础来执行对加密数据集的文字搜索。Ko等人提出了一个名为HybrEx的MapReduce模型,它提出用一个私有云来处理敏感和隐私数据,然后由其他人安全地扩展到公共云上。但在全域匿名方面还没有一个可行的方案。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于MapReduce的分布式数据匿名处理方法,可以利用多计算机终端协作的优势来实现海量数据的匿名化处理,能解决数据爆炸式增长与现今服务器存储和计算能力不足的矛盾,提高海量数据处理的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏徐工信息技术股份有限公司,未经江苏徐工信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710030621.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





