[发明专利]一种面向多敏感属性数据发布的匿名隐私保护方法有效
申请号: | 201910933708.5 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110659513B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 韩启龙;梅华峥;张海涛;张可佳;马志强;李丽洁;徐悦竹 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 刘景祥 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 敏感 属性 数据 发布 匿名 隐私 保护 方法 | ||
本发明公开了一种面向多敏感属性数据发布的匿名隐私保护方法。步骤1:计算原始数据表中各属性间的相关性,定义属性类别;步骤2:根据属性间的相关性,将所有属性进行分组;步骤3:将每个分组按照属性间相关性大小,由高到低排序;步骤4:计算每组内,敏感属性值出现频率,判断属性值是否需要保护;步骤5:将需要保护的敏感属性值及其关联属性与无需保护的敏感属性值进行交换;步骤6:对相关属性进行频繁项集挖掘;步骤7:使用聚类技术生成匿名等价组,匿名等价组内每个敏感属性满足L多样性。本发明通过降低匿名率,关联属性共同置换,在保证隐私保护强度的同时,提高数据的可用性。
技术领域
本发明属于多敏感属性数据的技术领域;具体涉及一种面向多敏感属性数据发布的匿名隐私保护方法。
背景技术
近年来,随着互联网的极速发展,各个领域对信息共享的依赖程度普遍提高,数据收集者通过对共享数据进行挖掘,往往可以发现更有价值的潜在信息,然而信息共享这一过程存在隐私泄露风险,由于原始数据中包含了大量的敏感信息,如家庭住址、医疗信息、工作情况等,数据拥有者如果将原始数据直接发布,会导致个人隐私的泄露,因此,需要对原始数据进行隐私保护处理后再发布。
随着数据量的剧增,数据表结构也变得更为复杂化,数据表已从单一的敏感属性,发展为复杂的具有相关性的多敏感属性数据,由于共享数据往往经过数据分析后被用来参与决策,数据发布者在考虑隐私保护的同时,还应尽可能保持数据表结构的稳定性以及数据真实性,从而提高数据的可用性,因此数据发布者需要更优的隐私保护算法对数据进行处理再发布。数据发布中常采用的匿名化技术一般包括泛化、扰动、微聚集、聚类和划分、交换等方法。目前已有的匿名模型如下:
K匿名模型是基于泛化策略最经典的方法,K匿名模型是通过对同一个匿名等价组中的准标识符进行泛化,防止攻击者通过链接攻击得到个人隐私信息,使攻击者获取信息的概率至多为1/k。L多样性模型优化了K匿名模型,使得同一匿名等价组内,敏感属性值满足l多样性,抵御同质攻击。T近邻模型优化L多样性模型,使得同一匿名等价组内,敏感属性值的分布与原始数据表的敏感属性值分布相近。但以上模型都是针对单敏感属性数据表的隐私保护方法,随着数据表的复杂化,在以上三种经典模型的基础上,衍变出很多针对多敏感属性数据的隐私保护模型,(l,α,m)多样性模型在多敏感属性个性化分级基础上进行研究。MSA l-maximum(Multiple Sensitive Attributes l-maximum)算法根据属性间的依赖度对属性进行划分,以保护属性间的相关性。以上两种方法需要泛化所有非敏感属性,导致数据的可用性降低,当数据量大时,算法的效率较低。MICPCA(Maximal InformationCoefficient based Principal Components Analysis based Privacy-preserving datapublishing)算法考虑多敏感属性间的相关性,通过降维的方式减少加入的噪声,最终满足差分隐私要求,该方法仍然要向数据表中添加假数据,会降低数据的真实性。p-Sensitivek-Anonymity的微聚集算法,主要是通过调整k的大小来实现多敏感属性多样性,如果要增加一个类的多样性,则需要增加所有类的大小,所以会导致信息损失的增加。UDAC(Utility-Driven Ant-based Clustering)算法基于蚁群聚类技术,在匿名化过程中保持了一些关联项的一致性,但仍然会泛化一些不必要的项,降低数据的可用性。
综上所述,目前的研究工作主要存在以下问题:
针对具有相关性的多敏感属性数据表,现有的隐私保护模型在实现对多敏感属性数据保护的同时,无法兼顾属性间的相关性及数据的可用性,并且最终发布的数据表无法抵御所有攻击模型,现有方法不能更好地平衡数据的可用性和隐私保护的鲁棒性。
发明内容
本发明的目的是为了解决现现有技术存在的缺点,本方法通过降低匿名率,关联属性共同置换,在保证隐私保护强度的同时,提高数据的可用性。
本发明通过以下技术方案实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910933708.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置