[发明专利]一种基于排序的微聚集匿名化方法有效
| 申请号: | 201711210204.8 | 申请日: | 2017-11-28 |
| 公开(公告)号: | CN108052832B | 公开(公告)日: | 2021-09-07 |
| 发明(设计)人: | 许国艳;宋健;李敏佳;平萍;张网娟;朱帅 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210098 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 排序 聚集 匿名 方法 | ||
本发明提供一种基于排序的微聚集匿名化方法,该方法包括以下步骤:(1)排序操作:基于Ql准标识符对数据集划分为多个类,使得k‑划分是所述数据集基于Ql准标识符的;(2)基于排序的划分操作:从排序操作后的数据集初始化的第一条和最后一条两个极端记录开始分别系统地形成等价类,等价类的记录数保持在k之内;(3)聚集操作:以所述两个极端记录的中心点作为每个等价类的质心点,以所述等价类的均值代替所有的敏感属性值形成匿名等价类。本发明首先是根据均值排序技术对k‑划分过程进行有效的改进,确保其信息损失率降到最低,提高算法的执行效率并且在引入排序的概念后可以处理多维数据集,其次能够提高略高的隐私保护。
技术领域
本发明涉及一种基于排序的微聚集匿名化方法,属于信息安全领域中的数据隐私保护方法。
背景技术
在目前信息化时代,数据的发布是有益于数据分析领域的,例如发布选举选票信息,人口普查信息,医疗健康信息等,通过此类信息的挖掘,可以判断选举信息的走势,人口增长的趋势以及国民的健康情况。但这些发布的数据或多或少地包含着某些敏感信息,譬如个人隐私等。为了避免数据隐私外泄的威胁,数据在发布之前应该先对其匿名化处理。
在目前匿名化领域中,最为广泛应用的匿名技术是k-匿名,其主要思想是使得每一条记录至少和其他的k-1条记录无法区分。一般的实现流程是通过属性泛化和局部抑制组合的方式来达到匿名效果,另一种匿名方法是微聚集技术,该方法特别适用于属性无明显泛化层次结构的数据。
微聚集算法将所有的记录划分为不同的类组,不同的类组中所属记录是相对同一的,而每个类组之间必须达到异构的特征,最终使得处理后数据集信息损失率很低。类似的数据集合方式也被称为聚集,所需的隐私级别是由一个安全参数k控制即聚类中记录的最小数目。在本质上,参数k指定最大可接受的风险披露等级,一旦k值被数据保护者所选定,那么剩下的工作就是最大限度地提高数据的可用性。
目前最具代表性的微聚集算法是MDAV算法,但是该算法在处理数据时主要的缺点体现在划分与聚集操作两方面,一是在距离计算上缺乏数据集本身多敏感属性特征的考虑,单一的敏感属性使得记录与记录之间距离的运算不具代表性,多维数据集的处理无法实现;二是在形成等价类过程中其类中心的选择机制缺乏系统性的选择规则,类中心的选取具有随机性和不稳定性。这方面的缺陷使得该算法无法应对多维数据集中敏感属性增多的情况,也不能保证其等价类之间相异度最大,所以最终其信息损失率也不能达到最小。
发明内容
发明目的:针对现有技术中多维数据集的处理无法实现和信息损失率略高的不足,本发明结合数据排序划分操作和微聚集技术,提出一种安全性较好且其信息损失率较低的基于排序的微聚集匿名化方法。
技术方案:本发明所述的基于排序的微聚集匿名化方法,该方法包括以下步骤:
(1)排序操作:基于Ql准标识符对数据集划分为多个类,使得k-划分是所述数据
集基于Ql准标识符的,k是匿名参数,依据数值型属性值对所述数据集排序。
(2)基于排序的划分操作:从排序操作后的数据集初始化的第一条和最后一条两个极端记录开始分别系统地形成等价类,等价类的记录数保持在k之内。
(3)聚集操作:以所述两个极端记录的中心点作为每个等价类的质心点,以所述等价类的均值代替所有的敏感属性值形成匿名等价类。
优选的,步骤(1)中,所述使得k-划分是所述数据集基于Ql准标识符的是指符合公式对且其中,ni是第i个类的记录数,k是匿名参数,g是指对所述数据集进行划分的类的个数,n是指所述数据集记录总数。
优选的,所述排序操作的具体步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711210204.8/2.html,转载请声明来源钻瓜专利网。





