[发明专利]一种新的k匿名实现方法及系统有效

专利信息
申请号: 201811377534.0 申请日: 2018-11-19
公开(公告)号: CN109522750B 公开(公告)日: 2023-05-02
发明(设计)人: 宋法根;陈荣;王如刚;周峰;绍洪成;刘颖 申请(专利权)人: 盐城工学院
主分类号: G06F21/62 分类号: G06F21/62
代理公司: 南京业腾知识产权代理事务所(特殊普通合伙) 32321 代理人: 李静
地址: 224003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 匿名 实现 方法 系统
【权利要求书】:

1.一种新的k匿名实现方法,其特征在于,所述新的k匿名实现方法包括:

在数值属性上添加噪声:把整个数据集划分成几个等价匿名类,每个匿名等价类中数据个数大于k,且每个等价类中的数据尽可能的相似;

求得等价匿名类数值属性的极差R,产生期望为零极差为R的均匀分布的随机噪声;

把噪声添加到匿名类的每个元素上,实现k匿名;

在非数值属性上通过随机化实现k匿名:通过泛化实现k匿名;对泛化后的结果进行随机化;

在数值属性上添加噪声的方法,具体包括:

输入:待匿名化的数据集D及实现k匿名的参数k;

输出:对数据集D实现k-匿名的数据集D’;

(1)D被划分成c个匿名类,gi表示第i个匿名等价类,表示gi中第k条记录,gi中记录尽可能相似,|gi|表示gi中记录的个数,且|gi|≥k;

(2)for i=1 to c;

(3)

(4)for j=1 to|gi|;

(5)在区间内生成服从均匀分布的一个随机数n;

(6)表示第i个子类中第j条记录;

(7)

(8)

(9)把添加到数据D';

(10)endfor;

(11)endfor

(12)return D';

在非数值属性上通过随机化实现k匿名的方法包括:

输入:待匿名化的数据集D及实现k匿名的参数k;

输出:对数据集D实现k-匿名的数据集D’;

(1)D被划分成c个匿名类,gi表示第i个匿名等价类,表示gi中第k条记录,gi中记录尽可能相似,|gi|表示gi中记录的个数,且|gi|≥k;

(2)对于数据集gi中每条记录泛化成是gi中所有元素的共同祖先,对于gi中每条记录用以相同的概率替代,其中表示以

(3)把添加到数据D';

(4)endfor;

(5)endfor;

(6)return D';

在数值属性上添加噪声与在非数值属性上通过随机化实现k匿名中,均把原始数据集划分成几个小的数据集,划分后使得子数据集中数据尽可能的相似,采用距离作为两个元素相似性度量标准;在数值属性上添加噪声中采用欧氏距离,在非数值属性上通过随机化实现k匿名中采用泛化距离;

在数值属性上添加噪声与在非数值属性上通过随机化实现k匿名中,均采用聚类的方法划分等价匿名类;包括:

第一步、把原始数据集划分成几个不同子集,使得子集中的元素尽可能的相似;

第二步、在不同的子集上寻找等价匿名类,进行层次距离划分,形成满足要求的等价匿名类;

对原始数据集进行划分采用最小类内距离的方法;

包括:随机确定c个初始聚类中心,c值的确定通过实验得出合理值;根据其他元素与聚类中心的距离把其他元素划分到不同子类中;然后更新聚类中心,循环此过程直到聚类中心不变化或达到训次数;输出聚类结果;

第二步,形成满足要求的等价匿名类中,采用自底向上归并的办法,产生包含元素个数大于k小于2k的簇;具体包括:

输入T为聚类的方法中产生的子类,T'表示满足要求的匿名类集;

相同标识符的元素形成等价类,对各等价类进行归并,得到满足要求的匿名等价类;

判断若标识符相等的等价类若包含元素个数大于k,则已满足匿名化要求,直接放入T'中;

处理标识符相等的等价类中元素个数少于k时的情况,在T中随机选择Ei,计算Ei与T和T'中包含的其他子集的距离,寻找与Ei距离最近的子集Ej,因|Ei|<k,若|Ej|+|Ei|<k,表明,Ej在T中,Ei与Ej合并后仍不能满足k匿名的要求,Ei与Ej合并后放入T中,若k<|Ej|+|Ei|<2*k,Ei与Ej合并后满足k匿名的要求;Ej在T中或在T'中,故Ei与Ej从T或T'中移除,合并后放入T',若|Ej|+|Ei|>2*k,表明Ej在T'中,且从Ej中移除(k-|Ei|)个元素,后Ej中仍有多于k元素,从Ej中移出(k-|Ei|)个元素合并到Ei中,并把新的Ei与Ej放入T'中;最终输出T',T'中包含的所有集合均满足k匿名的要求;

所述新的k匿名实现方法具体包括:

输入:输入原始D及k匿名中k的值;

输出:匿名化后的数据集D′;

(1)运行算法3,把原始数据D划分成较小的数据集D={D1,D2,…Dc};

(2)For all Di∈{D1,D2,…Dc};

(3)E′=Φ,在数据集Di上运行算法4,得到E={E1,E2,…Em}且k≤|Em|<2k;

(4)For all Ej∈{E1,E2,…Em};

(5)在数据集Ej上运行算法1或者算法2得到E′j

(6)把Ej′加入到E′;

(7)Endfor;

(8)Di′=E′

(9)把Di′加入到D′;

(10)Endfor;

(11)返回D′。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城工学院,未经盐城工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811377534.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top