[发明专利]基于抽样泛化路径的K‑Anonymity数据处理方法在审
申请号: | 201610411762.X | 申请日: | 2016-06-12 |
公开(公告)号: | CN106096445A | 公开(公告)日: | 2016-11-09 |
发明(设计)人: | 吴响;俞啸;袁洋;臧昊 | 申请(专利权)人: | 徐州医科大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 李小静 |
地址: | 221004 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于抽样泛化路径的K‑Anonymity数据处理方法,涉及数据处理技术领域。本发明提出了一种基于抽样路径的局域繁花算法——SPOLG算法,该算法基于泛化节点格寻找信息损失较小的泛化路径,为减少寻径时间,引入等概率抽样的思想,选用等概率抽样中的系统抽样方法进行取样,利用样本代替数据集在泛化格上寻找目标泛化路径,最后在该路径上对数据集进行泛化。此外,使用局域泛化技术能够降低信息损失量,提高发布数据集的可用性。实验结果证明,本方法匿名化的数据集信息损失度低,数据可用性高。 | ||
搜索关键词: | 基于 抽样 泛化 路径 anonymity 数据处理 方法 | ||
【主权项】:
一种基于抽样泛化路径的K‑Anonymity数据处理方法,其特征在于:通过算法SPOLG(T,QI,k,α)匿名化数据表,T表示待抽样数据集;α表示抽样率,QI为准标识符集,k为匿名隐私约束条件常数;具体步骤如下:1)利用函数sample(T,α)抽取样本,另T'=sample(T,α),T'表示抽样数据集,具体过程如下:11)将数据集中的N条元组进行编号;12)将编号按间隔
进行分段,其中L∈N;13)在第一段随机选取编号l,其中l∈N,l≤L;14)num=T×α,并对num取整;15)按照以下规则抽取样本T':l,l+L,l+2L,l+3L...,l+num×L;16)返回T';2)利用函数path(QI,T')寻找抽样泛化路径,另P=path(QI,T'),P表示所得抽样路径,具体过程如下:21)通过QI形成泛化格G;22)将泛化格G的第0层节点n0作为路径P的起点P0;23)通过泛化格找到n1直接泛化的节点,计算这些节点泛化T'所得到的信息损失量,选出泛化数据集T'信息损失量最小的节点n2作为路径P的第二个节点P1;24)重复步骤22)直至到达泛化格G的顶点ni作为路径的终点Pi得到路径P;25)返回路径P;3)T”=φ;T”存放泛化后的数据集;4)queue=φ,把路径P中第i个节点赋值给queue,进入以下循环:D=φ;D存放本步骤泛化的数据;基于queue对数据表T进行泛化;D={泛化后满足k‑匿名的元组};T”∪D;移除T中满足k‑匿名的元组;结束循环;5)返回数据表T”。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐州医科大学,未经徐州医科大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610411762.X/,转载请声明来源钻瓜专利网。