[发明专利]一种数据可视化中的差分隐私保护方法及其评价指标有效
申请号: | 201710618400.2 | 申请日: | 2017-07-26 |
公开(公告)号: | CN107392048B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 张顺;还超;石润华;吴金涛;汪改 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 安徽省合肥新安专利代理有限责任公司34101 | 代理人: | 陆丽莉,何梅生 |
地址: | 230601 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 可视化 中的 隐私 保护 方法 及其 评价 指标 | ||
1.一种数据可视化中的差分隐私保护方法,是应用于云计算平台中,其特征是按如下步骤进行:
步骤1、预处理:
步骤1.1、获取分类属性数据集H{x1,x2,…,xi,…,xn},其中,xi表示第i个数据,且第i个数据xi包含d个属性,i∈[1,n];
步骤1.2、将所述分类属性数据集H{x1,x2,…,xi,…,xn}均分为k个子集H{h0,h1,…,hj,…hk-1},其中,hj表示第j个子集,并有:hj,a表示第j个子集中第a个数据;a∈[1,Aj],其中,Aj表示第j个子集hj中所包含的数据个数,且Aj≤ceil(n/k),ceil(·)为向上取整函数,j∈[0,k-1];
步骤1.3、将第j个子集hj的第a个数据中的d个属性用一行文本的形式进行存储,从而完成k个子集中n个数据的存储,形成n行文本;
步骤1.4、根据所述云计算平台的计算能力,利用分片策略FileInputFormat函数将所述n行文本划分为M个数据片,用于并行计算M个Map任务和k个Reduce任务;
步骤2、统计所述第j个子集hj中第b个属性的属性值为c的总数,记为从而获得k个子集H{h0,h1,…,hj,…hk-1}中所有属性的属性值的总数;
步骤3、获得聚类中心点:
步骤3.1、对所述第j个子集hj中第b个属性的属性值为c的总数和第j个子集hj中所包含的数据个数Aj分别添加拉普拉斯噪声函数Lap((d+1)N/ε),得到添加噪声后的总数和数据个数A′j;N为满足差分隐私保护的数据聚合过程中所设定的最大迭代次数;ε为隐私预算参数;
步骤3.2、利用式(1)得到第j个子集hj中第b个属性的属性值为c的频率从而得到第j个子集hj中所有属性的属性值的频率:
步骤3.3、从所述第j个子集hj中第b个属性的所有属性值的频率中选取最大值作为所述第j个子集hj中第b个属性的聚类中心点,记为uj,b,从而得到第j个子集hj中所有属性的聚类中心点uj={uj,1,uj,2,…,uj,b,…,uj,d},b∈[1,d],进而得到k个子集的聚类中心点u={u0,u1,…,uj,…,uk-1};
步骤4、并行运算满足差分隐私保护的数据聚合处理:
步骤4.1、定义当前迭代次数为w,并初始化w=1;
步骤4.2、判断w=1是否成立,若成立,则执行步骤4.3;否则,直接执行步骤4.4;
步骤4.3、以所述k个子集的聚类中心点u={u0,u1,…,uj,…,uk-1}作为初始第w-1次迭代的聚类中心点uw-1;
步骤4.4、将第j个子集hj的聚类中心点uj分别与第j个子集中的所有数据组成第w-1次迭代的键值对,记为表示第w-1次迭代中第j个子集中第a个数据属于聚类中心点uj;
步骤4.5、并行运算M个Map任务:
步骤4.5.1、利用匹配方法计算第w次迭代中第j个子集中第a个数据hj,a分别与第w-1次迭代的k个子集的聚类中心点uw-1的相异度,并得到相异度最小的聚类中心umin所对应的子集;
步骤4.5.2、判断所述相异度最小的聚类中心umin所对应的子集中所包含的数据个数是否超过ceil(n/k),若超过,则表示相应子集已满,并执行步骤5.2.3;否则,将所述第j个子集中第a个数据hj,a分配到相异度最小的聚类中心umin所在的子集中,从而得到第w次更新的键值对(umin,hj,a)w,min∈[0,k-1];
步骤4.5.3、寻找所述相异度次小的聚类中心所对应的子集,并按照步骤4.5.2进行判断,直到找到一个未满的子集,并将所述第j个子集中第a个数据hj,a分配到未满的子集中为止;从而得到第w次更新的键值对(umin,hj,a)w;
步骤4.5.4、重复步骤4.5.1-步骤4.5.3,从而将k个子集中的所有数据都进行第w次更新,并得到第w次更新后的n个键值对;
步骤4.5.5、判断第w次更新后的n个键值对与第w-1次迭代的n个键值进行比较,若两者完全相同,则表示完成满足差分隐私保护的数据聚合,并得到每个聚类中心所对应的数据并作为聚类结果执行步骤5;若不相同,则执行步骤4.5.6;
步骤4.5.6、判断w=N是否成立,若成立,则表示完成满足差分隐私保护的数据聚合,并得到每个聚类中心所对应的数据并作为聚类结果执行步骤5;否则,执行步骤4.6;
步骤4.6、并行运算k个Reduce任务:
步骤4.6.1、将第w次更新后的具有相同聚类中心的所有数据划分为一个新的子集,并将新的k个子集按照步骤3进行处理,得到k个子集的第w+1次聚类中心点uw+1;
步骤4.6.2、将w+1赋值给w,并按照步骤4.2执行;
步骤5、使用平行坐标法对所述聚类结果中的任意一个子集进行可视化处理。
2.一种权利要求1所述的数据可视化中的差分隐私保护方法的评价指标系统,其特征是,所述评价指标系统包括:数据抽象级别DAL,数据重合比例DCR,数据重合差异程度DCD;
所述数据抽象级别DAL通过式(2)获得:
式(2)中,Na表示所述聚类结果中的任意一个子集所包含的数据个数;No表示所述分类属性数据集H所包含的数据个数;DAL∈[0,1];
所述数据重合比例DCR通过式(3)获得:
式(3)中,Lab表示所述聚类结果中任意一个子集的第b个属性的最高频率所对应的属性值,Lob表示所述分类属性数据集H中第b个属性的最高频率所对应的属性值;若Lab=Lob,则令[Lab∈Lob]=1;否则,[Lab∈Lob]=0;DCR∈[0,1];
所述数据重合差异程度DCD通过式(4)获得:
式(4)中,Pab表示所述聚类结果中任意一个子集的第b个属性的最高频率所对应的属性值所占的比例,Pob表示所述分类属性数据集H中第b个属性的最高频率所对应的属性值所占的比例;若Lab=Lob,则计算|Pab-Pob|;否则,令|Pab-Pob|=1;DCD∈[0,1]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710618400.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:健康数据的获取方法和装置
- 下一篇:一种基于差分隐私保护的推荐方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置