[发明专利]一种数据可视化中的差分隐私保护方法及其评价指标有效

申请号：	201710618400.2	申请日：	2017-07-26
公开（公告）号：	CN107392048B	公开（公告）日：	2018-04-20
发明（设计）人：	张顺;还超;石润华;吴金涛;汪改	申请（专利权）人：	安徽大学
主分类号：	G06F21/62	分类号：	G06F21/62;G06K9/62
代理公司：	安徽省合肥新安专利代理有限责任公司34101	代理人：	陆丽莉,何梅生
地址：	230601 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种数据可视化中的差分隐私保护方法及其评价指标，包括1、将获取的分类属性数据集执行并行运算下满足差分隐私保护的数据聚合处理；2、选定一个聚合后的子集，进行可视化处理；3、通过3种评价指标精确量化由满足差分隐私保护的数据聚合后的可视化质量。本发明能有效解决海量的带有敏感信息的分类属性数据集在可视化过程中会出现数据展示重叠严重，敏感数据隐私泄露的问题；并显著减少数据聚合的时间，提高可视化的时效性。
搜索关键词：	一种数据可视化中的隐私保护方法及其评价指标
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种数据可视化中的差分隐私保护方法，是应用于云计算平台中，其特征是按如下步骤进行：步骤1、预处理：步骤1.1、获取分类属性数据集H{x1,x2,…,xi,…,xn}，其中，xi表示第i个数据，且第i个数据xi包含d个属性，i∈[1,n]；步骤1.2、将所述分类属性数据集H{x1,x2,…,xi,…,xn}均分为k个子集H{h0,h1,…,hj,…hk‑1}，其中，hj表示第j个子集，并有：hj,a表示第j个子集中第a个数据；a∈[1,Aj]，其中，Aj表示第j个子集hj中所包含的数据个数，且Aj≤ceil(n/k)，ceil(·)为向上取整函数，j∈[0,k‑1]；步骤1.3、将第j个子集hj的第a个数据中的d个属性用一行文本的形式进行存储，从而完成k个子集中n个数据的存储，形成n行文本；步骤1.4、根据所述云计算平台的计算能力，利用分片策略FileInputFormat函数将所述n行文本划分为M个数据片，用于并行计算M个Map任务和k个Reduce任务；步骤2、统计所述第j个子集hj中第b个属性的属性值为c的总数，记为从而获得k个子集H{h0,h1,…,hj,…hk‑1}中所有属性的属性值的总数；步骤3、获得聚类中心点：步骤3.1、对所述第j个子集hj中第b个属性的属性值为c的总数和第j个子集hj中所包含的数据个数Aj分别添加拉普拉斯噪声函数Lap((d+1)N/ε)，得到添加噪声后的总数和数据个数A′j；N为满足差分隐私保护的数据聚合过程中所设定的最大迭代次数；ε为隐私预算参数；步骤3.2、利用式(1)得到第j个子集hj中第b个属性的属性值为c的频率从而得到第j个子集hj中所有属性的属性值的频率：pa,bj=suma,b′jAj′---(1)]]>步骤3.3、从所述第j个子集hj中第b个属性的所有属性值的频率中选取最大值作为所述第j个子集hj中第b个属性的聚类中心点，记为uj,b，从而得到第j个子集hj中所有属性的聚类中心点uj＝{uj,1,uj,2,…,uj,b，…,uj,d}，b∈[1,d]，进而得到k个子集的聚类中心点u＝{u0,u1,…,uj，…,uk‑1}；步骤4、并行运算满足差分隐私保护的数据聚合处理：步骤4.1、定义当前迭代次数为w，并初始化w＝1；步骤4.2、判断w＝1是否成立，若成立，则执行步骤4.3；否则，直接执行步骤4.4；步骤4.3、以所述k个子集的聚类中心点u＝{u0,u1,…,uj，…,uk‑1}作为初始第w‑1次迭代的聚类中心点uw‑1；步骤4.4、将第j个子集hj的聚类中心点uj分别与第j个子集中的所有数据组成第w‑1次迭代的键值对，记为表示第w‑1次迭代中第j个子集中第a个数据属于聚类中心点uj；步骤4.5、并行运算M个Map任务：步骤4.5.1、利用匹配方法计算第w次迭代中第j个子集中第a个数据hj,a分别与第w‑1次迭代的k个子集的聚类中心点uw‑1的相异度，并得到相异度最小的聚类中心umin所对应的子集；步骤4.5.2、判断所述相异度最小的聚类中心umin所对应的子集中所包含的数据个数是否超过ceil(n/k)，若超过，则表示相应子集已满，并执行步骤5.2.3；否则，将所述第j个子集中第a个数据hj,a分配到相异度最小的聚类中心umin所在的子集中，从而得到第w次更新的键值对(umin,hj,a)w，min∈[0,k‑1]；步骤4.5.3、寻找所述相异度次小的聚类中心所对应的子集，并按照步骤4.5.2进行判断，直到找到一个未满的子集，并将所述第j个子集中第a个数据hj,a分配到未满的子集中为止；从而得到第w次更新的键值对(umin,hj,a)w；步骤4.5.4、重复步骤4.5.1‑步骤4.5.3，从而将k个子集中的所有数据都进行第w次更新，并得到第w次更新后的n个键值对；步骤4.5.5、判断第w次更新后的n个键值对与第w‑1次迭代的n个键值进行比较，若两者完全相同，则表示完成满足差分隐私保护的数据聚合，并得到每个聚类中心所对应的数据并作为聚类结果执行步骤5；若不相同，则执行步骤4.5.6；步骤4.5.6、判断w＝N是否成立，若成立，则表示完成满足差分隐私保护的数据聚合，并得到每个聚类中心所对应的数据并作为聚类结果执行步骤5；否则，执行步骤4.6；步骤4.6、并行运算k个Reduce任务：步骤4.6.1、将第w次更新后的具有相同聚类中心的所有数据划分为一个新的子集，并将新的k个子集按照步骤3进行处理，得到k个子集的第w+1次聚类中心点uw+1；步骤4.6.2、将w+1赋值给w，并按照步骤4.2执行；步骤5、使用平行坐标法对所述聚类结果中的任意一个子集进行可视化处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽大学，未经安徽大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710618400.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种数据可视化中的差分隐私保护方法及其评价指标有效

专利文献下载