[发明专利]一种数据可视化中的差分隐私保护方法及其评价指标有效
申请号: | 201710618400.2 | 申请日: | 2017-07-26 |
公开(公告)号: | CN107392048B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 张顺;还超;石润华;吴金涛;汪改 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
代理公司: | 安徽省合肥新安专利代理有限责任公司34101 | 代理人: | 陆丽莉,何梅生 |
地址: | 230601 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 可视化 中的 隐私 保护 方法 及其 评价 指标 | ||
技术领域
本发明公开了一种应用于云计算平台中,使分类属性数据可视化的过程中满足差分隐私保护的方法。
背景技术
随着数据的日益增长,数据可视化是一种有效手段用于信息获取,从维度丰富,数量巨大,更新迅速,类型繁多的大数据中挖掘出有用的信息。分类属性数据集是一种常见的数据集,由于大数据时代的海量数据特点,分类属性数据集可视化过程中数据展示重叠严重,图像质量差,辨识度低的问题。
已有的一些针对分类属性数据集可视化方案。这些方案中主要体现在:
1.数据聚合是众多数据可视化方法的基础性工作,针对分类属性数据集,提出了k-modes聚类算法,再从聚合后的子集中选择一个子集进行可视化,由于子集的数据数目减少,解决了数据展示重叠严重的问题。但是随着大数据时代的海量数据特点,单个计算机难以在可接受的时间内对数据进行有效的聚类分析。
2.为了减少可视化过程中数据聚合的时间,提高了数据聚合效率,从而提高可视化的时效性,提出了HABOS聚类算法,再从聚合后的子集中选择一个子集进行可视化。但是数据聚合分析的结果在提供有价值信息的同时,可能会泄露数据集中单个数据的信息,对敏感数据隐私安全造成威胁。
但是以上2种方案都是针对分类属性数据集,在可视化过程中利用有效的数据聚合,再将选定一个子集进行可视化,从而解决海量分类属性数据集可视化的图像重叠严重的问题。但是,没有考虑到分类属性数据集在聚合过程中可能会泄露数据集中单个数据的信息,对敏感数据隐私安全造成威胁。此外,针对分类属性数据集可视化方案,也没有标准的质量评价指标精确量化由数据聚合后的可视化质量。
发明目的
本发明为了解决上述现有技术存在的不足之处,提供一种数据可视化中的差分隐私保护方法及其评价指标,以期能有效的解决分类属性数据集在数据可视化过程中会泄露数据集中单个数据的信息的问题,并提供3种评价指标精确量化由满足差分隐私保护的数据聚合后的可视化质量,从而能使分类属性数据集在可视化过程中满足ε-差分隐私保护的同时,保证较好的数据可视化质量。
本发明为解决技术问题所采用的技术方案是:
本发明一种数据可视化中的差分隐私保护方法,是应用于云计算平台中,其特点是按如下步骤进行:
步骤1、预处理:
步骤1.1、获取分类属性数据集H{x1,x2,…,xi,…,xn},其中,xi表示第i个数据,且第i个数据xi包含d个属性,i∈[1,n];
步骤1.2、将所述分类属性数据集H{x1,x2,…,xi,…,xn}均分为k个子集H{h0,h1,…,hj,…hk-1},其中,hj表示第j个子集,并有:hj,a表示第j个子集中第a个数据;a∈[1,Aj],其中,Aj表示第j个子集hj中所包含的数据个数,且Aj≤ceil(n/k),ceil(·)为向上取整函数,j∈[0,k-1];
步骤1.3、将第j个子集hj的第a个数据中的d个属性用一行文本的形式进行存储,从而完成k个子集中n个数据的存储,形成n行文本;
步骤1.4、根据所述云计算平台的计算能力,利用分片策略FileInputFormat函数将所述n行文本划分为M个数据片,用于并行计算M个Map任务和k个Reduce任务;
步骤2、统计所述第j个子集hj中第b个属性的属性值为c的总数,记为从而获得k个子集H{h0,h1,…,hj,…hk-1}中所有属性的属性值的总数;
步骤3、获得聚类中心点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710618400.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:健康数据的获取方法和装置
- 下一篇:一种基于差分隐私保护的推荐方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置