[发明专利]一种Spark框架下的基于差分隐私保护的数据发布方法在审
申请号: | 201710984658.4 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107766740A | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 颜飞;张兴;李畅;史伟;李万杰;李帅 | 申请(专利权)人: | 辽宁工业大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F17/30;G06K9/62 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙)11369 | 代理人: | 周明飞 |
地址: | 121001 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种Spark框架下的基于差分隐私保护的数据发布方法,包括步骤1将原始数据集导入Hadoop分布式文件系统,从Hadoop分布式文件系统读取到Spark框架形成弹性分布式数据集并分类统计;步骤2对k‑means聚类算法进行二范数关联优化,然后利用优化后的k‑means聚类算法对分类统计形成的待发布数据集进行聚类分组;步骤3对每个分组求均值步骤4在各分组的均值上添加Laplace噪声得到数据集;步骤5对差分隐私保护后的发布数据进行直方图发布。本发明所述的一种Spark框架下的基于差分隐私保护的数据发布方法,能够提高判断离群点和差值集的计算效率,并有效控制直方图数据发布方法中离群点对发布数据的敏感度的影响。 | ||
搜索关键词: | 一种 spark 框架 基于 隐私 保护 数据 发布 方法 | ||
【主权项】:
一种Spark框架下的基于差分隐私保护的数据发布方法,其特征在于,包括如下步骤:步骤1:将原始数据集导入Hadoop分布式文件系统,从Hadoop分布式文件系统读取数据到Spark框架形成弹性分布式数据集并分类统计;步骤2:对k‑means聚类算法进行二范数关联优化,然后利用优化后的k‑means聚类算法对分类统计形成的发布数据集进行聚类分组C={C1,C2,…,Ck};步骤3:对每个分组求均值:Ck_avg=Σi=1nxi/n]]>其中,Ck_avg为每个分组均值,xi为每个分组中的样本,n为每个分组的样本量;步骤4:在各分组的均值Ck_avg上添加Laplace噪声得到数据集Ds={C1',C2',…,Ck'},所述各组分均值添加Laplace噪声为Ck'_avg:Ck′_avg=Ck_avg+Lapdk(1/ϵ)]]>其中,ε为隐私预算,d为查询维数;步骤5:对差分隐私保护后的发布数据Ds进行直方图发布。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工业大学,未经辽宁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710984658.4/,转载请声明来源钻瓜专利网。