[发明专利]一种Spark框架下的基于差分隐私保护的数据发布方法在审

申请号：	201710984658.4	申请日：	2017-10-20
公开（公告）号：	CN107766740A	公开（公告）日：	2018-03-06
发明（设计）人：	颜飞;张兴;李畅;史伟;李万杰;李帅	申请（专利权）人：	辽宁工业大学
主分类号：	G06F21/62	分类号：	G06F21/62;G06F17/30;G06K9/62
代理公司：	北京远大卓悦知识产权代理事务所(普通合伙)11369	代理人：	周明飞
地址：	121001 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种Spark框架下的基于差分隐私保护的数据发布方法，包括步骤1将原始数据集导入Hadoop分布式文件系统，从Hadoop分布式文件系统读取到Spark框架形成弹性分布式数据集并分类统计；步骤2对k‑means聚类算法进行二范数关联优化，然后利用优化后的k‑means聚类算法对分类统计形成的待发布数据集进行聚类分组；步骤3对每个分组求均值步骤4在各分组的均值上添加Laplace噪声得到数据集；步骤5对差分隐私保护后的发布数据进行直方图发布。本发明所述的一种Spark框架下的基于差分隐私保护的数据发布方法，能够提高判断离群点和差值集的计算效率，并有效控制直方图数据发布方法中离群点对发布数据的敏感度的影响。
搜索关键词：	一种 spark 框架基于隐私保护数据发布方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种Spark框架下的基于差分隐私保护的数据发布方法，其特征在于，包括如下步骤：步骤1：将原始数据集导入Hadoop分布式文件系统，从Hadoop分布式文件系统读取数据到Spark框架形成弹性分布式数据集并分类统计；步骤2：对k‑means聚类算法进行二范数关联优化，然后利用优化后的k‑means聚类算法对分类统计形成的发布数据集进行聚类分组C＝{C1,C2,…,Ck}；步骤3：对每个分组求均值：Ck_avg=Σi=1nxi/n]]>其中，Ck_avg为每个分组均值，xi为每个分组中的样本，n为每个分组的样本量；步骤4：在各分组的均值Ck_avg上添加Laplace噪声得到数据集Ds＝{C1',C2',…,Ck'}，所述各组分均值添加Laplace噪声为Ck'_avg：Ck′_avg=Ck_avg+Lapdk(1/ϵ)]]>其中，ε为隐私预算，d为查询维数；步骤5：对差分隐私保护后的发布数据Ds进行直方图发布。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于辽宁工业大学，未经辽宁工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710984658.4/，转载请声明来源钻瓜专利网。

上一篇：安全启动RAID卡方法、装置、设备及计算机可读存储介质
下一篇：数据脱敏系统和方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F21-00 防止未授权行为的保护计算机或计算机系统的安全装置
G06F21-02 .通过保护计算机的特定内部部件
G06F21-04 .通过保护特定的外围设备，如键盘或显示器
G06F21-06 .通过感知越权操作或外围侵扰
G06F21-20 .通过限制访问计算机系统或计算机网络中的节点
G06F21-22 .通过限制访问或处理程序或过程

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种Spark框架下的基于差分隐私保护的数据发布方法在审

专利文献下载