[发明专利]一种关联大数据的隐私保护方法及系统在审
申请号: | 201810615122.X | 申请日: | 2018-06-14 |
公开(公告)号: | CN108959958A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 朱诗兵;吕登龙;李长青;刘冉 | 申请(专利权)人: | 中国人民解放军战略支援部队航天工程大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎 |
地址: | 101416*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐私保护 独立数据块 大数据 查询函数 模型构建模块 记录 敏感度 构建 隐私保护模块 划分模块 机器学习 聚类算法 线性回归 隐私 关联 | ||
本发明公开了一种大数据的隐私保护方法,包括:通过机器学习构建k‑means聚类算法的k相关记录差分隐私保护模型;通过隐私机制和查询函数构建线性回归r‑相关块差分隐私保护模型;根据r‑相关块差分隐私保护模型将大数据划分为独立数据块;根据查询函数计算独立数据块的敏感度,根据k‑相关记录差分隐私保护模型对独立数据块进行差分隐私保护。本发明还公开了一种大数据隐私保护方法的系统,包括:k相关记录差分隐私保护模型构建模块;r‑相关块差分隐私保护模型构建模块;独立数据块划分模块;独立数据块差分隐私保护模块,用于根据查询函数计算独立数据块的敏感度,根据k‑相关记录差分隐私保护模型对独立数据块进行差分隐私保护。
技术领域
本发明涉及大数据技术领域,特别是指一种关联大数据的隐私保护方法及系统。
背景技术
大数据是信息技术发展的又一里程碑,被称为科学研究的“第四范式”,具备科学的理论基础和先进的技术手段,从提出之日起就引领时代发展。经过几年的快速发展,大数据被广泛应用在科技、金融、交通、教育、医疗卫生等各个领域,为推动经济发展和服务人类社会发挥了巨大作用创造了巨大价值。
随着大数据技术的发展和广泛应用,数据采集和数据挖掘已成为普遍现象,一方面,通过挖掘隐藏在数据背后的潜在价值有利于促进社会发展,另一方面,过度的数据挖掘和缺乏有效的数据保护,也导致了数据拥有者大量隐私或敏感数据泄露的问题。如何在不影响大数据分析研究、共享使用的前提下,使得数据和隐私安全能够得到有效保护,成为目前亟待研究和解决的热点问题。
差分隐私保护具有完备的数学理论基础,能够提供强健的隐私保护,被认为是目前最先进的隐私保护技术。但是在实际应用中,特别是在大数据应用场景中,大量数据之间往往存在着较强的耦合性或相关性,称这些数据为相关数据。现有的差分隐私保护方法在数据集上会使攻击者得到更多的背景知识,增加了隐私泄露的风险。因此,如何利用差分隐私方法解决相关数据的隐私保护问题,对研究和解决关联大数据隐私安全问题具有重要的现实意义。
发明内容
有鉴于此,本发明的目的在于提出一种关联大数据的隐私保护方法及系统,以更好地保护大数据的隐私安全。
基于上述目的本发明提供的一种关联大数据的隐私保护方法,包括:
通过机器学习和最大信息系数构建关联大数据的因果关系模型;
通过k-相邻数据集构建k-相关记录差分隐私保护模型;
提供相关敏感度概念,通过所述因果关系模型计算所述k-相邻数据集的相关敏感度,再利用means-Laplace机制实现k-相关记录差分隐私保护;
利用最大信息系数-K-Means算法将所述关联大数据进行r-块划分,得到多个相互独立的数据子块;
根据查询函数计算所述数据子块的相关敏感度,对每个数据子块进行所述k-相关记录差分隐私保护;
根据差分隐私组合性质,对所述关联大数据集进行r-相关块差分隐私的保护。
在其中一个实施例中,所述k-相关记录差分隐私保护模型包括:
其中,D1为大数据集,D2为大数据集D1中k条记录发生改变所生成,1≤k≤l,l为大数据集D1中的记录条数,为隐私机制,f为查询函数,Pr为概率分布,为实数集,∈为隐私预算。
在其中一个实施例中,所述隐私机制满足f为查询函数,e为随机噪声,‖·‖1为1范数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队航天工程大学,未经中国人民解放军战略支援部队航天工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810615122.X/2.html,转载请声明来源钻瓜专利网。