[发明专利]一种对结构化数据和半结构化数据结合的隐私保护方法在审
申请号: | 201811642732.5 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109670341A | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 杜依宁 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构化数据 隐私保护 原始数据 结构化 算法 原始数据分类 原始数据集 数据挖掘 可用性 转化 隐私 数据库 分类 | ||
本发明公开了一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;S2:将半结构化数据转化成结构化数据;S3:将S2中转化后的结构化数据使用差分隐私保护算法;S4:公布修改之后满足差分隐私保护算法的结构化数据。本发明实现了对结构化和半结构化相结合的数据的ζ‑差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。
技术领域
本发明属于信息安全领域,更具体地,涉及一种对结构化数据和半结构化数据结合的隐私保护方法。
背景技术
随着电子科技的不断发展,大量的数据以电子的形式存储,网络技术也在不断的进步。近几年,数据挖掘技术逐渐成为热门,在挖掘中,个人的隐私数据更容易泄露。隐私的保护成为了制约数据挖掘更进一步发展的瓶颈之一。
随着时代的发展,结构化的数据已经渐渐不能满足日益增长的数据规模,大量的非结构化数据和半结构数据出现在人们的视野中,非结构化的数据主要包括,图片,声音,视频等,而半结构化数据介于结构化数据和半结构化数据之间存在一定的结构,存在一定的结构,但是结构并不是固定的,相比结构化数据更灵活,相比非结构化数据更容易进行数据的处理。
目前流行的隐私保护算法主要包括k-匿名算法(将需要发布的数据的标识符隐去,对准标识符概化)和差分隐私保护算法(对将要发布的数据或者将要进行的查询添加干扰,达到保护隐私的目的)。
目前的隐私保护算法主要用于结构化数据,很少将隐私保护算法应用在两种数据格式相结合的情况下,出现了灵活性不足的问题。
发明内容
为解决现有的技术缺陷,本发明公开了一种新的对结构化数据和半结构化数据结合的隐私保护方法。本发明实现了对结构化和半结构化相结合的数据的ζ-差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。
为解决上述技术问题,本发明的技术方案如下:
一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:
S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;
S2:将半结构化数据转化成结构化数据;
S3:将S2中转化后的结构化数据使用差分隐私保护算法;
S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。
本发明中,首先需要对数据进行分类处理,需要将数据分类成结构化形式存储的数据和半结构化形式存储的数据。对于结构化存储的数据,可以直接使用保护算法进行保护,并对外公开,不会对其中用户的隐私信息造成危害。而对于半结构化形式存储的数据,因为在半结构化数据中,结构与数据相融,难以纳入现有的各种描述框架,整体上具有动态的结构模式,所以没有隐私保护算法能够直接作用在半结构化数据中,需要对半结构化数据进行转化。
在一种优选的方案中,所述的S3包括以下内容:
S3.1:泛化原始数据集D中的每一个数据,泛化是指用笼统的变量代替具体的变量,比如Engineer,Lawyer泛化成Professional,34泛化成(18-65);
S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;
S3.3:对原始数据集D的每一个数据更新对应的隐私预算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811642732.5/2.html,转载请声明来源钻瓜专利网。