[发明专利]一种新的k匿名实现方法及系统有效
申请号: | 201811377534.0 | 申请日: | 2018-11-19 |
公开(公告)号: | CN109522750B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 宋法根;陈荣;王如刚;周峰;绍洪成;刘颖 | 申请(专利权)人: | 盐城工学院 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 南京业腾知识产权代理事务所(特殊普通合伙) 32321 | 代理人: | 李静 |
地址: | 224003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 匿名 实现 方法 系统 | ||
本发明属于数据处理技术领域,公开了一种新的k匿名实现方法及系统,在数值属性上添加噪声:把整个数据集划分成几个等价匿名类,每个匿名等价类中数据个数大于k,且每个等价类中的数据尽可能的相似;求得等价匿名类数值属性的极差R,产生期望为零极差为R的均匀分布的随机噪声;把噪声添加到匿名类的每个元素上,实现k匿名;在非数值属性上通过随机化实现k匿名:通过泛化实现k匿名;对泛化后的结果进行随机化。本发明克服了传统k匿名方法中会出现几个相同的准标示符的缺点,故而具有更好的安全性。
技术领域
本发明属于数据处理技术领域,尤其涉及一种新的k匿名实现方法及系统。
背景技术
目前,业内常用的现有技术是这样的:
实现传统k匿名的方法主要有两类,聚类和泛化。
聚类即把元数据集中的元素,至少k个最接近的元素归为一类,用聚类中心元素的准标识符代替该类中其他元素的标识符,这种方法更适用于数值数据的处理,而对于文本数据效果相对较差。
泛化是通过具体准标示符的值扩展成一个更大的取值范围,使得其不能再唯一表示数据集中唯一元组的方法,如性别信息可以有男、女,可以泛化成性别未知,婚姻状态可以泛化成已婚、未婚和未知,对于数值数据,具体数值可以泛化为数值的取值范围,该方法主要适合于有层次结构的数据,对数值数据的效果往往不太好。
无论是聚类还是泛化,均能使得数据集中至少有k条记录的准标示符变为同一值,从而使得这些记录不可区分,进而保护用户的隐私。正是由于k条记录共享同一准标示符,使得用户隐私得以保护,但是也正是由于k条记录公用统一标识符导致了隐私泄露风险的存在。
这里,使得k个数据项不可区分是最终目的,而要使得准标识符相同只是其实现k个数据项不可区分的手段,换句话说,只要实现k个数据项不可区分,在数据集中所有数据项的准标识符可以不相同。基于此本发明给出随机化k匿名的定义。
综上所述,现有技术存在的问题是:
(1)传统k匿名方法中会出现几个相同的准标示符的缺点,造成安全性差;
(2)不能抵抗穷举攻击;无论是聚类还是泛化,均能使得数据集中至少有k条记录的准标示符变为同一值,从而使得这些记录不可区分,进而保护用户的隐私。正是由于k条记录共享同一准标示符,使得用户隐私得以保护,但是也正是由于k条记录公用统一标识符导致了隐私泄露风险的存在,目前的k匿名方法,即使达到了t接近个要求,也不能抵抗穷举攻击。
(3)实现k匿名的代价较高;寻找匿名等价类一直只k匿名过程中比较费时的一个过程,计算量较大,费时,同时如果方法不当会形成不合理的匿名类,从而使得匿名化后的数据实用性大大降低。
(4)匿名化操作会丢失原始数据集的部分信息,使得匿名化后的数据集可用性比较低。
解决上述技术问题的难度和意义:
寻找一种高效的隐私保护方法是当前信息化建设的前提条件,没有高效可靠的隐私保护方法,数据拥有者就不可能共享拥有的数据,数据得不到共享,数据资源就不能发挥其价值,故而寻找一种高效的能够很好保护隐私的方法,具有巨大的理论意义和现实意义。
一个好的隐私保护方法,需要解决以下三个问题,一是效率问题,第二是保护强度的问题,第三是保证数据可用性的问题,本发明提出了一种高效率、提供高强度的隐私保护、同时又最大可能的保证数据可用性的方法。
发明内容
针对现有技术存在的问题,本发明提供了一种新的k匿名实现方法及系统。
本发明是这样实现的,一种新的k匿名实现方法,所述新的k匿名实现方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城工学院,未经盐城工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811377534.0/2.html,转载请声明来源钻瓜专利网。