[发明专利]一种基于隐私信息检测的数据隐私性量化评估方法在审
申请号: | 201910391042.5 | 申请日: | 2019-05-11 |
公开(公告)号: | CN110175327A | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 韩伟力;贾昊阳;盛毅敏;阮雯强;王晓阳 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F21/60 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 量化评估 数据集 隐私 量化结果 隐私性 数据隐私性 可识别性 隐私泄露 隐私信息 检测 数据安全技术 基本信息 评估标准 数据集中 所属关系 文本距离 预先定义 展示数据 普适性 构建 直观 应用 | ||
本发明属于数据安全技术领域,具体为一种基于隐私信息检测的数据隐私性量化评估方法。本发明包括四个步骤:确定隐私实体所属关系、构造隐私实体集、实体集敏感性及可识别性计算、以及数据集隐私性量化评估。本发明利用数据集中检测到的隐私实体基本信息,通过实体之间的文本距离构建隐私实体集,并根据预先定义的隐私实体敏感性与可识别性分值,计算出整个数据集的隐私性量化结果。本发明的优点在于:方法具有良好的普适性,可应用于不同领域的数据集隐私性量化评估;本方法给出的量化结果可以直观展示数据集隐私泄露的严重程度,对于使用同一评估标准的两个不同数据集,可以通过直接比较其量化结果高低从而比较隐私泄露的严重性。
技术领域
本发明属于数据安全技术领域,具体为一种基于隐私信息检测的数据隐私性量化评估方法。
背景技术
数据共享在促进科研进步,提升商业服务质量的同时,也为隐私保护领域带来了挑战。由于被收集的数据大多来自于人们的日常生活,因此不可避免地会包含各种各样的隐私信息,例如人名、联系方式、账户信息等。数据在进行共享或使用之前,需要经过去隐私化的处理,以保证其中可能包含的个人信息不会泄露给大众,从而造成不必要的安全危害。然而数据在进行去隐私化之前,对原数据的存储和传输是不可避免的。当数据集中包含大量隐私信息时,以明文传输或是使用安全等级较低的存储方法,都容易造成隐私泄露。但相应的,高安全等级意味着高成本,无论是对复杂的算法或工具的依赖,还是对计算资源的需求。因此,数据集可以根据其隐私性程度进行安全等级的划分,从而合理分配不同的存储或传输方法。除此之外,数据集的隐私性量化是数据质量评估中必须要考虑的一个维度,当数据集中存在大量隐私数据时,其数据质量将会受到负面影响,因为这意味着主动泄露与传播个人信息,违反了相关法律规定。
目前并未有人提出数据集隐私性量化评估的一致方法,多数已有方法出现在固定的领域(如医疗、教育、商用)以及固定的泄露场景(内部泄露或外部窃取)中,且这些方法考虑的隐私数据类别,用于评估的参考维度以及使用的数学方法均不相同,这意味着在一种场景下适用的隐私量化评估方法并不适用于另一种场景。除此之外,多数研究在量化数据集的隐私性时,对数据集的格式进行了严格约束,例如格式化数据(数据表)或是文本数据(文档)。这导致对不同格式的数据集需要采用不同的评估方法,进一步造成这些数据集之间不能进行横向比较,衡量标准的不同也导致这些量化结果无法进行归一化,在一定程度上限制了量化结果的可应用范围。
发明内容
本发明的目的在于提出一种准确高、误报率低的可以适用于不同场景的数据集隐私性量化评估方法。
本发明提出的数据集隐私性量化评估方法,定义了隐私信息的具体类别,依据对数据集的隐私检测结果,采用简单的计算获取其隐私性量化值,这个值越高,表明数据集中泄漏的隐私越多,越需要去隐私化或进行保护。
本发明提出的数据集隐私性量化评估方法,除了可以直接应用外,其相应的计算方法也可以为其他领域下数据隐私评估方法提供参考,通过自定义修改隐私实体的类别以及相应的敏感性与可识别性,即可设计出针对不同领域的隐私量化评估方法。
与其他数据隐私量化方法不同的是,本发明方法支持不同场景下对常见个人信息泄露的评估,因为隐私实体类别以及评估标准的一致性,使得该方法可以对不同领域、不同格式的数据集进行隐私性的横向比较。
本发明提供的数据隐私性量化评估方法,是基于隐私信息检测的,具体分为四个步骤:
步骤一、确定隐私实体所属关系
对于已经检测完毕的数据集,确定每一个隐私实体属于哪一个实际个体;在单条数据中,个体以姓名作为唯一标识,依据隐私实体的类别、位置以及长度确定当前隐私实体所属的个体,每个隐私实体仅属于一个个体;
本发明中,隐私实体的具体类别包含如下12种:人名、生日、身份证号、护照号、住址、借记卡号、信用卡号、手机号码、固话号码、邮箱、车牌号以及IP地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910391042.5/2.html,转载请声明来源钻瓜专利网。