[发明专利]一种面向数据共享的敏感信息脱敏方法及系统有效

专利信息
申请号: 201710506066.1 申请日: 2017-06-28
公开(公告)号: CN107480549B 公开(公告)日: 2019-08-02
发明(设计)人: 张云云;王开红;于海龙;吴培文;陈涛 申请(专利权)人: 银江股份有限公司
主分类号: G06F21/62 分类号: G06F21/62;G06F16/35
代理公司: 杭州之江专利事务所(普通合伙) 33216 代理人: 张慧英
地址: 310012 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种面向数据共享的敏感信息脱敏方法及系统,本发明采用统计学、自然语言处理技术和机器学习技术,实现了从数据发布到数据申请使用这一整个过程敏感数据的保护,提出了基于构建敏感信息关键词库、命名实体类和地址类等敏感信息的自动识别;使用Sigmoid函数计算敏感属性关联度;采用构建敏感属性生成规则库和命名实体脱敏规则以及核心的脱敏算法的组成方式进行脱敏策略;分别结合数值型敏感属性和分类型属性脱敏深度计算,得到整体数据集的脱敏程度,并采取下载链接地址Hash的方法实现数据的受控输出等,能够保证数据敏感信息安全和最大化满足分析挖掘要求的敏感信息处理策略,具有脱敏效果好、可靠性强等特点。
搜索关键词: 一种 面向 数据 共享 敏感 信息 方法 系统
【主权项】:
1.一种面向数据共享的敏感信息脱敏方法,其特征在于,包括如下步骤:(1)预先设置敏感信息自动识别规则和敏感信息处理规则,其中所述敏感信息自动识别规则包括构造各类敏感信息关键词库、对敏感信息关键词库内敏感信息的自动识别、号码与数值类敏感信息的自动识别、命名实体类敏感信息的自动识别、地址类敏感信息的精确识别;所述敏感信息处理规则包括敏感属性生成规则、设置脱敏算法、命名实体脱敏处理、地址信息脱敏处理;数据使用者请求查看数据提供者发布的数据;(2)对数据进行预处理,预处理后进行文本数据分词和词性标注;(3)根据预先设置的敏感信息自动识别规则对敏感信息进行自动识别;(4)通过对敏感信息的敏感属性关联度计算分析,保留敏感属性关联度高于阈值的敏感信息;其中阈值为预设的;其中,所述的敏感属性关联度计算方法如下:(a)采用Sigmoid函数对分类型敏感属性的关联度进行标准化处理,如下定义:其中,该函数的值域区间为[0,1],且连续、光滑、单调递增;(b)假设数据集T中每条记录有p个属性{u1,u2,...,up},且每个属性都分别对应若干个属性值,分为记为{q1,q2,...,qp};当一条记录中,敏感属性对应的属性值出现记为1,不出现记为0,那么该条记录可以表示为一个(q1+q2+...+qp)维行向量当数据集T有n条记录,依次记为{t1,t2,...,tn},则就有n个(q1+q2+...+qp)维行向量,分别表示为(c)将(q1+q2+...+qp)维行向量中对应位上的值进行同或和异或运算,用表示同或运算时对应位上属性值都标记为1的情况,用表示同或运算时对应位上属性值都标记为0;则两属性之间的关联度S(I1,I2)计算公式如下:其中,计算中将参数λ1,λ2,λ3分别设为0.5,0.25,0.25,且值域为0≤S(I1,I2)≤1;(5)根据预先设置的敏感信息处理规则对敏感信息进行脱敏处理;(6)对敏感信息的脱敏深度进行计算,并判断脱敏深度是否符合预设的要求;若不符合,则返回步骤(5)重新进行脱敏处理;否则,对脱敏后的数据集进行输出,供数据使用者查看。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司,未经银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710506066.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top