[发明专利]一种面向数据共享的敏感信息脱敏方法及系统有效
申请号: | 201710506066.1 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107480549B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 张云云;王开红;于海龙;吴培文;陈涛 | 申请(专利权)人: | 银江股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/35 |
代理公司: | 杭州之江专利事务所(普通合伙) 33216 | 代理人: | 张慧英 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向数据共享的敏感信息脱敏方法及系统,本发明采用统计学、自然语言处理技术和机器学习技术,实现了从数据发布到数据申请使用这一整个过程敏感数据的保护,提出了基于构建敏感信息关键词库、命名实体类和地址类等敏感信息的自动识别;使用Sigmoid函数计算敏感属性关联度;采用构建敏感属性生成规则库和命名实体脱敏规则以及核心的脱敏算法的组成方式进行脱敏策略;分别结合数值型敏感属性和分类型属性脱敏深度计算,得到整体数据集的脱敏程度,并采取下载链接地址Hash的方法实现数据的受控输出等,能够保证数据敏感信息安全和最大化满足分析挖掘要求的敏感信息处理策略,具有脱敏效果好、可靠性强等特点。 | ||
搜索关键词: | 一种 面向 数据 共享 敏感 信息 方法 系统 | ||
【主权项】:
1.一种面向数据共享的敏感信息脱敏方法,其特征在于,包括如下步骤:(1)预先设置敏感信息自动识别规则和敏感信息处理规则,其中所述敏感信息自动识别规则包括构造各类敏感信息关键词库、对敏感信息关键词库内敏感信息的自动识别、号码与数值类敏感信息的自动识别、命名实体类敏感信息的自动识别、地址类敏感信息的精确识别;所述敏感信息处理规则包括敏感属性生成规则、设置脱敏算法、命名实体脱敏处理、地址信息脱敏处理;数据使用者请求查看数据提供者发布的数据;(2)对数据进行预处理,预处理后进行文本数据分词和词性标注;(3)根据预先设置的敏感信息自动识别规则对敏感信息进行自动识别;(4)通过对敏感信息的敏感属性关联度计算分析,保留敏感属性关联度高于阈值的敏感信息;其中阈值为预设的;其中,所述的敏感属性关联度计算方法如下:(a)采用Sigmoid函数对分类型敏感属性的关联度进行标准化处理,如下定义:
其中,该函数的值域区间为[0,1],且连续、光滑、单调递增;(b)假设数据集T中每条记录有p个属性{u1,u2,...,up},且每个属性都分别对应若干个属性值,分为记为{q1,q2,...,qp};当一条记录中,敏感属性对应的属性值出现记为1,不出现记为0,那么该条记录可以表示为一个(q1+q2+...+qp)维行向量
当数据集T有n条记录,依次记为{t1,t2,...,tn},则就有n个(q1+q2+...+qp)维行向量,分别表示为
(c)将(q1+q2+...+qp)维行向量中对应位上的值进行同或和异或运算,用
表示同或运算时对应位上属性值都标记为1的情况,用
表示同或运算时对应位上属性值都标记为0;则两属性之间的关联度S(I1,I2)计算公式如下:
其中,计算中将参数λ1,λ2,λ3分别设为0.5,0.25,0.25,且值域为0≤S(I1,I2)≤1;(5)根据预先设置的敏感信息处理规则对敏感信息进行脱敏处理;(6)对敏感信息的脱敏深度进行计算,并判断脱敏深度是否符合预设的要求;若不符合,则返回步骤(5)重新进行脱敏处理;否则,对脱敏后的数据集进行输出,供数据使用者查看。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司,未经银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710506066.1/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置