[发明专利]一种面向数据共享的敏感信息脱敏方法及系统有效
申请号: | 201710506066.1 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107480549B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 张云云;王开红;于海龙;吴培文;陈涛 | 申请(专利权)人: | 银江股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/35 |
代理公司: | 杭州之江专利事务所(普通合伙) 33216 | 代理人: | 张慧英 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 共享 敏感 信息 方法 系统 | ||
1.一种面向数据共享的敏感信息脱敏方法,其特征在于,包括如下步骤:
(1)预先设置敏感信息自动识别规则和敏感信息处理规则,其中所述敏感信息自动识别规则包括构造各类敏感信息关键词库、对敏感信息关键词库内敏感信息的自动识别、号码与数值类敏感信息的自动识别、命名实体类敏感信息的自动识别、地址类敏感信息的精确识别;所述敏感信息处理规则包括敏感属性生成规则、设置脱敏算法、命名实体脱敏处理、地址信息脱敏处理;数据使用者请求查看数据提供者发布的数据;
(2)对数据进行预处理,预处理后进行文本数据分词和词性标注;
(3)根据预先设置的敏感信息自动识别规则对敏感信息进行自动识别;
(4)通过对敏感信息的敏感属性关联度计算分析,保留敏感属性关联度高于阈值的敏感信息;其中阈值为预设的;其中,所述的敏感属性关联度计算方法如下:
(a)采用Sigmoid函数对分类型敏感属性的关联度进行标准化处理,如下定义:
其中,该函数的值域区间为[0,1],且连续、光滑、单调递增;
(b)假设数据集T中每条记录有p个属性{u1,u2,...,up},且每个属性都分别对应若干个属性值,分为记为{q1,q2,...,qp};当一条记录中,敏感属性对应的属性值出现记为1,不出现记为0,那么该条记录可以表示为一个(q1+q2+...+qp)维行向量当数据集T有n条记录,依次记为{t1,t2,...,tn},则就有n个(q1+q2+...+qp)维行向量,分别表示为
(c)将(q1+q2+...+qp)维行向量中对应位上的值进行同或和异或运算,用表示同或运算时对应位上属性值都标记为1的情况,用表示同或运算时对应位上属性值都标记为0;则两属性之间的关联度S(I1,I2)计算公式如下:
其中,计算中将参数λ1,λ2,λ3分别设为0.5,0.25,0.25,且值域为0≤S(I1,I2)≤1;
(5)根据预先设置的敏感信息处理规则对敏感信息进行脱敏处理;
(6)对敏感信息的脱敏深度进行计算,并判断脱敏深度是否符合预设的要求;若不符合,则返回步骤(5)重新进行脱敏处理;否则,对脱敏后的数据集进行输出,供数据使用者查看。
2.根据权利要求1所述的一种面向数据共享的敏感信息脱敏方法,其特征在于:所述步骤(2)的预处理操作如下:对发布的数据根据数据类型进行分类,数据类型包括结构化形式各类数据库数据、表格数据、数据仓库数据和非结构化的文档数据;预处理时需要对属性值的完整性、一致性、正确性进行检查,并将非结构化的文档数据解析成文本数据,文档数据解析时采用解析工具进行解析。
3.根据权利要求1所述的一种面向数据共享的敏感信息脱敏方法,其特征在于:所述命名实体类敏感信息的自动识别采用基于隐马尔可夫HMM模型的Viterbi算法的词性标注和构建命名实体知识库组合方式实现;所述的地址类敏感信息的精确识别通过判断地址信息邻接的词语序列进行实现。
4.根据权利要求1所述的一种面向数据共享的敏感信息脱敏方法,其特征在于:对号码与数值型的敏感信息进行脱敏处理具体为:通过制定敏感属性生成的规则,将该规则存入敏感属性生成规则库,调用预设的基于数据失真和加密的脱敏算法对新生敏感属性值按照脱敏任务进行变换,最后形成脱敏后的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司,未经银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710506066.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置