[发明专利]一种面向数据共享的敏感信息脱敏方法及系统有效
申请号: | 201710506066.1 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107480549B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 张云云;王开红;于海龙;吴培文;陈涛 | 申请(专利权)人: | 银江股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/35 |
代理公司: | 杭州之江专利事务所(普通合伙) 33216 | 代理人: | 张慧英 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 共享 敏感 信息 方法 系统 | ||
本发明涉及一种面向数据共享的敏感信息脱敏方法及系统,本发明采用统计学、自然语言处理技术和机器学习技术,实现了从数据发布到数据申请使用这一整个过程敏感数据的保护,提出了基于构建敏感信息关键词库、命名实体类和地址类等敏感信息的自动识别;使用Sigmoid函数计算敏感属性关联度;采用构建敏感属性生成规则库和命名实体脱敏规则以及核心的脱敏算法的组成方式进行脱敏策略;分别结合数值型敏感属性和分类型属性脱敏深度计算,得到整体数据集的脱敏程度,并采取下载链接地址Hash的方法实现数据的受控输出等,能够保证数据敏感信息安全和最大化满足分析挖掘要求的敏感信息处理策略,具有脱敏效果好、可靠性强等特点。
技术领域
本发明涉及信息技术与数据安全的交叉技术领域,尤其涉及一种面向数据共享的敏感信息脱敏方法及系统。
背景技术
近年来,信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为重要性发展资源。2016年,政府大力推动信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推荐数据资源向社会开放,引导社会发展,更好服务于公众。然而在大数据背景下,数据开放共享也带来挑战性的问题,各类数据泄露事件频繁发生,如安徽近六千名新生儿信息泄露事件、每年高考信息泄露、具有针对性的诈骗电话事件等,使得全社会从注重数据开放共享转移到更加协同关注数据安全保护。为此,许多国家颁布一系列信息安全相关的法律法规,例如我国的《保密法》和《中华人民共和国政府信息公开条例》,这就要求数据在开放共享的过程中必须符合特定的条件,在开放的数据集中不能包含标识个人身份的数据,以保证数据集的使用者不能轻易地推断出个人隐私信息等;而且又要合理地满足民众多元化需求、保证数据资源能够产生新的价值。因此,实现数据安全保护,又能最大化发挥数据资源利用价值,是目前信息安全处理技术领域具有挑战性的问题。
近年,在敏感数据保护方面已经做了大量的研究。专利号CN201511026582.1从数据脱敏系统的角度出发,介绍了在大数据环境下敏感数据在流通、交换共享、交易等整个环节的保护,并在每个环节使用了不同的敏感保护方法,还提出了基于专家系统和自然语言处理的敏感数据发现方法,最后还通过验证脱敏结果正确性与真实性的度量数据脱敏环节。专利号CN201610338383.2提出了一种在网络环境中对数据加密后将加密秘钥和加密后的脱敏数据物理分离存储,并且对加密秘钥和脱敏数据设置严格的访问权限,保证数据加密或者解密的安全性。专利号CN201510303954.4通过接收用户发送的结构化查询语言SQL指令判断所访问的数据中包含敏感数据,并且通过用户访问权限和预先设置的脱敏转换规则对SQL指令进行转换,使得转换后的指令访问到的已脱敏数据。专利号CN201510755773.5公开了一种对不同类型的隐私数据采用格式保留脱敏方法,使其以密文形式入库,可以避免密文长度大于表字段定义长度,导致数据装载出现,避免了号码字段加密后类型和源数据类型不匹配,导致数据装载出错。
然而在上述的脱敏系统或者脱敏方法中,都存在一定的局限性。主要原因是:(1)大多数脱敏系统和方法都是针对于数据库的结构化数据,而对于非结构化数据(如文本数据)没有涉及到如何处理;(2)缺乏考虑敏感数据脱敏的完备性,如果敏感数据脱敏深度不够,防止使用非敏感性数据重建敏感数据;(3)无法保证数据脱敏后标识唯一性和格式一致性要求,例如医院数据,一般用身份证号标识和定位个人,如果使用脱敏算法或者加密算法,使得身份证信息失去标识的唯一性和格式的一致性。
发明内容
本发明为克服上述的不足之处,目的在于提供一种面向数据共享的敏感信息脱敏方法及系统,本发明采用统计学、自然语言处理技术和机器学习技术,实现了从数据发布到数据申请使用这一整个过程敏感数据的保护,提出了基于构建敏感信息关键词库、命名实体类和地址类等敏感信息的自动识别;使用Sigmoid函数计算敏感属性关联度;采用构建敏感属性生成规则库和命名实体脱敏规则以及核心的脱敏算法的组成方式进行脱敏策略;分别结合数值型敏感属性和分类型属性脱敏深度计算,得到整体数据集的脱敏程度,并采取下载链接地址Hash的方法实现数据的受控输出等,能够保证数据敏感信息安全和最大化满足分析挖掘要求的敏感信息处理策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江股份有限公司,未经银江股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710506066.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置