[发明专利]针对非结构化文本的个人隐私信息自动检测方法及系统有效
申请号: | 201910147987.2 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109960727B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 柯永振;韩亚雄;杨帅;郭景 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 北京知舟专利事务所(普通合伙) 11550 | 代理人: | 郭韫 |
地址: | 300387 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 结构 文本 个人隐私 信息 自动检测 方法 系统 | ||
本发明提供了一种针对非结构化文本的个人隐私信息自动检测方法及系统,属于信息处理领域。该方法首先将非结构化文本划分为含有隐私信息的文本和不含有隐私信息的文本,然后从所述含有隐私信息的文本中识别出实体类信息,最后计算每个所述实体类信息在含有隐私信息的文本中的权重和在不含有隐私信息的文本中的权重,并根据得到的两个权重判断每个实体信息是否属于实体类隐私信息。本发明能够检测出文本中实体类的隐私信息,且具有非常大的实用价值,有效地替代了传统的人工检测方法,且大大提高了检测效率,降低了人员成本,为政府数据开放提供了强有力的技术支持。
技术领域
本发明属于信息处理领域,具体涉及一种针对非结构化文本的个人隐私信息自动检测方法及系统。
背景技术
随着在政务数据开放方面逐步地加大力度,一些问题随之产生,如开放的政务数据中包含了企业的商业秘密和公民的个人隐私信息,这些数据的泄露将带来严重后果。政府在数据开放过程中应当保护个人隐私和商业秘密数据不被泄漏。根据2015年颁布的《电信和互联网用户个人信息保护规定》中的规定,用户的个人信息是指电信业务经营者和互联网信息服务提供者在提供服务的过程中收集的能够单独或者与其他信息结合识别用户的信息,包括用户姓名、出生日期、身份证件号码、住址等身份信息以及用户使用服务的号码、账号、时间、地点等日志信息。《全国人民代表大会常务委员会关于加强网络信息保护的决定》中也规定:国家保护能够识别公民个人身份和涉及公民个人隐私的电子信息。要想保护个人隐私信息,首先就需要将隐私信息检测出来。
目前的研究人员大多将研究的重点放在文本中的敏感信息检测上,但很少涉及隐私信息的检测。虽然隐私信息检测不同于敏感信息检测,但检测隐私信息的研究可以借鉴部分敏感信息检测的方法。但目前的方法并不足以精确地判断含有隐私信息的文档中哪些内容属于隐私信息的,也不能精确地表示出隐私信息在文本中的位置。Azad Dehghan和Cathal Gallagher等人(Azad Dehghan,Cathal Gallagher.Automated anonymization ofprotected personal data in clinical reports[C].SAS Conference Proceedings:Pharmaceutical Users Software Exchange,2017)设计了一种针对临床研究文件中的个人隐私数据的保护系统,他们对于文件中的实体类隐私信息进行识别时结合了预先定义的规则与机器学习的方法,其中机器学习方法主要用来提取文本中的特征信息。最后将识别到的实体类信息按照规则进行分类处理。但是这篇论文提出的模型不具有普遍适用性,该作者为了检测临床医学研究文档中的个人隐私信息而设计了很多的检测特征,如用药历史、吸烟史等,这种人工设计的特征决定了该模型必定具有局限性,如果换一种应用场景那么该模型就需要重新设计很多的检测特征。其次,该论文中提出的检测方法是基于一款较为成熟数据匿名工具“Blur”,这款工具可以用来消除数据中的一些特定的信息如行程中的日期等,但这款工具并不是设计用来消除特定数据中的隐私信息的。这篇论文作者的检测方法依赖于这款工具,同时也受到了这款工具中的方法的限制,进而使其模型的可扩展性受到了限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910147987.2/2.html,转载请声明来源钻瓜专利网。