[发明专利]自由文本去识别在审
申请号: | 201980073632.1 | 申请日: | 2019-10-10 |
公开(公告)号: | CN112970071A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | D·普莱泰亚;R·P·科斯特;P·P·范利斯东克 | 申请(专利权)人: | 皇家飞利浦有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F21/62 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘兆君 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自由 文本 识别 | ||
一种系统或方法根据包括自然语言短语中的非结构化文本(100)的患者数据的数据集来生成去识别输出。黑名单(105)具有不允许的词项。对非结构化文本进行处理以确定词计数(110),该词计数包括在非结构化文本中的出现次数(k)低于阈值(120)的低比率词项的列表。随后,在非结构化文本中掩盖(130)低比率词项和黑名单词项以生成去识别输出(140)。
技术领域
本发明涉及对诸如患者数据之类的个人可识别信息(PII)的处理的分析。更具体地,本发明涉及对包括例如与疾病或处置有关的自由文本的患者数据的分析和去识别。这样的自由文本包括自然语言短语,并且可以包括临床记录、出院小结、移交记录等,并且在本文档中被称为非结构化文本。
背景技术
最新的法规(例如,通用数据保护条例,欧盟理事会,欧洲议会和理事会于2016年4月27日关于在处理个人数据和此类数据的自由流动方面保护自然人而颁布的条例(eu)2016/679,并废除了指令95/46/ec,2016年4月”,HIPAA“医疗保险可携性和责任法案;美国劳工部,雇员福利安全管理局,2004年”)对处理个人可识别信息(PII)提出了严格要求,同时对不遵守规定的行为处以巨额罚款。
基于文本的患者医学记录是医学研究和数据分析中的重要资源。为了保护患者的隐私和保密性,如HIPAA和GDPR之类法规要求先将受保护的健康信息(PHI)从医学记录中移除,然后再将PHI用于次要目的。对非结构化文本文档的去识别通常是手动实现的并且需要大量资源。
虽然在对结构化临床数据(例如,医院数据库、关系数据仓库)的去识别的领域中已经进行了大量研究,但是由于诸如自由文本临床记录、出院小结和移交记录之类的数据的非结构化性质,对此类数据的去识别的研究尚不成熟。针对该问题的解决方案是使用涉及医学、自然语言处理等领域的知识的多学科方法(例如参见HuiYang和JonathanM.Garibaldi的“Automatic detection of protected health information from clinicnarratives”(生物医学信息学杂志,58(S):S30-S38,2015年12月)),临床文本挖掘、机器学习(例如参见K.Rajput、G.Chetty和R.Davey的“Phis(protected health information)identification from free text clinical records based on machine learning”(2017IEEE计算智能研讨会系列(SSCI),第1-9页,2017年11月))和循环神经网络(例如参见Franck Dernoncourt、Ji Young Lee、Ozlem Uzuner和Peter Szolovits的“De-identification of patient notes with recurrent neural networks”(美国医学信息学学会杂志,24(3):596-606,2017年))。
然而,由于此类数据的非结构化性质,基于黑名单的方法具有大量的真负例。例如,它们无法涵盖异常词(例如“Summer”既可以是名称又可以是时间指示符/季节)、拼写错误(例如拼写成“Jonh”而不是“John”)或非结构化数据的自由性质(例如,圣诞节实际上就是12月25日)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980073632.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:制备镍复合氢氧化物的方法
- 下一篇:聚乙烯反应器中熔体流动指数响应的改进