[发明专利]自由文本去识别在审
申请号: | 201980073632.1 | 申请日: | 2019-10-10 |
公开(公告)号: | CN112970071A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | D·普莱泰亚;R·P·科斯特;P·P·范利斯东克 | 申请(专利权)人: | 皇家飞利浦有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F21/62 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘兆君 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自由 文本 识别 | ||
1.一种用于根据多个患者的患者数据的数据集来生成去识别输出的计算机实施的方法,
所述患者数据包括非结构化文本(100),所述非结构化文本包括以自然语言短语排列的词语、数字和符号的词项,并且
黑名单(105)包括在所述去识别输出中不允许的黑名单词项,
所述方法包括以下步骤:
处理所述非结构化文本以确定词计数(110),所述词计数包括在所述非结构化文本中的出现次数(k)低于阈值(120)的低比率词项的列表,并且
在所述非结构化文本中移除或掩盖(130)所述低比率词项和所述黑名单词项以生成所述去识别输出(140)。
2.根据权利要求1所述的方法,其中,所述处理包括:根据在所述去识别输出中允许的所述非结构化文本的期望百分比来将所述阈值设置为高于最小阈值。
3.根据权利要求1或2所述的方法,其中,所述方法包括:将针对在所述短语中具有不同句法位置的相同词语的分离的词项确定为多个词项。
4.根据权利要求1至3中的任一项所述的方法,其中,所述方法包括:将多个词语模式确定为多个词项,一个词语模式包括在短语中的至少一个词语与相邻的数字或符号的模式的组合。
5.根据权利要求1至4中的任一项所述的方法,其中,所述方法包括:将多个词串确定为多个词项,一个词串包括特定的词语序列。
6.根据权利要求1至5中的任一项所述的方法,其中,所述方法包括:将多个词干确定为多个词项,一个词干包括在不同短语中具有相似语义功能的不同词语的集合。
7.根据权利要求1或2所述的方法,其中,所述处理包括:使用根据权利要求3至5中的任一项所述的词项来确定所述黑名单。
8.根据权利要求1或2所述的方法,其中,所述处理包括:使用根据权利要求3至6中的任一项所述的词项来确定所述词计数。
9.根据前述权利要求中的任一项所述的方法,其中,所述处理包括:
确定包括在所述去识别输出中允许的词项的白名单;并且
通过在所述去识别输出中允许所述白名单中的低比率词项来防止所述移除或掩盖所述低比率词项。
10.根据前述权利要求中的任一项所述的方法,其中,所述处理包括:
基于先前的去识别事件中的词计数结果来确定包括针对置信度词项的置信度得分的置信度列表;并且
通过根据所述置信度得分调节所述出现次数(k)或所述阈值来针对所述置信度词项调整所述词计数。
11.根据权利要求10所述的方法,其中,所述置信度得分以百分比表示在所述先前的去识别事件中在所述词计数中所述置信度词项高于所述阈值的次数。
12.一种用于根据多个患者的患者数据的数据集来生成去识别输出的计算机程序产品,所述计算机程序产品包括指令,所述指令当在计算机上被执行时使所述计算机执行根据权利要求1至11中的任一项所述的方法。
13.一种用于根据多个患者的患者数据的数据集来生成去识别输出的系统(1100),所述系统包括:
数据接口(1126),其被配置为接收多个患者的患者数据,所述患者数据包括非结构化文本(100),所述非结构化文本包括以自然语言短语排列的词语、数字和符号的词项,以及
黑名单(105),其包括在所述去识别输出中不允许的黑名单词项;以及
处理器(1130),其用于:
处理所述非结构化文本以确定词计数(110),所述词计数包括在所述非结构化文本中的出现次数(k)低于阈值(120)的低比率词项的列表,并且
在所述非结构化文本中移除或掩盖(130)所述低比率词项和所述黑名单词项以生成所述去识别输出(140)。
14.一种根据权利要求1至11中的任一项所述的方法、根据权利要求12所述的计算机程序产品和/或根据权利要求13所述的系统在选自由以下各项组成的组中的一项中的用途:基因组学、遗传学、生物信息学研究、转录组学、蛋白质组学和系统生物学或诊断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980073632.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:制备镍复合氢氧化物的方法
- 下一篇:聚乙烯反应器中熔体流动指数响应的改进