[发明专利]用于从电子文档提取信息的方法和系统有效
申请号: | 201310059415.1 | 申请日: | 2013-02-26 |
公开(公告)号: | CN103294764B | 公开(公告)日: | 2016-11-16 |
发明(设计)人: | T·F·希达-马穆德;L·基蒂卡留 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;张亚非 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 电子 文档 提取 信息 方法 系统 | ||
技术领域
本发明涉及一种用于从电子文档提取信息的方法和系统。
背景技术
当可以通过大型患者库获取集成信息时,出现了较新的决策支持系统,其使得医生能够受益于医治类似患者的其他医生的一致意见。这些系统依赖于基于内容的检索技术,该检索技术使用患者诊断数据中的基础相似度推断所诊断疾病的相似度。诊断信息的一个重要来源是测量报告。这些文档汇总了许多诊断设置中的发现,并记录了在各种测试下从设备获得的重要测量。此类报告还可以包含各种结构的书面描述和表明诊断结论的文档具体发现。
尽管以自然语言完全理解此类报告是一个极富挑战性的问题,但通常需要从这些报告中提取足够的临床信息以完成患者的纵向临床记录。尽管电子病历系统捕获临床数据,但对诊断有用的信息通常位于其他系统中并采取非结构化形式,因此完成患者的完整纵向记录可能需要分析非结构化数据。临床报告,特别是转录系统、放射系统、心血管系统中提供的那些报告,构成临床数据的重要来源,例如人口统计信息(免疫、过敏症)、家族史(患有疾病的亲属)、诊断检查测量(例如,左心室面积)、药物、疗程和其他治疗及其效果。提取这些类型的信息可以减少为两种基本类型的操作—即,查找指示被提取的临床信息类型的文本短语,以及查找指示测量与其值配对的名称-值对。
一个实例包括从报告中推断诊断标签,这是医疗保健中许多证据生成活动的重要预处理步骤。了解诊断标签有助于对数据进行分类并将诊断标签用于直接查找患有特定疾病的患者。它还允许对患有类似疾病的患者进行分组以实现决策支持,并且能够对电子病历(EMR)系统中记录的诊断进行一致性检查。它还可以具有质量控制和收入周期管理的暗示,因为缺少的或不正确的诊断代码可以导致因不健全的计费而产生的收入损失以及由于漏诊而产生的护理责任和质量问题。
从报告中推断诊断标签可能颇具挑战性,因为医生很少使用相同的短语作为诊断代码的定义(ICD9)。例如,可能必须从例如“存在患者二尖瓣狭窄的迹象”的文本内的描述推断二尖瓣狭窄的诊断代码(394.0)。
尽管自由文本搜索引擎可以在此类报告内的短语中查找精确的单词匹配,但它们无法容易地处理例如上述仍然保留整体含义的短语的形成变化。查找对应于某条所需信息(例如诊断标签)的文本短语需要(a)知晓相关的词汇表术语,(b)将这些术语在医疗文本中出现的可能变体预先编入目录,(c)发现暗示含义相反的可靠否定,以及(d)用于查找容许术语使用变化的匹配短语的强健算法。
发明内容
描述了一种系统的实施例。在一个实施例中,所述系统是短语匹配系统。所述系统包括:训练引擎,其被配置为:从训练语料库学习术语和术语变体,其中所述术语和所述术语变体对应于与所述训练语料库相关的专用词典;以及生成在所述训练语料库中找到的否定指示符的列表;以及匹配引擎,其被配置为:在一组电子文档中执行所述术语和所述术语变体的部分匹配以产生初始匹配结果;以及针对所述初始匹配结果使用所述否定指示符执行否定测试并使用所述术语和所述术语变体执行肯定术语测试,以便从所述初始匹配结果中删除使所述否定测试或所述肯定术语测试失败的匹配,从而产生最终匹配结果。还描述了所述系统的其他实施例。
还描述了一种计算机程序产品的实施例。在一个实施例中,所述计算机程序产品包括计算机可读存储设备以存储计算机可读程序,其中当所述计算机可读程序由计算机中的处理器执行时,导致所述计算机执行操作以便从电子文档提取信息。所述操作包括:从训练语料库学习术语和术语变体,其中所述术语和所述术语变体对应于与所述训练语料库相关的专用词典;生成在所述训练语料库中找到的否定指示符的列表;在一组电子文档中执行所述术语和所述术语变体的部分匹配以产生初始匹配结果;以及针对所述初始匹配结果使用所述否定指示符执行否定测试并使用所述术语和所述术语变体执行肯定术语测试,以便从所述初始匹配结果中删除使所述否定测试或所述肯定术语测试失败的匹配,从而产生最终匹配结果。还描述了所述计算机程序产品的其他实施例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310059415.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于识别假脸的装置和方法
- 下一篇:打印控制设备和打印控制设备的控制方法