[发明专利]文本数据处理方法、装置、电子设备及计算机可读介质有效
申请号: | 201811332347.0 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109299472B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 田振华 | 申请(专利权)人: | 天津开心生活科技有限公司;天津新开心生活科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G16H50/70 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 301800 天津市宝坻区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 电子设备 计算机 可读 介质 | ||
本公开涉及一种文本数据处理方法、装置、电子设备及计算机可读介质。涉及医疗信息处理领域,该方法包括:对文本数据进行预处理,生成多个文本单元,所述本文数据为非结构化数据;根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式;根据所述多个文本单元与所述实体词,类型词,以及表达式,生成文本序列集合;以及基于所述文本序列集合进行模式匹配与拆解,生成结构化数据结果。本公开涉及的文本数据处理方法、装置、电子设备及计算机可读介质,能够将非结构化文本数据准确高效的转化为结构化数据,提升医疗数据处理效率。
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种文本数据处理方法、装置、电子设备及计算机可读介质。
背景技术
电子病历记录了海量真实而丰富的临床数据,是临床医生长期实践和经验的总结,可用于支持临床辅助决策、流行病学统计、临床科研和药物研发等。然而电子病历中存在大量基于自然语言的非结构化文本,这部分数据要能被计算机利用和理解应用,需要基于临床自然语言处理进行结构化信息抽取。另一方面,不同医院、不同学科、不同医生对于病历和临床术语的记录,在表达方式和书写习惯上也会有不同,给病历信息抽取带来挑战。
现有技术中,电子病历的结构化信息抽取主要涉及医学命名实体识别和实体关系识别两个重要方面,现有的关系识别方法主要是基于规则或者基于机器学习关系分类获取二元语义关系(三元组)输出结构化结果。现有技术中的关系识别方法在实际应用过程中存在较多问题,比如较难快速适配跨院数据,词汇关系冲突、关系分层组合不准确等。
现有技术中“基于本体技术的结构化电子病历生成方法(申请号:201210544345.4)”关注基于本体对病历关键词进行层次化遍历,展开父类属性、等同关键词等形成词语组合,构建病历特征索引,进而该索引对病历进行过滤查询。该发明解决的是基于本体对病历关键词进行扩展和构建索引问题,不涉及对病历具体内容的后结构抽取。
现有技术中“一种电子病历文本结构化方法(申请号:201610405133.6)”主要基于医学专业词库,进行正向最大匹配分词后,判断短句中是否存在否定表达,决定是否输出疾病信息单元;然后再根据医学同义词词库合并信息元素的不同表达,以结构体/类的形式存储,完成结构化。该发明只简单对短句中是否有否定性修饰词且不存在否定性医学专业术语,决定输出与否。该发明无法解决结构化中同一短句中否定词具体作用对象问题,同时也不涉及不同实体能否搭配组合的结构化抽取和表示问题。
现有技术中“面向智能临床辅助决策支持系统的知识库构建方法与系统(申请号:201610658768.7)”基于临床病历和临床路径知识,为智能临床辅助决策构建知识库。该发明提出通过关系语义规则,获取实体关系三元组,并根据设置扩展三元组完成知识库构建,是的知识库中的知识课快速查询、检索、匹配、推荐,提高计算效率,并可以灵活实现适配临床实例和特征复杂情况。
现有技术中“基于深度学习及分布式语义特征医学信息抽取系统及方法(申请号:201610176409.8)”采用的是基于语言模型训练词向量,结合医学知识库和深度学习方法识别命名实体,该发明涉及的是命名实体识别问题,与本发明着重解决实体关系和结构化表示输出问题不同。
现有技术中“中文电子病历症状语义提取方法及其系统(申请号:201710610138.7)”通过对病历文本分词,引入医学术语库对医学名词分类,并标注关联名词释义、相关词汇,其目标是对病历文本中出现的不同术语关联知识库内容,比如临床医学术语标准或者医学主题词表等,其中关联算法采用监督学习算法训练模型。
现有的关系识别方法主要是基于规则或者基于机器学习关系分类获取二元语义关系(三元组)输出结构化结果。然而,现有基于规则的方法主要基于人工经验总结,没有较好的结合机器挖掘的优势;基于机器学习的关系分类依赖较多人工标注数据,同时数据分布的差异使其较难快速适配跨院数据;最后,现有基于规则/机器学习的关系识别停留在二元关系分类的基础上,在实际应用过程中存在较多问题,比如关系冲突、关系分层组合等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津开心生活科技有限公司;天津新开心生活科技有限公司,未经天津开心生活科技有限公司;天津新开心生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811332347.0/2.html,转载请声明来源钻瓜专利网。