[发明专利]一种基于多层语义分析的医疗信息提取方法有效
申请号: | 201811347337.4 | 申请日: | 2018-11-13 |
公开(公告)号: | CN111180076B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 阮耀平;汤若云;罗翔凤;张天泽 | 申请(专利权)人: | 零氪科技(北京)有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 语义 分析 医疗 信息 提取 方法 | ||
1.一种基于多层语义分析的医疗信息提取方法,其特征在于,该方法通过多层标注数据训练模型并利用训练好的模型提取病历文本中的医疗信息,具体包括以下步骤:
A、通过标注端获取多层标注数据;所述多层标注数据包括在文本中标注实体、事件、关系和属性,并将所述事件涉及到的文本都标注为事件;其中,标注实体的文本为第一层标注,且每一个实体标注内不包含其他实体或事件;
B、将多层标注数据按照模型的层次配置拆分,生成每一层的标注数据,将每层标注数据中的事件、事件内的顶层子事件或子实体以及其间的关系派发到该层标注数据对应的事件层;
C、利用每层标注数据训练该层对应的事件层的模型;所述训练的过程包括:
利用每层标注数据的子事件或子实体的标签替换原来的文本;
将替换后的文本按照文本顺序不变的规则转换成序列;
使用该层的多个标注数据的序列建立模型树,并使一个完整的序列为该模型树的一个分支,将子事件的标签、关系和属性数据保存在该分支上;
D、利用训练好的模型树将病历文本从第一事件层逐层提取数据,并依次向上一事件层输出提取的数据;所述提取及输出数据的过程包括:
预处理上一事件层中提取的数据,取出上一事件层中的顶层的实体标签或事件标签,并使用该标签替换原文本;
按照文本顺序不变的规则将所述替换后的标签转换为序列;
利用搜索指针指向序列的首位字符,并在本层的模型树中搜索匹配,当匹配到一个分支后,将该分支关联的数据加入提取数据中,同时搜索指针指向该序列匹配分支后的下一个字符;若没有匹配到任一分支,则搜索指针指向当前字符的下一个字符,直至完成整个序列的搜索;
E、将最高事件层提取的数据作为提取结果,得到医疗信息。
2.根据权利要求1所述的方法,其特征在于,所述在本层的模型树中搜索匹配,当遇到以下任一条件时停止搜索:
模型树的某个分支节点和当前搜索指针指向的待匹配序列中的元素不相同时;
搜索指针指向该模型树的分支节点时;
搜索指针指向文本末尾时。
3.根据权利要求2所述的方法,其特征在于,当对第一事件层进行提取时,其预处理过程还包括:
通过词表或正则表达式将实体标签提取出来,与原文本一起组成本层的提取数据,以提供至第二事件层。
4.根据权利要求1所述的方法,其特征在于,步骤E所述医疗信息为包含实体、时间、关系和属性的结构化信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于零氪科技(北京)有限公司,未经零氪科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811347337.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于确定污染区域的方法和装置
- 下一篇:一种产生稳定镜像电流的电路