[发明专利]医疗文本命名实体识别方法和装置有效

专利信息
申请号: 201810060974.7 申请日: 2018-01-22
公开(公告)号: CN108563626B 公开(公告)日: 2022-01-25
发明(设计)人: 不公告发明人 申请(专利权)人: 北京颐圣智能科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/289;G06N3/04;G06N3/08
代理公司: 北京万思博知识产权代理有限公司 11694 代理人: 柴国伟
地址: 100190 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 医疗 文本 命名 实体 识别 方法 装置
【说明书】:

本申请公开了一种医疗文本命名实体识别方法和装置,该方法包括:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P;将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。根据本申请的方法,医学术语识别准确率和召回率高,并且计算速度快,能够快速进行医学术语识别,进而用于模型计算和预测。

技术领域

本申请涉及医学健康领域,特别是涉及医疗文本命名实体识别方法和装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术

1968年,为了便于医务人员对病人的病情进行诊断推理,韦德(Weed)博士提出面向问题组织电子病历。此后,基于电子病历等医疗文本的临床决策支持研究备受关注,该研究通常需要应用自然语言处理、信息抽取等技术对医疗文本进行处理,从而识别文本中的实体和实体关系;然后,基于这些数据去训练医学模型,并利用医学模型对人体健康进行预测和分析。因此,实体和实体关系识别的准确性对于模型的准确性而言至关重要。

目前,常用的命名实体识别方法是基于词典和规则的方法;医疗文本命名实体识别多采用基于词典的方法。医疗领域中的术语词典包括国际疾病分类-10(InternationalClassification of Diseases-10,ICD-10)等。由于医疗文本中包含大量专业术语,术语词典作为一个非常重要的资源,对于部分实体的识别有着重要作用。然而,单纯的基于词典的方法既不能考虑医疗文本中的上下文信息,又不能适应复杂的语言现象并输出全局最优的结果。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面,提供了一种医疗文本命名实体识别方法,包括:

步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;

步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;

步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及

步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。

采用该方法,能够对医疗文本中具有实体意义的词语进行分析,并将其进行分类。通过对大量的文本进行分析,可以对医疗文本数据进行精简,提取其中具有实体意义的词语。通过对数据进行加工,能够得到标准化的标签数据,从而为后续的应用作准备。标签数据可以应用于数据分析的各个方面,例如建模、检索、预测等。

进一步地,步骤S14后还包括:

步骤S15:分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。

通过该步骤,能够进一步地简化医疗文本数据,对医疗文本进行更加简练的分类。

进一步地,步骤S11具体包括:

步骤S111:对所述医疗文本进行分词,计算分词后每个词语和标点的词向量;以及

步骤S112:将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京颐圣智能科技有限公司,未经北京颐圣智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810060974.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top