[发明专利]医疗文本命名实体识别方法和装置有效

申请号：	201810060974.7	申请日：	2018-01-22
公开（公告）号：	CN108563626B	公开（公告）日：	2022-01-25
发明（设计）人：	不公告发明人	申请（专利权）人：	北京颐圣智能科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/289;G06N3/04;G06N3/08
代理公司：	北京万思博知识产权代理有限公司 11694	代理人：	柴国伟
地址：	100190 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	医疗文本命名实体识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种医疗文本命名实体识别方法和装置，该方法包括：将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络，得到第一输出结果和第二输出结果；利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射，并将映射后的结果合并，得到第三输出结果；利用第二激活函数对第三输出结果进行计算，得到n*r维矩阵P；将矩阵P代入条件随机场转移矩阵，计算并得到与所述命名实体相对应的全局最优标签序列。根据本申请的方法，医学术语识别准确率和召回率高，并且计算速度快，能够快速进行医学术语识别，进而用于模型计算和预测。

技术领域

本申请涉及医学健康领域，特别是涉及医疗文本命名实体识别方法和装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术

1968年，为了便于医务人员对病人的病情进行诊断推理，韦德(Weed)博士提出面向问题组织电子病历。此后，基于电子病历等医疗文本的临床决策支持研究备受关注，该研究通常需要应用自然语言处理、信息抽取等技术对医疗文本进行处理，从而识别文本中的实体和实体关系；然后，基于这些数据去训练医学模型，并利用医学模型对人体健康进行预测和分析。因此，实体和实体关系识别的准确性对于模型的准确性而言至关重要。

目前，常用的命名实体识别方法是基于词典和规则的方法；医疗文本命名实体识别多采用基于词典的方法。医疗领域中的术语词典包括国际疾病分类-10(InternationalClassification of Diseases-10，ICD-10)等。由于医疗文本中包含大量专业术语，术语词典作为一个非常重要的资源，对于部分实体的识别有着重要作用。然而，单纯的基于词典的方法既不能考虑医疗文本中的上下文信息，又不能适应复杂的语言现象并输出全局最优的结果。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种医疗文本命名实体识别方法，包括：

步骤S11：将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络，得到第一输出结果和第二输出结果；

步骤S12：利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射，并将映射后的结果合并，得到第三输出结果；

步骤S13：利用第二激活函数对第三输出结果进行计算，得到n*r维矩阵P，其中，n表示将医疗文本进行分词后得到的词语的个数，r表示预先设置的标签的个数，矩阵P中的每一个元素p_ij表示第j个词语的标签为第i个标签的概率；以及

步骤S14：将矩阵P代入条件随机场转移矩阵，计算并得到与所述命名实体相对应的全局最优标签序列。

采用该方法，能够对医疗文本中具有实体意义的词语进行分析，并将其进行分类。通过对大量的文本进行分析，可以对医疗文本数据进行精简，提取其中具有实体意义的词语。通过对数据进行加工，能够得到标准化的标签数据，从而为后续的应用作准备。标签数据可以应用于数据分析的各个方面，例如建模、检索、预测等。

进一步地，步骤S14后还包括：

步骤S15：分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并，得到最终的标签序列及命名实体序列。

通过该步骤，能够进一步地简化医疗文本数据，对医疗文本进行更加简练的分类。

进一步地，步骤S11具体包括：