[发明专利]基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统在审
申请号: | 202210049938.7 | 申请日: | 2022-01-17 |
公开(公告)号: | CN114582449A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 杨雨;张培龙;李华;王显荣;刘玉林 | 申请(专利权)人: | 内蒙古大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 刘归港 |
地址: | 010000 内蒙古自*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 xlnet bigru crf 模型 电子 病历 命名 实体 标准化 方法 系统 | ||
本发明提供一种基于XLNet‑BiGRU‑CRF模型的电子病历命名实体标准化方法、系统、存储介质和电子设备,涉及数据处理技术领域。本发明将第一Embedding词向量与若干相关三元组数据对应的第二Embedding词向量分别作余弦相似度比较,将相似度得分最高的词对应的标准实体作为目标映射实体结果;将目标映射实体结果向基准表上进行映射,获取最终的电子病历标准实体。这样检索任意医生的诊断,都不会因为习惯不同导致数据检索结果不完全;由此既保证了医生在临床中录入的速度,以及符合医生习惯,同时保障了在数据展现和统计中所有医学表征相同的不同书写方式能够被识别为具有同一种医学含义。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法、系统、存储介质和电子设备。
背景技术
电子病历是计算机信息系统存储、管理和传输的医疗记录,包含医务人员在为患者诊疗过程中记录的关于患者病史、临床表现、治疗方法等数字化信息。由于电子病历大多是半结构化和非结构化的数据,对其进行分析处理和数据挖掘受到严重制约。命名实体识别是发现和识别自然文本中的专有名词和有意义的词语,并将其归类到预定义的类别中,是自然语言处理任务中的一项重要分支。运用命名实体识别技术对电子病历文本进行分析研究,目的是自动地识别、分类电子病历中的医疗命名实体并将其标准化。
传统的电子病历命名实体识别研究主要分为基于字典和规则的方法、基于统计学的机器学习方法以及深度学习方法。其中,基于字典和规则方法需要根据短语搭配模式及词汇特征人工构建实体抽取规则,虽然能在特定领域取得较好的效果,但需要大量专家知识且召回率低。基于统计机器学习方法有隐马尔可夫模型、支持向量机、条件随机场、最大熵模型等。主要依据标注好的训练集定义特征集,应用传统机器学习算法训练统计模型,其识别性能与设计的特征密切相关。基于深度学习方法近年来得到广泛的应用和突破性进展,包括循环神经网络模型(RNN)、卷积神经网络(CNN)、门控神经网络(GRU)等。深度学习方法与机器学习模型相比,能学习到高维度与深层次的特征表示,有利于提高实体识别的泛化能力,该方法基于神经网络的深度学习,较传统机器学习方法的优势是无需特征工程和人工构造规则模板,节省了人力物力。
然而医疗命名实体识别属于特定领域的命名实体识别,旨在识别电子病历中的一些重要概念,包括症状、疾病名称等。电子病历命名实体并标准化仍面临着一些困难与挑战,病历文本相比于通用领域文本,病历命名实体存在(1)字符长度大;(2)生僻词多;(3)命名实体间相互嵌套等情况。因此,医疗领域电子病历命名实体识别成为一项具有挑战性的任务,医疗命名实体识别性能有待进一步提高。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法、系统、存储介质和电子设备,解决了医疗命名实体识别性能有待提高的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法,包括:
S1、获取并预处理待识别的电子病历语料;
S2、将预处理后的待识别的电子病历语料输入XLNet子模型中,获取第一Embedding词向量,所述XLNet模型包括排列语言模型、双流注意力机制和Transformer-XL核心组件;
S3、将所述第一Embedding词向量输入BiGRU-CRF子模型中,获取所述待识别的电子病历语料对应的实体识别结果;
S4、根据所述实体识别结果,提取预设的Neo4j数据库中具有对应实体的若干个相关三元组数据,所述三元组数据由原实体、实体类别、标准实体组成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古大学,未经内蒙古大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210049938.7/2.html,转载请声明来源钻瓜专利网。
- 基于Smi2Vec的BiGRU药物毒性预测系统及预测方法
- 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置
- 一种基于ERNIE-BiGRU的中文文本分类方法
- 基于深度学习的预测化合物蛋白质亲和力新型编码方案、计算机设备、存储介质
- 一种基于BiGRU的智能电表计量模块故障预测与诊断方法
- 基于边缘注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质
- 一种预测化合物蛋白质亲和力的新型深度学习模型、计算机设备、存储介质
- 基于单独注意力机制的预测化合物蛋白质亲和力方法、计算机设备、存储介质
- 一种基于ATAE-BiGRU的文本方面情感分类方法及系统
- 一种基于自注意力机制和BiGRU的文本分类方法