[发明专利]一种依存句法结构的电子病历命名实体识别方法及系统在审
申请号: | 202211705654.5 | 申请日: | 2022-12-28 |
公开(公告)号: | CN116306643A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 邓彪;翟飞飞;付西娜 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F40/126;G16H10/60;G06F18/214;G06F18/24;G06N3/0455;G06N3/0464;G06N3/08 |
代理公司: | 湖北权上知识产权代理事务所(特殊普通合伙) 42287 | 代理人: | 叶玲 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 依存 句法 结构 电子 病历 命名 实体 识别 方法 系统 | ||
本发明属于电子病历命名实体识别技术领域,具体提供了一种依存句法结构的电子病历命名实体识别方法及系统,通过将文本的依存句法结构信息经过图神经网络进行编码,同时融入依存边(依存关系)预测模型的损失,通过最大化融入结构信息与未融入结构信息的模型间隔,迫使模型将其决策与融入的结构信息关联起来,使模型对结构信息敏感。本方案通过借助文本的结构信息以提高模型在中文电子病历文本上的命名实体识别性能,尤其对于表述不一的相似实体指称,通过融入的依存句法结构信息,模型能很好地结合文本的句法结构信息对实体边界进行准确判断,提高这部分实体的识别准确率。
技术领域
本发明涉及电子病历命名实体识别技术领域,更具体地,涉及一种依存句法结构的电子病历命名实体识别方法及系统。
背景技术
随着大量电子医疗病历的产生以及医疗信息服务与医疗决策支持的潜在需求,医疗信息的自动抽取与处理成为深度学习研究的重点。电子病历命名实体识别算法是临床电子病历、临床辅助决策等系统中的重要组成部分。近年来,随着机器学习技术的发展,基于深度学习的命名实体识方法得到了很大的关注,包括双向长短期记忆网络(Bi-LSTM)、条件随机场(CRF)、预训练语言模型BERT等都应用到了该问题中,并取得了不错的性能。
但是,受医疗行业特殊性的影响,使用深度学习方法对医疗文本进行实体和关系抽取存在如下问题:1)由于医学领域知识的专业性,大量的专业词汇包含其中,以及医生书写习惯的不同,不同医疗文本可能存在不同表达方式;2)由于电子病历语料标注成本高,准确的标注语料较少,使用简单模型在少量语料上进行建模时获取到的语义编码信息不够丰富。
如上问题的存在导致通用领域的命名实体识别方法在医疗电子文本上的识别效果不理想。针对如上问题,在中文电子病历命名实体识别任务,有研究者提出从特征编码层进行改善,进行多元特征的编码以增强模型的语义表示,如融入字形、字音、句子结构等特征到文本表示中。通常,这类方法都是将多元特征中的一种多种进行编码后与文本的字符或词语级别特征进行融合后,使用交叉熵损失函数对模型进行优化和训练,此类方法存在如下不足:
(1)所融入的特征主要是丰富模型对文本的语义表示,难以编码字/词之间的连接关系并利用这部分信息解决采用序列标注方式进行命名实体识别任务时边界难以确定的问题。
(2)很少有研究关注用于训练该类模型的损失函数,普遍使用交叉熵损失函数仅优化目标任务的后验似然概率,未显式建模所融入信息的作用,导致模型并未利用所融入信息做决策。
发明内容
本发明针对现有技术中存在的现有融合多元特征的中文电子病历命名实体识别准确率低的技术问题。
本发明提供了一种依存句法结构的电子病历命名实体识别方法,包括以下步骤:
S1,获取中文电子病历文本的训练集;
S2,使用中文依存句法解析器获取训练集中文本的依存句法结构信息;
S3,使用中文预训练语言模型BERT获取文本中每个字符的嵌入向量,并组合成文本序列表征;
S4,将字符的嵌入向量和依存句法结构信息送入图卷积神经网络层进行编码训练,得到融合文本依存结构信息的文本特征表示向量以及依存边类型向量;
S5,将文本特征序列送入CRF层,进行实体标签解码,预测得到实体标签序列;
S6,将依存边类型向量送入全连接层,进行依存关系标签分类,预测得到依存边类型;
S7,对S5和S6的预测结果进行联合优化损失得到识别模型,将中文电子病历文本输入识别模型便可识别。
优选地,所述S4具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211705654.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:像素驱动电路、像素驱动方法以及显示装置
- 下一篇:一种蚊香抛松理料机