[发明专利]一种依存句法结构的电子病历命名实体识别方法及系统在审
申请号: | 202211705654.5 | 申请日: | 2022-12-28 |
公开(公告)号: | CN116306643A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 邓彪;翟飞飞;付西娜 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F40/126;G16H10/60;G06F18/214;G06F18/24;G06N3/0455;G06N3/0464;G06N3/08 |
代理公司: | 湖北权上知识产权代理事务所(特殊普通合伙) 42287 | 代理人: | 叶玲 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 依存 句法 结构 电子 病历 命名 实体 识别 方法 系统 | ||
1.一种依存句法结构的电子病历命名实体识别方法,其特征在于,包括以下步骤:
S1,获取中文电子病历文本的训练集;
S2,使用中文依存句法解析器获取训练集中文本的依存句法结构信息;
S3,使用中文预训练语言模型BERT获取文本中每个字符的嵌入向量,并组合成文本序列表征;
S4,将字符的嵌入向量和依存句法结构信息送入图卷积神经网络层进行编码训练,得到融合文本依存结构信息的文本特征表示向量以及依存边类型向量;
S5,将文本特征序列送入CRF层,进行实体标签解码,预测得到实体标签序列;
S6,将依存边类型向量送入全连接层,进行依存关系标签分类,预测得到依存边类型;
S7,对S5和S6的预测结果进行联合优化损失得到识别模型,将中文电子病历文本输入识别模型便可识别。
2.根据权利要求1所述的依存句法结构的电子病历命名实体识别方法,其特征在于,所述S4具体包括:
将字符的嵌入向量和依存句法结构信息送入图卷积神经网络层,通过重构字、重构词之间的依存结构连接关系,对字符之间的依存结构连接信息进行编码,得到融合文本依存结构信息的文本特征表示向量以及依存边类型向量。
3.根据权利要求2所述的依存句法结构的电子病历命名实体识别方法,其特征在于,所述S4中的依存结构连接关系具体包括:
词向量由组成该词的字符向量相加得到,组成同个词的字共享该词的依存边。
4.根据权利要求1所述的依存句法结构的电子病历命名实体识别方法,其特征在于,所述S4具体包括:
(1)采用图自编码器GAE方式,重构字/词之间的依存连接关系,得到邻接矩阵;
(2)为了模型学习到编码字/词之间的连接关系类型,构建对边向量的分类任务,输出对连接边类型的预测。
5.根据权利要求1所述的依存句法结构的电子病历命名实体识别方法,其特征在于,所述S7具体包括:将依存边预测模型的损失和命名实体识别模型的损失加权求和后进行损失计算和梯度回传,再对模型参数进行优化得到识别模型。
6.根据权利要求5所述的依存句法结构的电子病历命名实体识别方法,其特征在于,所述S7中损失计算和梯度回传具体过程如下:
L=LE(θ)+LDR(θ)
LE(θ)=-logPθ(YE|S(GCN-L),A)
LDR(θ)=-logPθ(YDR|E(GCN-L),A)
其中,YE为实体标签序列,LE(θ)为实体预测损失,YDR为依存关系类型标签,LtR(θ)为依存关系分类损失,A表示图卷积神经网络,Pθ表示预测概率,其中θ表示整个网络需要优化的参数。
7.根据权利要求1所述的依存句法结构的电子病历命名实体识别方法,其特征在于,所述S7中联合优化损失具体包括:
融入依存边预测模型的损失,迫使模型将其决策与融入的结构信息关联起来,使模型对结构信息敏感。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211705654.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:像素驱动电路、像素驱动方法以及显示装置
- 下一篇:一种蚊香抛松理料机