[发明专利]基于交谈注意力机制的中文医学文本实体关系联合抽取方法在审
申请号: | 202210315494.7 | 申请日: | 2022-03-28 |
公开(公告)号: | CN114756679A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 黄杰;罗之宇;张蕾;万健;史斌彬;张丽娟 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F16/33;G06F40/295;G06F16/36;G06N5/02;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 交谈 注意力 机制 中文 医学 文本 实体 关系 联合 抽取 方法 | ||
本发明公开了一种基于交谈注意力机制的中文医学文本实体关系联合抽取方法。本发明通过提出了CLN层和位置信息的进行特征融合的想法,以及引入Talking head attention机制,将各个关系之间做了一个交谈式交互。加强了实体类型与关系类型之间的联系,大大提高了模型的准确性。
技术领域
本发明属于计算机应用技术领域,涉及一种基于交谈注意力机制的中文医学文本实体关系联合抽取方法。
背景技术
医学知识图谱是根据医学领域知识而构建起来的,旨在通过建立医学实体之间的关联关系,将医学文本中的知识系统地组织起来,为下游的数据搜索、挖掘、分析提供便利。医学领域具有大量的文本信息,但是如何从这些医学文本中提取所需要的医学知识来构建知识图谱已经成为了现在研究的热点。
构建知识图谱离不开信息提取(IE),信息提取(IE)中的研究难点就是命名实体识别(NER)和实体关系抽取(RE)两个任务。在自然语言处理(NLP)领域迅速发展的时代中,人们提出管道式方式和联合抽取方式来处理这两个问题。
目前,应用较为广泛的是基于传统的管道式方式,这种流水线的方式是先对实体进行抽取,然后再对实体的关系进行识别。传统的管道式模型在训练中需要使用真实实体标签进行训练,而在关系抽取阶段使用实体识别模型的输出,二者存在分布上的差异将导致关系抽取模型的性能下降。实际上,实体类型与关系类型之间还存在某种隐含的联系,而管道式方法并没有利用这样的关系。而且管道式针对每一种实体对都进行关系抽取,造成大量信息浪费。而且对于实体关系重叠问题,传统模型无法提供较好的解决方案。于是,基于联合抽取的方法开始进入人们的视野,这个方法能有效解决传统方法所遇见的困难。
本申请在基于实体关系联合抽取的基础上,提出了CLN层和位置信息的进行特征融合的想法,以及引入Talking head attention机制,将各个关系之间做了一个talking(交互)。加强了实体类型与关系类型之间的联系,大大提高了模型的准确性。
发明内容
本发明的目的旨在针对现有技术的不足,提供一种能有效的应用于医学领域的联合抽取模型。
为了实现上述目的,本发明提供了一种基于交谈注意力机制的中文医学文本实体关系联合抽取方法,包括如下步骤:
步骤1、将句子输入RoBERTa层,充分提取句子特征和挖掘词与词之间的关联:
将句子输入RoBERTa层,充分提取句子特征和挖掘词与词之间的关联;抽取头实体和尾实体放在同一步进行,同时预测实体之间的关系类别;通过指针标注,将每一个输入的初始(start)和结束(end)进行标注,将多片段问题转化为N个2分类,N为序列长度;将进行实体抽取后的序列矩阵进行CLN层和THA层的处理完成三元组的提取;
步骤2、提取输入句子的实体,按照层叠式指针网络,用两个级联模块提取三元组,这两个模块对应括实体提取和对应关系提取两个内容;对于每一个输入的句子进行实体提取,包括头实体和尾实体;被提取的实体也就是头实体被输入到下一个模块,遍历所有的关系,计算是否存在一个能够匹配头实体和尾实体的关系;
步骤3、遍历所有不同的对象输入后续模块,抽取三元组。
进一步的,步骤1中RoBERTa层基于Transformer算法的双向编码表征算法,进行特征提取和句子建模;
对输入的句子进行切片和注释,将句子进行分布式表示:
X={X1,X2,…,Xt,…,Xn}#(1)
Xt=ET+ES+EP#(2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210315494.7/2.html,转载请声明来源钻瓜专利网。