[发明专利]一种基于Transformer的实体关系联合抽取方法、介质及系统在审

专利信息
申请号: 202111480107.7 申请日: 2021-12-06
公开(公告)号: CN114398489A 公开(公告)日: 2022-04-26
发明(设计)人: 张正;常光辉;黄海辉;胡新庭;陈浪 申请(专利权)人: 重庆邮电大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06N3/04;G06N3/08
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 刘小红
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 transformer 实体 关系 联合 抽取 方法 介质 系统
【说明书】:

本发明请求保护一种基于Transformer的实体关系联合抽取方法、介质及系统,该方法的步骤包括:将训练数据中标注的实体关系的三元组与训练数据使用特殊的标识符连接;将处理过后的训练数据中的词进行向量化映射;将映射过后的训练数据输入到基于注意力机制的实体关系联合抽取模型当中,并通过反向传播算法进行模型的训练,得到实体关系预测模型;再将需要进行实体关系联合抽取的句子输入到训练好的模型中,预测出句子中的三元组关系。本发明通过将三元组抽取任务视为序列到序列的任务,通过参数共享的方法实现模型的联合抽取。

技术领域

本发明属于深度学习与自然语言处理技术,具体涉及一种基于Transformer 的实体关系联合抽取方法和系统。

背景技术

随着大数据时代的到来,互联网上的数据量急速攀升,其中主要包含大量的 自然语言文本,如此大量的自然语言文本中蕴含了大量的隐藏知识,如何快速 高效地从开放领域的文本中抽取出隐藏的知识,成为了摆在人们面前的重要问 题。为了解决这个问题,信息抽取在1998年的MUC-7会议上被首次提出,实体 关系抽取是文本挖掘、信息抽取的核心任务,其通过对文本信息建模,自动抽 取出实体之间的语义关系,提取出有效的语义知识。

因此,为了从海量的非结构化数据中抽取出隐藏的知识,知识图谱的概念被 提出。在知识图谱中,把海量数据中的人名、地点等专有名词表示为实体,并 将任意两个实体之间的联系表示为关系,通过三元组的形式(主实体,关系,副 实体)构建出知识图谱。因此,为了自动化的抽取出结构化文本中的三元组,研 究者们提出了信息抽取的方法,其中基于流水线和联合学习的方法为现在主要 的两种方法。

目前,实体关系根据抽取方法分为流水线的方法和联合学习的方法。流水线 的方法将实体关系抽取视为两个子任务,先对文本进行命名实体识别,再对命 名实体之间的关系进行识别,称为关系抽取。联合抽取的方法是将命名实体识 别和关系抽取视为一个子任务,通过联合学习的方法直接抽取出数据中的三元 组。避免了命名实体识别的准确率问题带来的误差累计问题,提高了实体关系 抽取的准确率,本专利所做的工作也是基于联合学习的方法。提出了一种新的 实体关系联合抽取的思路。

经过检索,申请公开号CN111666427A,一种实体关系联合抽取方法、装置、 设备及介质,包括:获取训练样本数据;利用所述训练样本数据对预先搭建的 实体关系抽取模型进行训练,得到训练后模型;其中,所述实体关系抽取模型 中包括自注意力层;所述自注意力层用于在训练过程中基于句子中其他三元组 对当前预测关系的影响进行注意力计算;当获取到待进行实体关系抽取的目标 文本,利用所述训练后模型输出对应的实体关系抽取结果。这样,对包括自注 意力层的实体关系抽取模型进行训练,能够在实体关系的抽取过程中考虑其他 三元组对当前预测关系的影响,从而提升实体关系抽取的准确度。

公开号CN111666427A中提出基于Bert+cnn模型进行实体关系联合抽取存 在的问题如下:

1.其存在较高的复杂度,不利于模型的落地,

2.同时,其使用的字级别矩阵难以解决三元组重叠问题,

3.最后,其依赖于CNN模型,该模型在解决长时序问题上也存在诸多弊端, 其无法捕获长距离信息。

本发明专利针对其的改进方法如下:

1.首先,本发明专利引入了半标记半指针网络,相较于公开号CN111666427A 有更好的解决三元组重叠问题的能力,

2.其次,本发明专利使用了transformer模型作为特征提取器,其在解决 长时序问题上优于CN111666427A所提出的模型。

3.最后,本发明模型减低模型复杂度的同时能够获得优于CN111666427A中 所提出的模型三元组抽取的效果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111480107.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top