[发明专利]文本的实体关系抽取方法和模型训练方法有效

专利信息
申请号: 202010082707.7 申请日: 2020-02-07
公开(公告)号: CN111339774B 公开(公告)日: 2022-11-29
发明(设计)人: 陈曦;卢睿轩;文瑞;孙继超;刘羽 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F16/36
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 谭英强
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 实体 关系 抽取 方法 模型 训练
【说明书】:

本申请公开了一种文本的实体关系抽取方法和模型训练方法,本申请可以应用于人工智能领域的自然语言处理技术中,本申请的通过图状态循环神经网络和BERT模型的结合,从文本中分别抽取用于表征文本的语义特征的第一向量和用于表征文本的依存关系特征的第二向量,并将第一向量和第二向量拼接后进行分类,使得实体对的关系抽取在长句和跨句的应用场景中获得较好的准确度,改善了现有技术中在长句和跨句等应用场景下准确度不足的问题,此外,本申请在模型训练阶段,基于预设规则和预训练模型,通过远程监督的方式大量生产标注数据,可以在较低的成本下获得大量较为准确的训练数据。可见,本申请可以广泛应用于自然语言处理技术中。

技术领域

本申请涉及自然语言处理技术,尤其是一种文本的实体关系抽取、模型训练方法、装置和存储介质。

背景技术

随着人工智能(Artificial Intelligence,AI)技术的发展和具体领域的应用需求的不断增长,将人工智能技术应用到诸如医疗领域等具体领域的研究得到了发展。其中,自然语言处理(Natural Language Processing,NLP)技术为人工智能技术的重要分支。其中,在自然语言处理技术中,知识图谱(Knowledge Graph)的构建对人工智能应用有着重要的作用。例如人工智能可以利用知识图谱完成检索和问答等工作。

知识图谱由多个实体对之间的关系所构成,因此,对于构建知识图谱的工作而言,从海量文本中抽取实体对的关系是一项重要的基础工作。

现有的关系抽取模型通常基于word2vec、openAI-GPT、语义表示模型(Embeddingsfrom Language Models,ELMo)、双向转换编码器(Bidirectional EncoderRepresentation from Transformer,BERT)模型等预训练模型,这些预训练模型可以在短句的实体关系抽取中取得较好的效果。但是文本长度的增加,文本中实体的数量增加,会使得这些预训练模型对输入文本的语义抽取能力削弱,导致模型提取的特征丢失词语之间的关联信息,致使现有技术在长句或者跨句的实体关系抽取中性能较差。

发明内容

为解决上述技术问题的至少之一,本申请提供了一种文本的实体关系抽取、模型训练方法、装置和存储介质,以提高文本的实体关系抽取的准确性。

根据本申请的第一方面,提供了一种文本的实体关系抽取方法,包括以下步骤:

获取输入文本;

对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;

从所述至少两个实体中确定目标实体对;

根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本;

从所述替换文本中提取语义特征信息;

从所述输入文本中提取依存关系特征信息;

将所述语义特征信息和所述依存关系特征信息进行组合处理再分类,得到所述目标实体对的关系分类结果,以确定所述目标实体对的关系。

根据本申请的第二方面,提供了一种关系抽取模型训练方法,包括以下步骤:

获取训练样本,所述训练样本包括输入文本和标注信息;所述标注信息用于标注输入文本中一组实体对的关系;

对所述输入文本进行识别处理,得到所述输入文本中的至少两个实体和所述至少两个实体的类型;

将所述输入文本中被标注的所述实体对确定为目标实体对;

根据目标实体的类型,将所述输入文本中的所述目标实体替换成用于表示所述目标实体的类型的字符,得到所述输入文本的替换文本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010082707.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top