[发明专利]一种基于相似词汇表的文本关系自动标注方法在审

专利信息
申请号: 202111070442.X 申请日: 2021-09-13
公开(公告)号: CN113886521A 公开(公告)日: 2022-01-04
发明(设计)人: 闵飞;胡岩峰;乔雪;向镐鹏;姜添;彭晨;沈红;潘宇顺;杨婷 申请(专利权)人: 苏州空天信息研究院
主分类号: G06F16/33 分类号: G06F16/33;G06F40/194;G06F40/295;G06F40/30
代理公司: 南京理工大学专利中心 32203 代理人: 封睿
地址: 215000 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 相似 词汇表 文本 关系 自动 标注 方法
【说明书】:

发明提出一种基于相似词汇表的文本关系自动标注方法,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料;在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表;对句子进行命名体识别以及实体关系三元组提取;依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合;对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注。本发明解决了传统远程监督方法构建知识库难度大、标注语料质量低的问题,为构建关系抽取模型所需的数据集提供了新的策略。

技术领域

本发明涉及自然语言处理技术,具体涉及一种基于相似词汇表的文本关系自动标注方法。

背景技术

关系抽取是自然语言处理中最重要的子任务之一,其内容是根据上下文语义判断文本中某个实体对之间的关系。目前常用的关系抽取方法包括传统的统计学习方法和深度学习方法。传统的统计学方法需要人工地确定文本特征,不仅难度大,而且特征常常偏而不全。而基于深度学习的方法能通过模型自动且高效地提取特征,已经成为目前最主流的方法。

基于深度学习的方法训练出来的关系抽取模型,其性能很大一部分取决于训练语料的质量。目前常用的获取训练语料的方法有人工标注和远程监督自动标注,而这两种方法都有不同方面的弊端。人工标注虽然标注的语料质量较高,但需要消耗大量的时间和人力,对于短时间内生成数据集是非常困难的。而远程监督自动标注方法是将文本中出现的实体对对齐到已有知识库中,利用知识库中的信息给实体对确定关系,虽然能够短时间内获取大量的语料,但依然存在两个问题。第一是知识库构建难度大,虽然有一些通用的知识库如维基百科的wikidata,但在某些特定领域中这些知识库显然无法使用,而短时间内构建大型的知识库并不容易。第二是生成的语料质量低,由于相同的实体对在不同的语料中其语义表达的关系未必相同,因此会出现大量的错误标注。因此如何简单且高效的获取大量的训练语料是一个非常值得深入探讨和研究的问题。

[1]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of DeepBidirectional Transformers for Language Understanding[J].2018.

[2]李浩.基于远程监督的实体关系抽取方法研究[D].武汉理工大学,2019.。

发明内容

本发明的目的在于提出一种基于相似词汇表的文本关系自动标注方法,以解决构建知识库难度大,生成语料质量低等问题。

实现本发明目的的技术解决方案为:一种基于相似词汇表的文本关系自动标注方法,步骤如下:

步骤1,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料;

步骤2,在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表;

步骤3,对句子进行命名体识别以及实体关系三元组提取;

步骤4,依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合;

步骤5,对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注。

进一步的,步骤2,在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表,具体方法为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州空天信息研究院,未经苏州空天信息研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111070442.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top