[发明专利]一种基于多实例协同对抗训练的远程监督关系抽取方法有效

专利信息
申请号: 202011137036.6 申请日: 2020-10-22
公开(公告)号: CN112016293B 公开(公告)日: 2021-01-19
发明(设计)人: 庄越挺;汤斯亮;肖俊;陈涛;吴飞;李晓林;谭炽烈;蒋韬 申请(专利权)人: 浙江大学
主分类号: G06F40/20 分类号: G06F40/20;G06F40/295;G06N3/08
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 傅朝栋;张法高
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 实例 协同 对抗 训练 远程 监督 关系 抽取 方法
【说明书】:

发明公开了一种基于多实例协同对抗训练的远程监督关系抽取方法,以解决远程监督关系抽取任务中传统多实例学习框架存在的较低的数据使用效率的问题。数据使用率较低的问题是由多实例学习框架倾向于只关注包内的高质量语句,而忽视大量的潜在噪声语句造成的。而本发明的方法协同虚拟对抗训练和对抗训练,分别约束包内的噪声样本和包级的准确特征,在解决数据利用率问题的同时进一步强化模型性能。该方法在效果上优于近些年来一些主流的相关算法。

技术领域

本发明涉及自然语言处理,尤其涉及一种基于多实例协同对抗训练的远程监督关系抽取方法。

背景技术

自然语言处理(Nature Language Processing,简称NLP)是一门集语言学与计算机科学为一体的交叉学科。关系抽取(Relation Extraction,简称RE)作为信息抽取中的关键子任务,其在自动化知识库构建过程中扮演着至关重要的角色。它的主要目标是基于给出的上下文(Context)句子和指定的实体(Entity)对,判断实体对之间的关系类别。对于无关系的实体对,一般用特殊的关系类别(NA)来指代。

传统的关系抽取模型依赖于大量人工标注的数据,这些数据的获取过程往往是极其费时费力的。因此,远程监督方法被自然地引入到关系抽取任务当中,通过外部知识库自动构建训练语料。其具体做法是将无标注语料中的实体对与已存在的知识库事实(KBFact)对齐,启发式地赋予无标注语料以标签。

但是基于远程监督构建的语料往往存在着数据噪声问题,简单的启发式匹配往往会导致错误标签的引入(False Positive False Negative),这给构建一个准确而稳定的关系抽取模型带来了挑战。为了缓解噪声问题,主流方法通常采用多实例学习(Multi-Instance Learning),将包含相同实体对的句子归并为包(Bag)作为新的训练单元。在包内,模型会根据当前的后验信息,动态选择赋予不同质量的句子以不同的权重,从而形成一个较为准确的包级特征表达,模型最终将基于这个包层级的准确表达进行后续训练。

虽然多实例学习一定程度上缓解了数据噪声问题,但是实际上它牺牲了一定的数据利用率。具体而言,为了得到一个较为可靠的包级表达,多实例学习只关注了那些具有高注意力分数的句子,并没有充分发挥大量低注意力分数句子的作用。而事实上包内句子的注意力分数分布是一个长尾分布,大部分包内句子的注意力分数都比较低,这意味着有大量潜在的信息未被多实例学习框架利用。

发明内容

本发明的目的是为了克服现有技术的不足,提供一种基于协同对抗训练的远程监督关系抽取方法。

本发明具体通过以下技术方案实现:

一种基于多实例协同对抗训练的远程监督关系抽取方法,其包括以下步骤:

S1:获取由句子实例构成的训练数据,并通过远程监督使其对齐到知识库,将含有相同实体对的句子实例构建成包,每个包中的所有句子实例具有相同的关系标签;

S2:针对S1中构建的每个包,基于多实例学习框架中蕴含的注意力信号,对包内所有句子实例的特征进行加权,获得包级特征并计算交叉熵损失约束,同时根据注意力信号确定潜在的包内噪声实例;

S3:针对S1中构建的每个包,在其包级特征的对抗方向上添加第一扰动向量,使扰动向量添加前后多实例学习框架输出的关系标签变化量最大,再计算在第一扰动向量添加后每个包的局部光滑度约束;

S4:针对S1中构建的每个包,在输入层向每个包内噪声实例添加虚拟对抗方向上的第二扰动向量,使扰动向量添加前后多实例学习框架输出的条件概率变化量最大,再计算第二扰动向量添加后每个包的局部平滑性约束;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011137036.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top