[发明专利]基于自然语言推断分类数据集的降噪装置及方法在审

申请号：	202110918801.6	申请日：	2021-08-11
公开（公告）号：	CN113822330A	公开（公告）日：	2021-12-21
发明（设计）人：	徐波;赵象三;宋晖	申请（专利权）人：	东华大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N5/04;G06F40/295;G06F40/30
代理公司：	北京力量专利代理事务所(特殊普通合伙) 11504	代理人：	毛雨田
地址：	200051 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于自然语言推断分类数据装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于自然语言推断分类数据集的降噪装置及方法。本发明的数据格式转换模块通过对关系分类数据集中的各类特征构造模板，将关系分类数据集中的各个三元组转换成自然语言推断中的假设，将对应的文本语料转换成自然语言推断中的前提；若原始数据集中能划分出高质量的标注数据，直接使用该数据集作为训练集使用监督学习训练自然语言推断模型，若当前数据集噪声比例较大且人工标注代价高昂，通过当前模型在验证集上的降噪效果作为“反馈”以强化学习的方法训练自然语言推断模型的参数；所述数据集降噪模板通过训练好的自然语言推断模型对远程监督得到的关系分类数据集进行评估，按照得分选取置信度高的数据集作为降噪后的数据集。

技术领域

本发明属于数据处理方法的技术领域，具体涉及一种基于自然语言推断的远程监督关系分类数据集降噪装置及方法。

背景技术

关系分类的任务是从一个给定的文本中预测两个实体之间的语义关系。了解实体的关系对于许多下游应用程序是必不可少的，如知识图谱补全和问题回答等任务。关系分类任务通常依赖于大规模的人工标注数据，这是昂贵和耗时的。为了解决这个问题，目前常常使用远程监督来自动标注大量语料。远程监督基于这样一个假设：如果一个句子中包含知识库中的某个实体对，那么可以认为这个句子中的实体对也存在与之对应的知识库中相同实体对的关系。这种方法虽然能自动得到大规模的标注数据，但是同时引入了噪声问题。

目前来讲，有两种方法来解决远程监督关系分类数据集的噪声问题。第一种方法是使用多实例学习来容忍数据集的噪声：将训练数据分成许多包，每个包都包含许多提到同一实体对的句子，然后以包级别的形式对模型进行训练和测试。然而这类方法在句子级别预测中表现不佳。第二种方法是直接找到有噪声的数据：一般使用强化学习或对抗学习来选择高质量的数据或消除噪声数据。然而它们的计算开销很高，并且这些方法的性能有待提高。

发明内容

为了克服现有技术的不足，本发明提出了一种基于自然语言推断的远程监督关系分类数据集降噪装置和方法。本发明将关系分类的原始数据集转换成自然语言推断数据集，当能提供大量标注正确且分布同全量远程监督关系分类数据集一致的监督数据的时候使用监督学习训练模型，否则使用强化学习在不依赖监督学习所需的标注数据的情况下训练模型，最后用自然语言推断模型去评估关系分类数据集，并根据评估得分选取高质量的数据作为优化后的数据集，相较于传统的强化学习方法，我们的方法将噪声识别问题转换成自然语言推断问题，计算开销更少，降噪效果更好。

本发明的技术方案具体介绍如下：

本发明提供一种基于自然语言推断分类数据集的降噪装置，包括：

将分类数据集转换成自然语言推断数据集的数据格式转换模块；

对转换后的自然语言推断数据集进行训练的自然语言推断模型训练模块，所述自然语言推断模型训练模块在能提供大量标注正确且分布同全量远程监督关系分类数据集一致的监督数据的时候使用监督学习训练模型，若不能提供时使用强化学习的方法对模型进行训练；

利用训练好的自然语言推断模型对远程监督关系分类数据集进行优化的数据集降噪模块。

基于自然语言推断分类数据集降噪装置的降噪方法，包括如下步骤：

数据集格式转换，将关系分类数据集转换成自然语言推断数据集；

自然语言推断模型训练，在能提供高质量的监督数据的时候使用监督学习训练模型，无法提供的时候使用强化学习的方法对模型进行训练；

数据集降噪，通过训练好的自然语言推断模型对远程监督关系分类数据集进行优化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东华大学，未经东华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】