[发明专利]基于自然语言推断分类数据集的降噪装置及方法在审

申请号：	202110918801.6	申请日：	2021-08-11
公开（公告）号：	CN113822330A	公开（公告）日：	2021-12-21
发明（设计）人：	徐波;赵象三;宋晖	申请（专利权）人：	东华大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N5/04;G06F40/295;G06F40/30
代理公司：	北京力量专利代理事务所(特殊普通合伙) 11504	代理人：	毛雨田
地址：	200051 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于自然语言推断分类数据装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于自然语言推断分类数据集的降噪装置，其特征在于，包括：

将分类数据集转换成自然语言推断数据集的数据格式转换模块；

对转换后的自然语言推断数据集进行训练的自然语言推断模型训练模块，所述自然语言推断模型训练模块在能提供大量标注正确且分布同全量远程监督关系分类数据集一致的监督数据的情况下使用监督学习训练模型，若不能提供，则使用强化学习的方法对模型进行训练；

利用训练好的自然语言推断模型对远程监督关系分类数据集进行优化的数据集降噪模块。

2.根据权利要求1所述的基于自然语言推断分类数据集的降噪装置，其特征在于，上述数据格式转换模块依据关系分类数据集中的各类关系的语义分别构造对应模板，将关系分类中的三元组转换成自然语言推断中的假设，将关系分类数据集中的文本作为自然语言推断中的前提，实现自然语言推断训练集的构造。

3.根据权利要求1所述的基于自然语言推断分类数据集的降噪装置，其特征在于，上述自然语言推断模型训练模块，当原始数据能提供标注正确且分布同全量远程监督关系分类数据集一致的标注数据的时候使用监督学习训练模型，当原始数据包含大量噪声，使用强化学习的方法在不依赖监督学习所需的标注数据的情况下对自然语言推断模型进行训练。

4.根据权利要求1所述的基于自然语言推断分类数据集的降噪装置，其特征在于，上述数据集降噪模块通过训练好的自然语言推断模型对远程监督得到的关系分类数据集进行打分，按照分数选取置信度高的数据作为优化后的数据集。

5.基于权利要求1所述的基于自然语言推断分类数据集降噪装置的降噪方法，其特征在于，包括如下步骤：

数据集格式转换，将关系分类数据集转换成自然语言推断数据集；

自然语言推断模型训练，在能提供大量标注正确且分布同全量远程监督关系分类数据集一致的监督数据的时候使用监督学习训练模型，无法提供的时候使用强化学习的方法对模型进行训练；

数据集降噪，通过训练好的自然语言推断模型对远程监督关系分类数据集进行优化。

6.根据权利要求5所述的降噪方法，其特征在于，上述数据格式转换过程中，依据关系分类数据集中的各类关系的语义分别构造对应模板，将关系分类中的三元组转换成自然语言推断中的假设，将关系分类数据集中的文本作为自然语言推断中的前提，实现自然语言推断训练集的构造。

7.根据权利要求5所述的降噪方法，其特征在于，上述自然语言推断模型训练过程中，当原始数据能提供较大量标注正确且分布同全量远程监督关系分类数据集一致的监督数据的时候可以时候用监督学习训练模型，当原始数据包含大量噪声，而获得大规模干净的用于监督学习的数据集代价很大的时候使用强化学习的方法对自然语言推断模型进行训练。

8.根据权利要求5所述的降噪方法，其特征在于，上述数据集降噪过程中，通过训练好的自然语言推断模型对远程监督得到的关系分类数据集进行打分，按照分数选取置信度高的数据作为优化后的数据集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东华大学，未经东华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110918801.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种智能电力物联网生态技术体系
下一篇：一种基于压缩感知技术的图像数据传输系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于自然语言推断分类数据集的降噪装置及方法在审

专利文献下载