[发明专利]数据清洗方法、装置、存储介质及电子设备在审

专利信息
申请号: 202110659697.3 申请日: 2021-06-11
公开(公告)号: CN113342792A 公开(公告)日: 2021-09-03
发明(设计)人: 储兵兵 申请(专利权)人: 北京小米移动软件有限公司;北京小米松果电子有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/28;G06K9/62
代理公司: 北京英创嘉友知识产权代理事务所(普通合伙) 11447 代理人: 卢夏子
地址: 100085 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 清洗 方法 装置 存储 介质 电子设备
【说明书】:

本公开涉及一种数据清洗方法、装置、存储介质及电子设备,该数据清洗方法通过依次将每个该数据集作为测试集,并由除当前测试集之外的数据集中的样本数据组成训练集,将该训练集和该测试集进行组合得到测试训练集组;针对每个该测试训练集组,通过该测试训练集组中的训练集对预设算法模型进行训练,得到该测试训练集组对应的分类预测模型,能够有效保证分类预测模型的性能,提升分类预测模型输出分类预测结果的准确性;并通过根据每个样本数据的该分类预测结果和该分类标签,对该多个样本数据进行数据清洗,能够有效提升标注错误的样本数据的识别准确率,从而能够有效减少需要重新进行人工审核标注的数据量,降低人工审核成本。

技术领域

本公开涉及数据处理领域,具体地,涉及一种数据清洗方法、装置、存储介质及电子设备。

背景技术

一般利用深度学习训练模型时,需要大量的带有标签的数据样本,而这些数据样本中的数据标签往往会存在一定的标注错误。这些标注错误会导致模型训练失败,或者在利用训练得到的模型进行分类预测时,造成预测结果错误率较高的问题。

为了提升模型的性能,保证模型预测结果的准确性,需要对数据样本的标注质量进行把控,通常可以通过对标注数据进行数据清洗,将标注错误的数据挑出,重新进行人工审核标注,从而保证数据样本的标注质量。

但是,目前的数据清洗方法会导致对标注错误的误识别率较高,导致被识别为标注错误数据的数据量较多。

发明内容

为克服相关技术中存在的问题,本公开提供一种数据清洗方法、装置、存储介质及电子设备。

根据本公开实施例的第一方面,提供一种数据清洗方法,所述方法包括:

获取待清洗的多个样本数据和每个所述样本数据被标注的分类标签;

将所述多个样本数据划分为至少三个数据集;

依次将每个所述数据集作为测试集,并由除当前测试集之外的其他数据集中的样本数据组成训练集,将所述训练集和所述测试集进行组合得到测试训练集组,其中,不同的测试训练集组包括不同的测试集和该测试集对应的训练集;

针对每个所述测试训练集组,通过该测试训练集组中的训练集对预设算法模型进行训练,得到该测试训练集组对应的分类预测模型,并依次将所述测试集中的每个所述样本数据作为所述分类预测模型的输入,输出得到该样本数据对应的分类预测结果;

根据每个样本数据的所述分类预测结果和所述分类标签,对所述多个样本数据进行数据清洗;

将清洗后的数据作为目标分类模型的训练样本数据。

可选地,所述分类预测结果包括至少一个分类预测标签和每个所述分类预测标签对应的预测概率,所述根据每个样本数据的所述分类预测结果和所述分类标签,对所述多个样本数据进行数据清洗包括:

将至少一个所述分类预测标签中,预测概率最大的分类预测标签作为目标预测标签;

在根据所述目标预测标签确定所述样本数据的分类标签标注错误的情况下,根据标注错误的样本数据清洗所述多个样本数据。

可选地,通过以下方式确定所述样本数据的分类标签标注错误:

在所述目标预测标签与标注的所述分类标签不同的情况下,确定所述样本数据的分类标签标注错误。

可选地,所述确定所述样本数据的分类标签标注错误包括:

在所述目标预测标签对应的预测概率大于或者等于预设概率阈值的情况下,确定所述待清洗样本数据的分类标签标注错误。

可选地,所述待清洗的样本数据的数量与所述数据集的数量的差值大于或者等于预设差值阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司;北京小米松果电子有限公司,未经北京小米移动软件有限公司;北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110659697.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top