[发明专利]数据清洗方法、装置、存储介质及电子设备在审
申请号: | 202110659697.3 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113342792A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 储兵兵 | 申请(专利权)人: | 北京小米移动软件有限公司;北京小米松果电子有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06K9/62 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 卢夏子 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 清洗 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种数据清洗方法、装置、存储介质及电子设备,该数据清洗方法通过依次将每个该数据集作为测试集,并由除当前测试集之外的数据集中的样本数据组成训练集,将该训练集和该测试集进行组合得到测试训练集组;针对每个该测试训练集组,通过该测试训练集组中的训练集对预设算法模型进行训练,得到该测试训练集组对应的分类预测模型,能够有效保证分类预测模型的性能,提升分类预测模型输出分类预测结果的准确性;并通过根据每个样本数据的该分类预测结果和该分类标签,对该多个样本数据进行数据清洗,能够有效提升标注错误的样本数据的识别准确率,从而能够有效减少需要重新进行人工审核标注的数据量,降低人工审核成本。
技术领域
本公开涉及数据处理领域,具体地,涉及一种数据清洗方法、装置、存储介质及电子设备。
背景技术
一般利用深度学习训练模型时,需要大量的带有标签的数据样本,而这些数据样本中的数据标签往往会存在一定的标注错误。这些标注错误会导致模型训练失败,或者在利用训练得到的模型进行分类预测时,造成预测结果错误率较高的问题。
为了提升模型的性能,保证模型预测结果的准确性,需要对数据样本的标注质量进行把控,通常可以通过对标注数据进行数据清洗,将标注错误的数据挑出,重新进行人工审核标注,从而保证数据样本的标注质量。
但是,目前的数据清洗方法会导致对标注错误的误识别率较高,导致被识别为标注错误数据的数据量较多。
发明内容
为克服相关技术中存在的问题,本公开提供一种数据清洗方法、装置、存储介质及电子设备。
根据本公开实施例的第一方面,提供一种数据清洗方法,所述方法包括:
获取待清洗的多个样本数据和每个所述样本数据被标注的分类标签;
将所述多个样本数据划分为至少三个数据集;
依次将每个所述数据集作为测试集,并由除当前测试集之外的其他数据集中的样本数据组成训练集,将所述训练集和所述测试集进行组合得到测试训练集组,其中,不同的测试训练集组包括不同的测试集和该测试集对应的训练集;
针对每个所述测试训练集组,通过该测试训练集组中的训练集对预设算法模型进行训练,得到该测试训练集组对应的分类预测模型,并依次将所述测试集中的每个所述样本数据作为所述分类预测模型的输入,输出得到该样本数据对应的分类预测结果;
根据每个样本数据的所述分类预测结果和所述分类标签,对所述多个样本数据进行数据清洗;
将清洗后的数据作为目标分类模型的训练样本数据。
可选地,所述分类预测结果包括至少一个分类预测标签和每个所述分类预测标签对应的预测概率,所述根据每个样本数据的所述分类预测结果和所述分类标签,对所述多个样本数据进行数据清洗包括:
将至少一个所述分类预测标签中,预测概率最大的分类预测标签作为目标预测标签;
在根据所述目标预测标签确定所述样本数据的分类标签标注错误的情况下,根据标注错误的样本数据清洗所述多个样本数据。
可选地,通过以下方式确定所述样本数据的分类标签标注错误:
在所述目标预测标签与标注的所述分类标签不同的情况下,确定所述样本数据的分类标签标注错误。
可选地,所述确定所述样本数据的分类标签标注错误包括:
在所述目标预测标签对应的预测概率大于或者等于预设概率阈值的情况下,确定所述待清洗样本数据的分类标签标注错误。
可选地,所述待清洗的样本数据的数量与所述数据集的数量的差值大于或者等于预设差值阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司;北京小米松果电子有限公司,未经北京小米移动软件有限公司;北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110659697.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向植物表型研究的叶片实例分割方法
- 下一篇:多刀头垂直盾构系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置