[发明专利]一种基于深度学习的数据清洗方法有效

专利信息
申请号: 202110382370.6 申请日: 2021-04-09
公开(公告)号: CN113033694B 公开(公告)日: 2023-04-07
发明(设计)人: 程敏;尹帅 申请(专利权)人: 深圳亿嘉和科技研发有限公司
主分类号: G06V10/72 分类号: G06V10/72;G06V10/774;G06V10/764;G06V10/82
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 梁天彦
地址: 518052 广东省深圳市南山区粤海街道大冲社区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 数据 清洗 方法
【说明书】:

发明公开了一种基于深度学习的数据清洗方法,包括步骤:(1)获取原始图像数据集,等分成若干子集并分别构建相应的图像分类模型;(2)采用各个图像分类模型对原始图像数据集中每个图像进行类别预测,得到相应的类别及其分数,并计算得到相应的类别预测分数的标准差,并确定其是否为正常图像数据集;(3)以正常图像数据集作为基准图像数据集构建基准模型,并计算该基准模型的基准分类准确率;(4)从异常图像数据集中选取正常图像数据集;(5)将所有的正常图像数据集的图像汇总,得到有效图像集合。本发明相对于人工方法,数据清洗效率有一定的提高,数据清洗的质量也有一定的保证,同时也丰富了现有的图像自动化清洗方法。

技术领域

本发明涉及图像处理领域,尤其涉及一种基于深度学习的数据清洗方法。

背景技术

在深度学习研究中,往往需要大量的带标签的样本数据进行模型训练,再通过训练好的模型来对无标签的数据进行预测。例如图像分类,顾名思义,是指输入一张图像,输出一个已知的混合类别中的一个标签,基于深度学习算法的图像分类模型,往往会输出多个标签的类别概率,也就是预测分数,然后取其中分数最大的那一类标签为最终预测类别。这样训练样本的数量和质量直接决定了模型预测的准确度。

然而大规模、高质量的图像数据往往很难从现实生活中去获取,很多时候只能借助于互联网去获取原始数据,再对获取到的数据进行清洗和处理。但是网络上的数据参差不齐,质量无法保证,有可能存在图像类别标记错误,或者图像主题不突出,水印文字噪声过多等问题,不适合直接作为样本数据来对深度学习模型进行训练和测试,故需要对原始数据进行清洗,过滤掉其中的“脏”数据,提升训练和测试数据的质量。

目前已有的图像数据清洗方法中,主要包括统计法、人工检测、关联聚合等操作,对数据集中类别数过少、模糊、重复、或带有大量噪声的图像类数据直接进行删除。人工检测是最普遍的图像筛选方法,其优势在于精度高,不易误删除,缺点在于需要消耗大量的人力成本,速度较慢,当面对海量的图像数据时,图像清洗的效率比较低。另外,也有通过算法来自动化的对低质量的图像数据进行筛选,例如计算图像的相似度,将相似度较高的图像筛选出来,过滤掉重复的数据,或者利用已经预训练好的模型来对原始图像进行分类预测,对分类精度较低的图像直接进行剔除,以达到数据清洗的目的。但是这些基于算法的清洗方法也存在一定的问题,当算法或者模型的稳定性或鲁棒性不够高的时候,容易将正常样本的类别预测成错误的类别,或者类别预测正确但是预测的分数较低,会将原始数据直接给删除掉,造成有效数据的误删,或者由于模型误分类导致无效数据被保留,最终导致数据清洗效果不理想。

发明内容

发明目的:本发明针对上述不足,提出了一种基于深度学习的数据清洗方法,基于深度学习图像分类算法进行迭代式模型训练、预测,并利用预测类别分数的标准差作为图像初次筛选的依据,重复多次,最终剔除掉标准差超过一定阈值,并且对图像分类模型准确率提升没有帮助的样本数据,以此来达到数据清洗的目的。

技术方案:

一种基于深度学习的数据清洗方法,包括步骤:

(1)获取不同类别的原始图像数据形成原始图像数据集,等分成若干子集,并分别以各个子集构建相应的图像分类模型;

(2)采用步骤(1)得到的各个图像分类模型对原始图像数据集中每个图像进行类别预测,分别得到相应类别及其分数,并计算得到相应图像分类模型的类别预测分数的标准差,并将其与设定阈值比对,若小于设定阈值,则该图像分类模型所对应的子集定义为正常图像数据集,否则定义为异常图像数据集;其中相应类别的分数表示图像分类模型对某一图像的类别预测为该类别的概率;

(3)以步骤(2)得到的正常图像数据集作为基准图像数据集,并按照简单随机抽样的方式生成训练集和检验集,基于深度学习的图像分类算法通过训练集训练得到相应的图像分类模型作为基准模型,并通过检验集计算该基准图像分类模型的分类准确率作为基准分类准确率;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳亿嘉和科技研发有限公司,未经深圳亿嘉和科技研发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110382370.6/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top