[发明专利]一种图像数据的噪声识别方法在审
申请号: | 202210263129.6 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114549911A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 袁春;王子啸 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06K9/62;G06N3/04 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 王震宇 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 数据 噪声 识别 方法 | ||
一种图像数据的噪声识别方法,包括如下步骤:S1、在基于神经网络的噪声学习中,使用高斯混合分布模型,将待检测样本的损失值与最大非目标概率作为训练动态来联合建模;其中,所述最大非目标概率是指,样本经过神经网络后输出的各分类鉴别概率中,除目标类概率以外最大的概率;S2、使用训练好的神经网络模型计算待检测样本的损失值与最大非目标概率,用计算出的损失值和最大非目标概率拟合高斯混合分布模型,并输出待检测样本属于干净样本和噪声样本的概率;根据概率将待检测样本划分为干净样本或噪声样本。本发明同时考虑了样本与本类中心的距离信息以及与其他类中心的混淆信息,有效分离了困难样本与噪声样本,提高了噪声检测的准确率。
技术领域
本发明涉及图像识别,特别是涉及图像分类任务中的噪声识别方法。
背景技术
缩略语和术语:
带噪学习:这个任务是指在包含噪声标记的数据集上,如何学得一个高性能的模型。深度神经网络的训练通常需要大量的干净样本,但在实际应用场景下,获取大规模、高质量的干净标签面临着标记成本高、时间开销大、标注质量低等问题。例如,在众包场景下,公司通常会请数名标注者对海量的未标记样本进行标注,但由于不同标注者的标注能力参差不齐以及错误标注等,导致在大量的标注花费、时间开销下得到一个带噪声标记的数据集。此外,通过在互联网上进行关键词搜索获取样本是一个低成本的方式,但得到的数据集同样包含着大量的噪声样本。因此,带噪学习成为实际应用场景下越来越重要的值得研究的课题。
噪声识别方法:噪声识别方法是指使用一些指标或通过模型、样本本身的信息来对有噪声样本的数据集进行筛选,将潜在噪声样本从训练集移除得到相对干净的数据集,随后使用该数据集训练模型。
解决在有噪声数据中学习挑战的方法可大致分为两类。一类是在噪声标签存在的情况下直接训练鲁棒模型,这类方法通常通过设计对标签噪声鲁棒的网络结构或引入对噪声鲁棒的损失函数来减少对噪声样本过拟合所带来的负面影响;另一类方法是去检测数据集中的潜在噪声样本,它首先会检测出训练集中的潜在噪声样本并将其从训练集移除,随后使用筛选后的训练集进行模型训练。在实际应用情况下,后者在工业界更有实际意义,因为它不仅学得了一个鲁棒的深度学习模型,更提供了一个相对干净的数据集。在噪声标签检测方向上,有一类方法是基于这个原理:在训练过程中干净与噪声样本具有的相异的训练动态。根据训练过程中不同样本的训练动态的不同,可以区分筛选噪声样本。
基于损失值来识别噪声的方法有[1][2][3]。[1]用一维高斯混合分布模型来建模损失值的分布并检测噪声样本。[2]用一维贝塔(β)混合模型来建模损失值的分布并检测噪声样本。[3]为损失值设定一个动态的阈值,来分离干净与噪声样本。
[1]Li,J.;Socher,R.;and Hoi,S.C.2019.DivideMix:Learning with NoisyLabels as Semi-supervised Learning.In ICLR.
[2]Arazo,E.;Ortego,D.;Albert,P.;O’Connor,N.;and Mcguinness,K.2019.Unsupervised Label Noise Modeling and Loss Correction.In ICML.
[3]Han,B.;Yao,Q.;Yu,X.;Niu,G.;Xu,M.;Hu,W.;Tsang,I.;and Sugiyama,M.2018.Co-teaching:Robust training of deep neural networks with extremelynoisy labels.In NeurIPS.
在图像场景下,在基于损失的训练动态检测噪声样本时,由于样本损失分布存在重叠,干净样本中存在困难样本,导致检测准确率下降。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210263129.6/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置