[发明专利]基于元学习的标签噪声监测方法在审
| 申请号: | 202210357708.7 | 申请日: | 2022-04-06 |
| 公开(公告)号: | CN114897049A | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 高文飞;王辉;王瑞雪;王磊;郭丽丽 | 申请(专利权)人: | 济南融瓴科技发展有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
| 代理公司: | 深圳市广诺专利代理事务所(普通合伙) 44611 | 代理人: | 赵耀 |
| 地址: | 250000 山东省济南市中国(山东)自*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 学习 标签 噪声 监测 方法 | ||
本发明公开了基于元学习的标签噪声监测方法,包括以下步骤:分类器训练:首先对数据集进行数据处理,将数据集输入到分类器网络中,对于每一个样本,都保存下交叉熵损失产生的损失值和样本的特征向量;元网络训练:对元网络输入,对于每一个样本,本发明使用了元网络来生成权重,通过学习的方法减少了对阈值的依赖,这种学习的方法在应对不同标签噪声类型和不同程度的噪声比例时,能有更强的鲁棒性,扩展性更强;采用元学习的思想使训练不再依靠对神经网络记忆性的假设,而是有了更深的理论保证,样本带给分类器大幅度提升;借助一个数量很小、但标签完全正确的干净数据集,完成了对元学习器的有效更新。
技术领域
本发明涉及模型训练技术领域,具体为基于元学习的标签噪声监测方法。
背景技术
当前深度学习的成功很大程度上依赖大规模且高质量的标注数据。无论是在分类,还是目标检测、分割等领域,都需要精确详细的监督信息来帮助模型训练。大部分数据往往通过爬虫、众包等技术来获取,剩余领域性较强的数据往往需要该领域内的专家进行标注,比如医学图像等等。这就造成了一个进退两难的困境:前者对于标注数据的质量无法保证,而后者则需要较大的人工成本。看上去,训练数据的规模和完全准确的标签无法共存。因此,提供给模型训练的数据往往伴随着标签缺失或者标签携带噪声,这给模型训练带来了新的挑战。
传统方法中,使用固定阈值来直接对小批量的损失直接进行筛选,这造成三个问题:(1)阈值的设置对于噪声环境是十分敏感的,对阈值的调参往往要借助验证集和交叉验证的方法,这导致了该类型的方法在应对多样的噪声环境时表现出扩展性不够;(2)小损失的样本表示模型已经“学会了”该样本,假设模型从干净数据中获得加速度,已经学会的样本带给分类器的提升是很小的;(3)这种自步学习的方法对于样本选择的偏差是十分敏感的,它的有效性只通过神经网络的记忆效应来保证,即:干净的样本促进模型进步,而更加性能更加好的模型能选出更加干净的样本,这导致了一旦有较多噪声数据选入到训练数据中,就会破坏这个正向循环。为此,提出基于元学习的标签噪声监测方法。
发明内容
本发明的目的在于提供基于元学习的标签噪声监测方法,同时有效嵌入到了端到端的训练中,显著的提高了模型对于噪声数据的鲁棒性,以解决上述背景技术中提出应对多样的噪声环境时表现出扩展性不够;假设模型从干净数据中获得加速度,已经学会的样本带给分类器的提升是很小的;一旦有较多噪声数据选入到训练数据中,就会破坏正向循环的问题。
为实现上述目的,本发明提供如下技术方案:基于元学习的标签噪声监测方法,包括以下步骤:
S1、分类器训练:首先对数据集进行数据处理,将数据集输入到分类器网络中,对于每一个样本,都保存下交叉熵损失产生的损失值和样本的特征向量;
S2、元网络训练:对元网络输入,对于每一个样本,元网络能学会根据特征向量和损失值来生成一个权重,通过权重与阈值的比较,从而分离出干净样本和噪声样本;
S3、分类器更新:借助元网络生成的权重,可产生一个基于mini-batch 的mask,通过mask,继而实现对训练批次中的样本的筛选,用样本来更新网络;
S4、元网络更新:借助一个数量很少的干净样本集,通过这个干净样本集的监督作用,可以保证元网络的参数不受到噪声信号的影响,从而使得元网络对噪声标签做出正确的检测;
S5、模型输出:在完成端到端的训练之后,保存下两个网络的参数,此时分类器是足够鲁棒的,对于单个样本,元网络能根据图片的特征向量和损失值来判断该样本是否为噪声,实现了对标签噪声的检测。
优选的,S1中的样本的特征向量作为独立于标签的信息,不受噪声信息影响。
优选的,S2中将损失值和特征向量拼接在一起,一起输入到元网络中,元网络对每一个样本产生一个权重,可表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南融瓴科技发展有限公司,未经济南融瓴科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210357708.7/2.html,转载请声明来源钻瓜专利网。





