[发明专利]噪声标签纠正方法有效
申请号: | 201910562002.2 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110363228B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 徐建;余孟池;张静 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱宝庆 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 噪声 标签 纠正 方法 | ||
本发明提供了一种噪声标签重标注方法,包括以下步骤:步骤1,利用基分类器对观测样本进行分类并估计噪声率,识别出噪声标签数据;步骤2,利用基分类器对噪声标签样本进行重新标注,得到噪声标签样本被修正后的干净样本数据集。
技术领域
本发明涉及一种数据挖掘技术,特别是一种噪声标签纠正方法。
背景技术
传统的监督学习分类问题通常假设数据集的标签是完整的,即每个数据集样本都存在无噪声的正确标签。然而在现实世界中,由于标签标注过程的随机性,样本标签很容易被噪声污染导致样本标签的不准确。噪声数据的产生通常和数据集的获取途径有关。例如,在对原始数据标注过程中,提供给标注人员的样本数据信息量不够导致标注人员将样本错误分类,又或者由于分类过程本身就是一个主观过程或是标注人员专业知识不足以保证分类的正确性。目前流行的各种数据标注平台也是噪声数据的来源之一,这些标注平台利用广大注册用户实现众包式的数据标注工作。例如Amazon的Amazon Mechanical Turk、数据堂、京东微工等数据服务平台。而这种途径得到的数据集由于标注者的专业性限制或个人差异导致得到的数据标签并不是完全符合真实情况,而且不同标注者对同一样本的看法可能不同从而导致同种样本有不同标签结果。数据集中的噪声可以根据噪声产生的位置分为特征噪声和标签噪声,一般标签中的噪声要比特征中的噪声对模型性能的影响更大(Mirylenka K,Giannakopoulos G,Do L M,et al.On classifier behavior in thepresence of mislabeling noise[J].Data Mining and Knowledge Discovery,2017)。在二元分类中,根据正例数据集和负例数据集中噪声分布的特征提出了PU(Positive-unlabeled)学习问题(Khetan A,Lipton Z C,Anandkumar A.Learning From NoisySingly-labeled Data[J].2017)。PU学习表示数据集中只有一部分正例训练样本有标签而其它样本都不带标签的一种二元分类任务。针对PU学习问题可以将所有未标注样本当作负例样本。这样PU学习问题就转化为带噪声的二元分类问题。噪声标签数据的存在不仅会对分类器模型的分类准确性产生严重的负面影响,同时也会增加分类器的复杂度。因此设计适应噪声标签数据的分类学习算法具有重要的研究意义和应用价值。
对于含有噪声标签的分类问题,Frénay,B归纳总结出了多种解决策略,包括噪声清理算法,噪声标签鲁棒方法和噪声标签模型化方法(Frenay B,VerleysenM.Classification in the Presence of Label Noise:A Survey[J].IEEE Transactionson Neural Networks and Learning Systems,2014)。噪声标签鲁棒方法使用模型自身对噪声的适应能力,不同模型对标签噪声的敏感度不同。需要选择对标签噪声不敏感的分类器进行学习。例如在二元分类的经验风险最小化问题中,使用损失函数衡量错误分类的损失,通过最小化样本的最小损失学习分类器。常见的损失有0-1损失。对于均匀标签噪声,0-1损失和最小平方损失是抗噪声标签的。而对于其他的损失函数即使在均匀噪声分布情况下也不是抗噪声标签的,如1)指数损失2)对数损失3)hinge损失。机器学习中的大多数学习算法都不完全是抗噪声标签的,并且只在训练数据被少量标签噪声干扰时很有效。随着深度学习的发展,在图像分类问题中常使用神经网络解决噪声标签图像问题,例如Mnih提出将噪声模型并入神经网络,但其仅考虑二元分类,并且假定噪声属于对称标签噪声(MnihV,Hinton G.Learning to Label Aerial Images from Noisy Data[C]//InternationalConference on Machine Learning.2013)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910562002.2/2.html,转载请声明来源钻瓜专利网。