[发明专利]一种不平衡数据的二阶段重采样方法在审
申请号: | 202111174986.0 | 申请日: | 2021-10-09 |
公开(公告)号: | CN114077864A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 朱波;刘宁;徐淼;陈春梅;李岫宸 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 天津三元专利商标代理有限责任公司 12203 | 代理人: | 胡畹华 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不平衡 数据 阶段 采样 方法 | ||
本发明公开了一种不平衡数据的二阶段重采样方法具体步骤为:首先采用SMOTEENN方法增加少数类样本数量使数据集趋于平衡。然后引入SMOTEENN采样后的正类样本及标签作为生成网络的输入,使得CGAN在训练过程中可以充分学习到正类样本的分布特征。随后基于CGAN中的生成网络对少数类样本进行扩增合成新的平衡数据集。将提出的方法应用于多个共享的标准不平衡数据集分类实验,实验结果表明,与其他经典不平衡数据集处理方法相比,本发明所生成的样本分布更加合理,在分类器上表现性能更具优势。
技术领域
本发明属于机器学习中不平衡数据集的分类方法技术领域,涉及一种基于条件生成对抗网络和SMOTEENN的不平衡数据分类预处理方法。
背景技术
机器学习作为人工智能领域的核心技术,被广泛应用于大数据分析,通过对海量复杂数据建立分类或回归模型,从中学到有价值的信息和规律。传统分类方法通常建立在一个基本假设之下,即数据集中各类别样本数一致或相当且错分代价等同。然而,在实际应用场景中能够采集到的数据往往存在数据不平衡问题,在数据不平衡条件下,以整体分类精度作为优化目标的传统分类学习方法会使学习出的模型对多数类样本产生偏向性,容易将少数类样本误判为多数类,故而难以保证少数类样本的分类精度。事实上,在多数情况下,少数类所包含的信息更受关注,误判的代价也更大。
目前,国内外学者主要从数据预处理、算法改进、或两者结合的途径来解决分类中的数据不平衡问题。数据预处理主要通过扩增少数类样本或缩减多数类样本来降低或消除类别间的数据不平衡性;算法改进主要通过在传统分类模型中引入代价敏感系数进行加权来降低模型对多数类的偏向性,达到提高少数类识别精度的目的。数据预处理与算法改进结合是将两种途径混合起来使用。
鉴于数据预处理途径解决数据不平衡问题具有对分类模型的广泛适用性,本发明主要关注相关数据预处理方法。在数据预处理方面,现有的方法大多是基于随机采样和SMOTE方法的相关改进方法,这些数据预处理方法虽然都考虑了从少数类样本邻域出发进行过采样,确保新生成样本跟原始少数类样本的相似性,但并没有从数据中充分挖掘分布信息,使得生成的新样本不能很好还原少数类的分布特性,不利于分类,而且依然难以避免样本重叠问题。
近年来,机器学习方法为挖掘数据分布信息构造更有价值的新样本提供了新的途径。其中,Goodfellow等人于2014年提出的生成对抗网络(generative adversarialnetworks,GAN)尤其引人关注。生成对抗网络能够在不依赖任何先验假设的情况下实现对复杂数据分布信息的学习,生成能还原原始数据分布的高质量样本,对不平衡数据的处理十分有利。
但由于GAN模型过于自由,在训练过程中难以达到稳定,容易出现梯度消失和模型崩溃的问题,并且GAN模型一次只能学习一类数据的分布信息,对于含有多个类别的不平衡数据集,需要依次对不同类别的数据进行训练学习。条件生成对抗网络(conditionalgenerative adversarial networks,CGAN)在GAN的基础上增加一个外部标签信息用以指导生成网络生成指定类别的数据,在一定程度上解决了GAN存在的问题。
然而,基于CGAN处理不平衡数据也存在明显不足,主要反映在CGAN在博弈训练的过程中需要带标签的样本达到一定数量才能有效学习数据分布特性。所以,对于少数类样本数量较少或者不平衡率较高的不平衡数据集,条件生成对抗网络将很难学习到少数类样本的分布特征,从而造成过采样生成的少数类样本质量欠佳。
发明内容
本发明的目的是:针对传统采样方法在构建平衡数据集时往往会产生较多的重叠样本,而处理不平衡数据更具优势的CGAN时常会因为正类样本数量的限制不能充分学习其分布特征难以生成高质量的合成样本,提出了一种不平衡数据的二阶段重采样方法。
本发明的目的可以通过采取如下技术方法达到:
一种不平衡数据的二阶段重采样方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111174986.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置