[发明专利]一种基于改进的SMOTE算法的不平衡数据处理方法在审
| 申请号: | 202010832796.2 | 申请日: | 2020-08-18 |
| 公开(公告)号: | CN111967520A | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 王国涛;吕冰泽;孙志刚;梁晓雯;燕会臻 | 申请(专利权)人: | 黑龙江大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 刘强 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 改进 smote 算法 不平衡 数据处理 方法 | ||
一种基于改进的SMOTE算法的不平衡数据处理方法,涉及机器学习技术领域,针对现有不平衡数据集处理方法中由于不能够避免处理过程中产生噪声数据样本,并且可能使新生成的数据样本分布在原数据集中的少数数据样本的中心,进而导致分类效果差的问题。本发明使用支持向量机和K‑means算法的结合去除数据集中的噪声数据,通过限制样本生成范围的半径,即将样本点与近邻点之间生成数据,扩大到样本点与近邻点的连线和延长线上生成数据,提高了数据生成的质量,使分类效果更好。
技术领域
本发明涉及机器学习技术领域,具体为一种基于改进的SMOTE算法的不平衡数据处理方法。
背景技术
许多实际应用领域都存在数据集不平衡的问题,例如异常检测、医学诊断或人脸识别等。数据的不平衡会削弱分类算法的判断能力,因为算法在分类过程中追求的是整体的分类精度。为了解决数据集分类时不平衡的问题,研究人员在数据和算法层面进行改进。数据层面的改进方法是从数据本身出发,通过复制或删除样本的方法使数据集中各类别样本数量达到平衡。而算法层面的改进方法主要是引入其他算法,如代价敏感学习方法。
重采样技术就是在数据层面来解决数据不平衡问题的方法,主要有多数类样本欠采样和少数类样本过采样两种方式,达到删除或者增加样本使两类别样本集在数量上达到平衡的目的。其中,随机对多数样本删除使两类别样本数量趋于平衡的方法为欠采样;通过复制少数类样本增加其数目达到与多数类样本数量相同的方法为过采样。并由此衍生出一种混合采样的方式,即将过采样和欠采样算法结合使用,最终使两类样本数据数量达到平衡。
代价敏感学习是在算法层面对数据不平衡问题的解决方法。代价敏感学习的主要思想是将代价惩罚加到学习过程中去,通常是给少数样本一个较大的惩罚,使其在学习过程中受到更大的重视。虽然这可以提高少数类分类的准确率,但在实际应用中仍然存在一些问题。首先,在实际应用中,需要给每个类别设定的错分代价应该是不同的,这需要一定的先验知识,才能保证每个类别设定的权值能够很好的代表本类别的错分代价。但在现实中,权值的设定并不容易。其次,一些分类器不能直接使用该学习方法,需要通过一些策略间接实现,所以代价敏感学习不具有普遍应用性。
SMOTE算法虽然在一定程度上可以避免过拟合问题,但仍存在以下缺点:一是样本中若有偏离点或者噪声,对这些样本进行插值时,生成的样本质量会比较差,而且可能引入新的噪声,不利于数据分类;二是算法生成的新样本可能会分布于原始数据分布的边缘,导致样本之间分界线不易区分;三是新样本仅仅在两个样本之间生成,样本生成区域范围小,容易导致过拟合现象产生。
鉴于SMOTE算法还存在一些弊端,为了使算法能有效处理不平衡数据集,很多科研人员都对SMOTE算法进行了一定程度的改进。经文献检索发现,改进的Cluster-SMOTE算法先使用K-means算法对少数类聚类,然后再对少数类使用SMOTE算法。但该方法主要目标是在少数类簇内生成新的样本,但是并没有明确如何确定最佳簇数,也没有指定每个簇内生成多少个样本。Santos等提出CB-SMOTE算法,使新生成样本的类别由该样本和其最近邻样本的类别共同决定。Sharma等证明了当只有少数类样本时,SMOTE算法性能表现不佳,进而提出了一种新的过采样方法,称为“通过多数进行采样(SWIM)”,该方法利用多数类样本的分布来生成面向分布的少数类样本。为了避免产生噪声,相关文献提出在应用SMOTE算法之前,使用CURE算法清除异常值的数据的名为CURE-SMOTE的方法,这种方法虽然避免了噪声的产生,但忽略了少数类样本内部可能的不平衡。董燕杰提出Random-SMOTE算法,由样本点与其两个近邻样本点构成的三角区域内插值,使样本生成的范围扩大,但算法运算过程相对复杂。刘东启通过复合使用SVM算法,并将不同错分代价和自适应合成采样算法结合后,对数据集不平衡问题分隔超平面的平移现象进行了改善。曹正凤提出了C-SMOTE算法,在正类样本中心生成新样本,克服了SMOTE算法在数据生成时随机化的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江大学,未经黑龙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010832796.2/2.html,转载请声明来源钻瓜专利网。





