[发明专利]一种基于改进的SMOTE算法的不平衡数据处理方法在审
| 申请号: | 202010832796.2 | 申请日: | 2020-08-18 |
| 公开(公告)号: | CN111967520A | 公开(公告)日: | 2020-11-20 |
| 发明(设计)人: | 王国涛;吕冰泽;孙志刚;梁晓雯;燕会臻 | 申请(专利权)人: | 黑龙江大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 刘强 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 改进 smote 算法 不平衡 数据处理 方法 | ||
1.一种基于改进的SMOTE算法的不平衡数据处理方法,其特征在于包括以下步骤:
步骤一:利用支持向量机算法对数据集进行初步分类,分离出错误分类的少数类样本,然后遍历错误分类样本中每个样本点,统计选定样本的K个近邻样本中的同类样本的数目K*,若K*为零,则该样本判定为噪声样本,将其删除;
步骤二:利用K-means聚类算法对去除噪声后的少数类样本进行聚类处理,得到少数类样本的中心点xi,然后求得当前样本点到中心点xi的欧几里得距离d,并计算所有距离的平均值dmean,然后生成新样本,使生成的样本数量与原数据集中两类样本之间数量的差值相等后输出数据集;
生成新样本的具体步骤为:
步骤A:将平均距离dmean与d之间的比例,记做M;
步骤B:统计少数类样本ui的近邻样本的属性值,即近邻样本中同类样本的数量a,当同类样本的数量a大于近邻样本总数的一半时,则降低新样本生成的倍率,即M,当同类样本的数量a不大于近邻样本总数的一半时,则提高新样本生成的倍率;
步骤C:根据每个少类样本、少数类样本中心、欧式距离d及所有距离的平均值dmean生成新样本。
2.根据权利要求1所述的一种基于改进的SMOTE算法的不平衡数据处理方法,其特征在于所述步骤C中生成新样本的公式为:
xnew=ui+rand(0,M)*(xi-ui)
其中,xnew为新生成的样本,ui为每一个少数类样本,xi是少数类样本中心,
rand(0,M)是在0到M之间生成的一个随机数。
3.根据权利要求2所述的一种基于改进的SMOTE算法的不平衡数据处理方法,其特征在于所述步骤二中使生成的样本数量与原数据集中两类样本之间数量的差值相等后输出数据集的具体步骤为:当新生成样本数量等于原数据集中两类样本之间数量的差值时,输出此时的数据集,当合成的新样本数量大于差值时,则在新生成的样本中去除新生成的边界样本,直到多数类和少数类的样本数量相等后,输出此时的数据集。
4.根据权利要求1所述的一种基于改进的SMOTE算法的不平衡数据处理方法,其特征在于所述K为5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江大学,未经黑龙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010832796.2/1.html,转载请声明来源钻瓜专利网。





