[发明专利]一种基于改进的SMOTE算法的不平衡数据处理方法在审

申请号：	202010832796.2	申请日：	2020-08-18
公开（公告）号：	CN111967520A	公开（公告）日：	2020-11-20
发明（设计）人：	王国涛;吕冰泽;孙志刚;梁晓雯;燕会臻	申请（专利权）人：	黑龙江大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	刘强
地址：	150080 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进 smote 算法不平衡数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进的SMOTE算法的不平衡数据处理方法，其特征在于包括以下步骤：

步骤一：利用支持向量机算法对数据集进行初步分类，分离出错误分类的少数类样本，然后遍历错误分类样本中每个样本点，统计选定样本的K个近邻样本中的同类样本的数目K*，若K*为零，则该样本判定为噪声样本，将其删除；

步骤二：利用K-means聚类算法对去除噪声后的少数类样本进行聚类处理，得到少数类样本的中心点x_i，然后求得当前样本点到中心点x_i的欧几里得距离d，并计算所有距离的平均值d_mean，然后生成新样本，使生成的样本数量与原数据集中两类样本之间数量的差值相等后输出数据集；

生成新样本的具体步骤为：

步骤A：将平均距离d_mean与d之间的比例，记做M；

步骤B：统计少数类样本u_i的近邻样本的属性值，即近邻样本中同类样本的数量a，当同类样本的数量a大于近邻样本总数的一半时，则降低新样本生成的倍率，即M，当同类样本的数量a不大于近邻样本总数的一半时，则提高新样本生成的倍率；

步骤C：根据每个少类样本、少数类样本中心、欧式距离d及所有距离的平均值d_mean生成新样本。

2.根据权利要求1所述的一种基于改进的SMOTE算法的不平衡数据处理方法，其特征在于所述步骤C中生成新样本的公式为：

x_new＝u_i+rand(0，M)*(x_i-u_i)

其中，x_new为新生成的样本，u_i为每一个少数类样本，x_i是少数类样本中心，

rand(0，M)是在0到M之间生成的一个随机数。

3.根据权利要求2所述的一种基于改进的SMOTE算法的不平衡数据处理方法，其特征在于所述步骤二中使生成的样本数量与原数据集中两类样本之间数量的差值相等后输出数据集的具体步骤为：当新生成样本数量等于原数据集中两类样本之间数量的差值时，输出此时的数据集，当合成的新样本数量大于差值时，则在新生成的样本中去除新生成的边界样本，直到多数类和少数类的样本数量相等后，输出此时的数据集。

4.根据权利要求1所述的一种基于改进的SMOTE算法的不平衡数据处理方法，其特征在于所述K为5。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于黑龙江大学，未经黑龙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010832796.2/1.html，转载请声明来源钻瓜专利网。

上一篇：人脸影像处理方法和装置、存储介质和电子设备
下一篇：一种污水处理厂精确除磷加药系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于改进的SMOTE算法的不平衡数据处理方法在审

专利文献下载