[发明专利]基于层次聚类和改进SMOTE的过采样方法在审
| 申请号: | 202010806035.X | 申请日: | 2020-08-12 |
| 公开(公告)号: | CN111931853A | 公开(公告)日: | 2020-11-13 |
| 发明(设计)人: | 王鑫;杨悦;覃琴;卢雨琪 | 申请(专利权)人: | 桂林电子科技大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
| 地址: | 541004 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 层次 改进 smote 采样 方法 | ||
本发明公开了一种基于层次聚类和改进SMOTE的过采样方法,其特征在于,包括如下步骤:1)划分少数类簇;2)确定采样权重和概率分布;3)限制合成样本的生成区域;这种方法在不平衡数据处理上,能降低噪音干扰、减少合成重叠样本,对容易错分的边缘样本加以选择,兼顾类内不平衡及生成样本点的分布,最终提升分类性能。
技术领域
本发明涉及不平衡数据的分类技术,具体是一种基于层次聚类和改进SMOTE的过采样方法。
背景技术
在现实生活中有很多不平衡数据的分类应用场景,如信用卡欺诈检测、信息检索和过滤、市场分析等场景。采用传统分类算法对不平衡数据进行分类,分类结果会倾向于多数类,出现分类失误的情况,数据集的不平衡状态又细分为两种:类间不平衡和类内不平衡,都会对模型性能造成影响。传统分类算法中过采样方法中存在合成样本重叠以及样本分布“边缘化”的问题也是分类性能下降的原因。因此如何改进传统算法解决数据集不平衡分类问题并提高分类性能是数据挖掘和机器学习的研究热点。
最常用的过采样方法是Chawla等2002年提出的SMOTE算法,算法思路是通过寻找样本的近邻集,在样本点与其近邻集随机选择的样本连线上合成新的样本点。Han Hui等人在2005年提出了Borderline-SMOTE算法,该算法将少数类样本分为边界区域、安全区域、危险区域,通过选择边界区域的样本点进行样本合成,避免了SMOTE不加区别地选择少数类样本而导致大量的冗余新样本的合成;He等人提出了ADASYN合成是根据数据分布自动确定每个少数类样本需要生成的样本数量,近邻多数类样本多的少数类样本生成更多的样本,相比于SMOTE,对样本分布进行了细致的划分;Cluster-SMOTE利用K-means算法对少数类样本进行聚类,找到少数类簇,然后分别应用SMOTE算法,但该方法没有确定最佳类簇个数且没有计算出每类簇该生成的样本数目;Kmeans-SMOTE将K-means聚类算法与SMOTE算法相结合,相比Cluster-SMOTE,Kmeans-SMOTE是对整个数据集进行聚类,发现重叠的类区域且避免在不安全区域中进行过度采样,并将合成样本限制在目标区域内,消除了类间和类内不平衡,同时避免了产生噪音样本,效果较好;CBSO将聚类与现有的合成过采样技术的数据生成机制相结合,确保生成的合成样本始终位于少数类区域,避免了错误样本的生成。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于层次聚类和改进SMOTE的过采样方法。这种方法在不平衡数据处理上,能降低噪音干扰、减少合成重叠样本,对容易错分的边缘样本加以选择,兼顾类内不平衡及生成样本点的分布,最终提升分类性能。
实现本发明目的的技术方案是:
一种基于层次聚类和改进SMOTE的过采样方法,包括如下步骤:
1)划分少数类簇:采用AGNES算法对样本进行聚类,将数据集划分成类簇,AGNES是一种层次聚类算法,该算法将每个样本点来看成一个类簇,然后将这些簇根据某种规则做合并,直到达到预设类簇个数或设定阈值,与传统质心方式聚合样本点的方法对比,AGNES算法可以不受样本点周围分布的形状限制,同时可以将特征空间范围不同的样本点聚合到一起,更好地解决类内不平衡问题,在确定类簇是否合并时采用平均距离计算方法,直到类簇间距离超过设定阈值,停止聚类,为了避免重叠样本的生成,还需要考虑多数类样本的分布,采用AGNES算法对少数类样本进行聚类前,先对多数类样本进行聚类,如果某一多数类簇到两少数类簇的距离小于两少数类簇的最小距离,则表明合并后的少数类簇合成样本时会产生重叠样本,不应该将两类簇做合并,包括:
1-1)给定原始数据集I,采用K近邻的思想过滤数据集I中的噪声样本,设定K=5,遍历I中的样本,若I中样本的K个近邻中超过4/5的样本为该选取样本的相反样本类别,则判定该样本为噪声样本,剔除该噪声样本,将剩下的样本点组成样本集合I′;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010806035.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:业务类型识别方法及装置
- 下一篇:一种印刷包装行业用的装订机





