[发明专利]基于层次聚类和改进SMOTE的过采样方法在审
申请号: | 202010806035.X | 申请日: | 2020-08-12 |
公开(公告)号: | CN111931853A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 王鑫;杨悦;覃琴;卢雨琪 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层次 改进 smote 采样 方法 | ||
1.一种基于层次聚类和改进SMOTE的过采样方法,其特征在于,包括如下步骤:
1)划分少数类簇:采用AGNES算法对样本进行聚类,将数据集划分成类簇,包括:
1-1)给定原始数据集I,采用K近邻的思想过滤数据集I中的噪声样本,设定K=5,遍历I中的样本,若I中样本的K个近邻中超过4/5的样本为该选取样本的相反样本类别,则判定该样本为噪声样本,剔除该噪声样本,将剩下的样本点组成样本集合I′;
2-1)对样本集合I′中的多数类样本先进行聚类,将每个样本看成单独的类簇,采用公式(1)计算簇间距离,合并距离最近的两类簇,重复上述过程直到达到预设阈值Th,得到若干多数类簇集合
其中,x和y分别为类簇Ca和Cb中的样本点,|Ca|和|Cb|表示类簇中总的样本数目;
3-1)再根据得到的多数类簇集合划分少数类样本,同样将少数类样本看成一个个单独的类簇,得到少数类簇集合
4-1)由公式(1)计算两两少数簇间的距离,令Dmin=d(Ca,Cb)并记录下最小距离Dmin及对应的类簇编号a和b;
5-1)遍历多数类簇集合,找到多数簇满足到少数类簇和的距离均小于两少数类簇最小距离Dmin,将这些多数类簇加入集合B中;
6-1)如果则少数类簇和不进行合并,并将集合B中元素清空,否则,将少数类簇和合并成少数类簇则少数类簇集合A中将减少一个元素;
7-1)重新依据公式(1)计算集合A中少数类簇与剩余少数类簇间的距离,重复步骤3-1)至步骤6-1),直到距离最近的少数类簇间的欧式距离大于阈值Th,停止少数类簇的合并,得到最终的少数类簇集合
设置距离阈值Th,判断是否做类簇合并,先定义一个值distavg:
其中,xp和xq同为少数类簇中的样本点,为该类簇中总的样本数目,distavg表示某一少数类簇中两两样本的距离的中位距离总和的平均值,再定义阈值Th如公式(3)所示:
Th=distavg*f (3)
参数f用于调整聚类算法的输出;
2)确定采样权重和概率分布:根据少数类簇中样本数目分配不同的采样权重,记作W(i)如公式(4)所示:
其中,N表示少数类簇的总数,num(i)表示第i个少数类簇中的样本数目,由各类簇的采样权重W(i)与剔除噪声样本后剩余的多数类样本与少数类样本的差额Nmaj-Nmin,可以确定每个少数类簇的采样数目num(i)如公式(5)所示:
num(i)=(Nmaj-Nmin)*W(i) (5)
引入少数类簇的概率分布,根据概率分布挑选难以学习的包含重要信息的少数类样本作为“种子样本”,每个样本被选中的概率设置为D(i)公式(6)所示:
少数类簇的概率分布为公式(7)所示:
其中,ya是x的第a个多数类样本近邻,1≤a≤k,表示少数类子簇中样本x与多类样本ya的欧式距离,i表示少数类簇中的某一样本,n表示某一少数类簇中的样本数目,k为近邻样本的数目,由公式(6)(7)可知,每个样本被选中的概率是依据该样本与多数类边界的距离所确定的,距离多数类边界越近的少数类样本被选择的概率高于距离较远的样本,再由每个样本被选中的概率构成少数类簇的概率分布;
3)限制合成样本的生成区域:在进行样本合成时,在“种子样本”中随机选取一个样本,然后从该样本在同一少数类簇中的近邻少数类样本中再随机选择两个样本,将这三个样本组成一个三角形,样本本身作为三角形顶点,三个顶点分别到其质心的连线上随机生成一个样本,一个三角形产生3个合成样本,采用质心方式来限制样本点的生成区域,假设三个样本点分布为x1,x2,x3,该样本点生成质心区域计算如公式(8)所示:
其中,xi代表三个顶点横坐标,yi代表三个顶点纵坐标,在三个样本点到其质心的连线上合成新样本,再将合成样本添加到合成样本集中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010806035.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:业务类型识别方法及装置
- 下一篇:一种印刷包装行业用的装订机