[发明专利]一种不平衡数据的二阶段重采样方法在审
申请号: | 202111174986.0 | 申请日: | 2021-10-09 |
公开(公告)号: | CN114077864A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 朱波;刘宁;徐淼;陈春梅;李岫宸 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 天津三元专利商标代理有限责任公司 12203 | 代理人: | 胡畹华 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不平衡 数据 阶段 采样 方法 | ||
1.一种不平衡数据的二阶段重采样方法,其特征在于,包括以下步骤:
步骤1:将数据归一化处理后的不平衡数据集S划分为训练集Strain和Stest,记训练集中少数类与多数类样本的数量为S0、S1,生成样本的数量add_num=S1-S0;
步骤2:采用SMOTEENN方法过采样处理原始不平衡数据集S,并记采样后的正类样本集为S2,正类样本标签为y0;
步骤3:基于正类样本集S2训练CGAN模型;
步骤4:保存生成网络模型,随机生成add_num个服从高斯分布PG,维度dz=100的噪声集合Z1,并将噪声集合Z1和样本标签一同作为生成网络的输入即可生成类似原始数据分布的add_num个正类样本;
步骤5:将生成的add_num个正类样本与原始训练集Strain合并即可得到平衡训练集Sn;
步骤6:基于平衡训练集训练分类器,并在测试集Stest上进行测试,得出样本集处理后的分类结果。
2.根据权利要求1所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述步骤1中数据进行归一化处理为将原始数据集中的数据按照比例缩放,使数据取值范围为[0,1]内,不平衡数据集S中的80%为训练集,20%为测试集。
3.根据权利要求1所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述步骤2中的SMOTEENN方法为SMOTE方法的改进,具体步骤为:
步骤2.1,对于每个少数类样本xi,根据欧式距离搜索每个少数类样本的k近邻;
步骤2.2,设置过采样率N,在k近邻样本中随机选择一个样本xj;生成一个0到1之间的随机数ε,在xi和xj之间随机线性插值合成新样本xnew=xi+ε*(xj-xi);
步骤2.3,根据采样率N重复步骤2.1和2.2生成指定数量合成样本xnew,并将其加入原始样本中;
步骤2.4:采用ENN算法对新样本集中的每个样本按照k近邻规则进行分类,若不能被正确分类,则将该样本从样本集中删除,待所有样本被分类完毕得到新的样本集。
4.根据权利要求1所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述步骤3中的基于正类样本集S2训练CGAN模型的具体过程为:
步骤3.1,随机生成Batch size个服从高斯分布PG,维度dz=100的噪声集合Z;
步骤3.2,从样本集S2中抽取Batch size个正类样本X;
步骤3.3,基于噪声Z、真实样本X和标签y0分别训练判别网络和生成网络,并根据优化目标计算二者的损失;
步骤3.4,循环训练判别网络和生成网络,直至判别网络的输出概率为0.5或者达到训练次数结束训练。
5.根据权利要求4所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述Batch size=32,条件生成对抗网络的目标优化函数为:
式中:x为真实样本输出;Pr为真实数据分布;Pz为输入噪声分布;E为数据期望;
G(z|y)表示生成网络的输出,D(x|y)为输入数据x为真实数据的概率,D(G(z|y))为输入数据G(z|y)为真实数据的概率。
6.根据权利要求5所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述生成网络和对抗网络的结构均采用全连接神经网络,隐含层神经元个数分别为128、256、512、1024,生成网络的各层级之间使用Droupout,判别网络各层级之间采用批标准化(BatchNormalization,BN)使梯度传播层次更深,加速模型收敛并减缓过拟合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111174986.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置