[发明专利]一种不平衡数据的二阶段重采样方法在审

专利信息
申请号: 202111174986.0 申请日: 2021-10-09
公开(公告)号: CN114077864A 公开(公告)日: 2022-02-22
发明(设计)人: 朱波;刘宁;徐淼;陈春梅;李岫宸 申请(专利权)人: 昆明理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 天津三元专利商标代理有限责任公司 12203 代理人: 胡畹华
地址: 650500 云南*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 不平衡 数据 阶段 采样 方法
【权利要求书】:

1.一种不平衡数据的二阶段重采样方法,其特征在于,包括以下步骤:

步骤1:将数据归一化处理后的不平衡数据集S划分为训练集Strain和Stest,记训练集中少数类与多数类样本的数量为S0、S1,生成样本的数量add_num=S1-S0;

步骤2:采用SMOTEENN方法过采样处理原始不平衡数据集S,并记采样后的正类样本集为S2,正类样本标签为y0;

步骤3:基于正类样本集S2训练CGAN模型;

步骤4:保存生成网络模型,随机生成add_num个服从高斯分布PG,维度dz=100的噪声集合Z1,并将噪声集合Z1和样本标签一同作为生成网络的输入即可生成类似原始数据分布的add_num个正类样本;

步骤5:将生成的add_num个正类样本与原始训练集Strain合并即可得到平衡训练集Sn;

步骤6:基于平衡训练集训练分类器,并在测试集Stest上进行测试,得出样本集处理后的分类结果。

2.根据权利要求1所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述步骤1中数据进行归一化处理为将原始数据集中的数据按照比例缩放,使数据取值范围为[0,1]内,不平衡数据集S中的80%为训练集,20%为测试集。

3.根据权利要求1所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述步骤2中的SMOTEENN方法为SMOTE方法的改进,具体步骤为:

步骤2.1,对于每个少数类样本xi,根据欧式距离搜索每个少数类样本的k近邻;

步骤2.2,设置过采样率N,在k近邻样本中随机选择一个样本xj;生成一个0到1之间的随机数ε,在xi和xj之间随机线性插值合成新样本xnew=xi+ε*(xj-xi);

步骤2.3,根据采样率N重复步骤2.1和2.2生成指定数量合成样本xnew,并将其加入原始样本中;

步骤2.4:采用ENN算法对新样本集中的每个样本按照k近邻规则进行分类,若不能被正确分类,则将该样本从样本集中删除,待所有样本被分类完毕得到新的样本集。

4.根据权利要求1所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述步骤3中的基于正类样本集S2训练CGAN模型的具体过程为:

步骤3.1,随机生成Batch size个服从高斯分布PG,维度dz=100的噪声集合Z;

步骤3.2,从样本集S2中抽取Batch size个正类样本X;

步骤3.3,基于噪声Z、真实样本X和标签y0分别训练判别网络和生成网络,并根据优化目标计算二者的损失;

步骤3.4,循环训练判别网络和生成网络,直至判别网络的输出概率为0.5或者达到训练次数结束训练。

5.根据权利要求4所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述Batch size=32,条件生成对抗网络的目标优化函数为:

式中:x为真实样本输出;Pr为真实数据分布;Pz为输入噪声分布;E为数据期望;

G(z|y)表示生成网络的输出,D(x|y)为输入数据x为真实数据的概率,D(G(z|y))为输入数据G(z|y)为真实数据的概率。

6.根据权利要求5所述的一种不平衡数据的二阶段重采样方法,其特征在于,所述生成网络和对抗网络的结构均采用全连接神经网络,隐含层神经元个数分别为128、256、512、1024,生成网络的各层级之间使用Droupout,判别网络各层级之间采用批标准化(BatchNormalization,BN)使梯度传播层次更深,加速模型收敛并减缓过拟合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111174986.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top