[发明专利]不平衡数据的分类方法在审
申请号: | 201810203520.0 | 申请日: | 2018-03-13 |
公开(公告)号: | CN108460421A | 公开(公告)日: | 2018-08-28 |
发明(设计)人: | 邓晓衡;吴佳祺;漆华妹;钟维坚;陈凌驰 | 申请(专利权)人: | 中南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 分类 权重 样本集合 敏感度 数据集 集成分类器 弱分类器 数据分类 数据样本 子集分割 初始化 分类器 信息熵 聚类 子集 抽取 输出 分裂 更新 | ||
1.一种不平衡数据的分类方法,包括如下步骤:
S1.获取需要分类的不平衡数据集;
S2.对步骤S1获取的不平衡数据集中的数据样本权重进行初始化;
S3.从不平衡数据集的各个子集中抽取若干个样本,和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置代价敏感度高的样本集合中每一个样本的代价值;
S4.将没有被抽取的样本集构成代价敏感度低的样本集合,并设置代价敏感度低的样本集合中每一个样本的代价值;
S5.采用事先选定的弱分类算法作为基本分类器,在步骤S3和步骤S4得到的样本上进行训练,从而得到一个弱分类器;
S6.根据步骤S5得到的弱分类器,更新所有样本的权重值;
S7.对不平衡数据集的所有子集进行分裂和权重值的更新;
S8.输出最终的集成分类器,从而完成不平衡数据的分类。
2.根据权利要求1所述的不平衡数据的分类方法,其特征在于步骤S2所述的对不平衡数据集中的数据样本权重进行初始化,具体为设置簇分裂的步数和簇的最大数量,并将不平衡数据集中的每一个数据样本权重值均设置为1/N,N为不平衡数据集中数据样本的个数。
3.根据权利要求2所述的不平衡数据的分类方法,其特征在于步骤S3所述的抽取样本构成代价敏感度高的样本集合并设置代价值,具体为采用如下步骤构成集合并设置代价值:
(1)从各个子集中抽取若干个样本,抽取样本的数量采用如下公式计算:
式中SNCj为抽取样本的数量,B为采样总数,wk为第j个子集中的样本权重,Cj为第j个子集,W为不平衡数据集中的多数类样本集合的权重总和,wi为不平衡数据集中的多数类样本集合的第i个数据样本的权重;
(2)步骤(1)中抽取的样本和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置每一个样本的代价值Ci。
4.根据权利要求3所述的不平衡数据的分类方法,其特征在于步骤(1)中所述的所述的抽取若干个样本,具体为在每个子集中采用Top-k算法进行样本的抽取,选取top-k个权重最大的样本点。
5.根据权利要求4所述的不平衡数据的分类方法,其特征在于步骤S5所述的得到一个弱分类器,具体为采用事先选定的弱分类算法作为基本分类器,根据步骤S3得到的代价敏感度高的样本集合S’和步骤S4得到的代价敏感度低的样本集合w’一起作为新的不平衡数据集,训练得到一个弱分类器ht。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810203520.0/1.html,转载请声明来源钻瓜专利网。