[发明专利]不平衡数据的分类方法在审

专利信息
申请号: 201810203520.0 申请日: 2018-03-13
公开(公告)号: CN108460421A 公开(公告)日: 2018-08-28
发明(设计)人: 邓晓衡;吴佳祺;漆华妹;钟维坚;陈凌驰 申请(专利权)人: 中南大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 长沙永星专利商标事务所(普通合伙) 43001 代理人: 周咏;米中业
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 样本 分类 权重 样本集合 敏感度 数据集 集成分类器 弱分类器 数据分类 数据样本 子集分割 初始化 分类器 信息熵 聚类 子集 抽取 输出 分裂 更新
【说明书】:

发明公开了一种不平衡数据的分类方法,包括获取需要分类的不平衡数据集;对数据样本权重进行初始化;抽取若干个样本构成代价敏感度高的样本集合并设置代价值;构成代价敏感度低的样本集合并设置代价值;采用基本分类器在样本上进行训练得到弱分类器;更新所有样本的权重值;对不平衡数据集的所有子集进行分裂和权重值更新;输出最终的集成分类器,完成不平衡数据分类。本发明提供的这种不平衡数据的分类方法提出了一种基于信息熵的子集分割方式来将多数类样本进行聚类,具有更高的分类精确度。

技术领域

本发明具体涉及一种不平衡数据的分类方法。

背景技术

随着人类互联网技术的不断发展,不平衡数据处理成为了一个极具挑战性的问题。越来越多的噪声数据和复杂的数据发布存在于很多实际应用中。比如医疗诊断,文本分类以及卫星雷达对原油泄漏的检测。在这些应用中,正样本数量远小于负样本,但往往在分类中扮演重要地位。例如,在交通事故数据中,造成事故的男性驾驶员占绝大多数,而女性驾驶员的数量通常要小很多。但在分析交通事故成因时,他们占同样的重要地位。如果不平衡数据集得不到很好的处理,少数类数据很容易被忽略,甚至直接被当做噪声处理掉。

针对不平衡数据分类问题,研究者进行了大量研究,提出了许多解决方案。大致可以分为二种方法。

第一种方法是基于数据层的分类方法。基于数据层的分类方法分为欠采样和SMOTE方法。欠采样方法按照一定的抽样规则和抽样比例抽取多数类样本(负样本),将剩余的多数类样本与少数类样本结合形成新的平衡数据集。SMOTE采用过采样方法,该方法按照一定规则人工合成一定比例的少数类样本,与多数类样本组成平衡数据集。但是欠采样方法在去掉一部分多数类样本的同时会丢失相应的样本信息,同时SMOTE方法人工合成的少数类样本也不能很好的代表其样本特征,并可能会导致过拟合。

第二种方法是代价敏感学习方法。代价敏感学习方法是基于算法层的学习方法。它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。在不平衡数据集处理中,通过加大分类错误的少数类样本的权重增加力度,减缓分正确的少数类样本的权重减少,来提高错分的少数类样本的被识别率。但是代价敏感学习方法可能会增加一些噪声数据,并在调整样本权重时造成信息丢失。

发明内容

本发明的目的在于提供一种对于不平衡数据能够提高其分类准确率的不平衡数据的分类方法。

本发明提供的这种不平衡数据的分类方法,包括如下步骤:

S1.获取需要分类的不平衡数据集;

S2.对步骤S1获取的不平衡数据集中的数据样本权重进行初始化;

S3.从不平衡数据集的各个子集中抽取若干个样本,和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置代价敏感度高的样本集合中每一个样本的代价值;

S4.将没有被抽取的样本集构成代价敏感度低的样本集合,并设置代价敏感度低的样本集合中每一个样本的代价值;

S5.采用事先选定的弱分类算法作为基本分类器,在步骤S3和步骤S4得到的样本上进行训练,从而得到一个弱分类器;

S6.根据步骤S5得到的弱分类器,更新所有样本的权重值;

S7.对不平衡数据集的所有子集进行分裂和权重值的更新;

S8.输出最终的集成分类器,从而完成不平衡数据的分类。

步骤S2所述的对不平衡数据集中的数据样本权重进行初始化,具体为设置簇分裂的步数和簇的最大数量,并将不平衡数据集中的每一个数据样本权重值均设置为1/N,N为不平衡数据集中数据样本的个数。

步骤S3所述的抽取样本构成代价敏感度高的样本集合并设置代价值,具体为采用如下步骤构成集合并设置代价值:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810203520.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top