[发明专利]一种基于Adaboost和欠采样的不平衡学习方法在审
| 申请号: | 201811125231.X | 申请日: | 2018-09-26 |
| 公开(公告)号: | CN109447118A | 公开(公告)日: | 2019-03-08 |
| 发明(设计)人: | 邓晓衡;陈凌驰;钟维坚;吴佳琪 | 申请(专利权)人: | 中南大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 叶碧莲 |
| 地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 弱分类器 欠采样 动态变化 分类问题 集成学习 数据分布 分类器 还原度 训练集 采样 学习 组装 捕捉 分类 缓解 改进 | ||
本发明涉及一种基于Adaboost和欠采样的不平衡学习方法,通过改进Adaboost算法捕捉数据分布动态变化,并基于Adaboost的集成学习为同一训练集训练不同的弱分类器,然后组装这些弱分类器以形成强大的最终分类器,采样还原度高的不平衡学习方法,来缓解不平衡带来的分类问题。有效提高了少数类的分类精度,具有实际社会、经济、技术价值。
技术领域
本发明涉及不平衡数据的机器学习技术领域,特别涉及一种基于Adaboost和欠采样的不平衡学习方法。
背景技术
不平衡的分类的机器学习被应用到越来越广泛的现实领域,在不平衡数据的分类问题中,一类中的数据规模远远超过另一类,即多数类和少数类。例如:异常检测、故障诊断、电子邮件归档、人脸识别、欺诈检测等实际应用中,异常数据、故障数据、诈骗数据等远少于其他类样本的一类数据就属于少数类,对人们有价值的数据通常是少数类,这些少数类的错分代价往往非常大,有效提高少数类的分类精度具有实际社会、经济、技术价值。当前大多数机器学习方法都是为处理平衡数据集而设计的。以准确率为导向的学习过程将缺乏对少数类的关注。因此,模型很容易将少数人预测为错误的类别。
目前,人们也提出许多方法来解决不平衡分类问题。Galar等人系统地将现有工作分为四类:数据级方法,成本敏感型方法,算法级方法和集成学习方法。数据级方法通过基于特征空间中最近邻居的过采样或欠采样将不平衡数据转换为平衡数据;成本敏感学习调整传统方法的初始权重,以更多地关注少数人;算法级方法直接修改现有的学习算法,以减轻对多数对象的偏见;最后,集合方法将采样或其他技术与传统的集合方法(如bagging或boosting)相结合,这种方法对于困难的数据具有高度竞争性和鲁棒性。
综上,不平衡数据集的传统机器学习方法的难点在于:少数类相比多数类的绝对数量劣势,使它不能完整学习少数类的分布。如果数据集中存在子集群,则聚类是学习此类特征的典型可行方法。
发明内容
本发明的目的在于提供一种基于Adaboost和欠采样的不平衡学习方法,改进Adaboost算法捕捉数据分布动态变化,并且采样还原度高的不平衡学习方法。
为实现上述目的,本发明提供技术方案如下:
一种基于Adaboost和欠采样的不平衡学习方法,包括如下步骤:
S1.获取二分类问题的原始数据;
S2.对原始数据按策略给多数类和少数类样本分配权重Wi:
Smaj表示多数类,Smin表示少数类,R的取值为大于2的自然数。
S3.并将步骤S2得到数据输入Adaboost第一个分类器进行学习;所述的分类器采取为CART决策树;
S4.对步骤S3中的学习结果,根据多数类样本的权重,对多数类进行聚类并欠采样,将欠采样到的多数类和少数类一起输入到下一个分类器进行学习:
S4.1.对多数类进行聚类:
S4.1.1.初始化簇的集合C={C1},C1为所有多数类样本;设置集合C的最大可包含的簇的数目为M;
S4.1.2.首先判断集合C的大小是否小于M:
a.如果集合C的大小小于M,按照权重大小将集合C中的簇进行排序,然后按照权重大小值遍历每一个簇,找到一个权重值使得scv最小,如果scv<cv,将簇c分割成两个新的子簇,加入集合C:其中
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811125231.X/2.html,转载请声明来源钻瓜专利网。





