[发明专利]一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法在审
申请号: | 201810991730.0 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109063787A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 王颖;汝吉东 | 申请(专利权)人: | 齐齐哈尔大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 齐齐哈尔鹤城专利事务所 23207 | 代理人: | 刘丽 |
地址: | 161006 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 弱分类器 构建 分类结果 样本 集成分类 子集 计算机技术领域 集成分类器 分类样本 平衡数据 平衡子集 算法数据 样本聚类 样本子集 分类器 训练集 分类 算法 | ||
本发明公开了一种用于不平衡数据的基于X‑mean和样本错分类率集成分类方法,属于计算机技术领域。包含以下内容:采用X‑mean算法数据子集构建方法;弱分类器平衡数据子集构建;弱分类器构建;基于AdaBoost算法集成分类器构建。本发明根据相似性高的多数类样本聚类算法,提取具有代表性样本作为多数类样本子集,在AdaBoost算法框架下,弱分类器训练采用平衡子集和错分类样本共同作为下一弱分类器训练集,最后集成弱分类器分类结果作为最终分类结果,试验结果表明,通过此方法解决了类不平衡问题,提升了分类器分类结果。
技术领域
本发明属于计算机技术领域,具体涉及到一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法。
背景技术
在分类问题中,对于多类数据集中的各类别数据,总有一些数量相当少的类被称为“少数类”,而数量多的类则被称为“多数类”,具有这样数据集被称为类不平衡。在现实问题中,类不平衡问题在数据挖掘中比较常见,也是当前亟待研究问题之一,广泛存在于文本分类、信息搜索及过滤和生物医学等领域。少数类的错分代价是不可估量的,所以在实际问题中,提升数据挖掘技术少数类分类精度迫在眉睫。
在数据层面解决类不平衡问题包括过采样和欠采样两种技术。过采样技术代表算法如SMOTE算法,该算法远超随机采样技术,一系列SMOTE改良算法也被提出,如Borderline-SMOTE算法。AdaBoost与SMOTE算法结合也被应用到类不平衡问题中,如SMOTEBoost方法在弱分类器训练过程中合成样本,提升分类器对类不平衡问题关注。RUSBoost方法采用欠采样和AdaBoost方法结合,先随机提取多数类数据子集以构成平衡数据,识别结果有所提高。
发明内容
本发明根据相似性高的多数类样本聚类算法,提取具有代表性样本作为多数类样本子集,在AdaBoost算法框架下,弱分类器训练采用平衡子集和错分类样本共同作为下一弱分类器训练集,最后集成弱分类器分类结果作为最终分类结果,通过此方法解决了类不平衡问题,提升了分类器分类结果。
本发明的技术方案是:一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法,包括以下步骤:
步骤1.基于X-mean算法的样本子集构建方法
设训练集S={Sneg,Spos},我们采用K-means算法对反例样本进行聚类,对于给定的反例样本集D,其中含有n个样本。设定阈值为正反例样本比例T,将反例样本划分为T个簇,分别为K1,K2,..…,Kt,其中,Ki,即各簇之间交集为空,划分的T个簇具有簇内相似,组间相异特点。
对于任意的簇Ki,定义km为它的质心,质心通过簇内特征集平均值方法获得,而簇内任意样本kn与质心的距离定义为dist(kn,km),将簇K1的质量E定义为簇内所有样本特征集与质心距离的平方和,如下:
通过计算期初最优距离分布,使样本在所在簇内距离最小,而与其他簇距离最大,簇与簇之间最大程度相互独立。基于K-means算法构建质心近距离训练样本平衡方法伪代码描述为:
步骤2.弱分类器平衡数据子集构建
正反例数据比为T,将所有反例样本分为T组,对于每一组,选取T分之一距离聚类质心距离最近的样本被选取构成训练子集1的反例样本Sneg1。接下来Sneg1与所有正例样本Spos联合构成平衡的训练子集1 S1,即
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐齐哈尔大学,未经齐齐哈尔大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810991730.0/2.html,转载请声明来源钻瓜专利网。