[发明专利]一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法在审
申请号: | 201810991730.0 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109063787A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 王颖;汝吉东 | 申请(专利权)人: | 齐齐哈尔大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 齐齐哈尔鹤城专利事务所 23207 | 代理人: | 刘丽 |
地址: | 161006 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于不平衡数据的基于X‑mean和样本错分类率集成分类方法,属于计算机技术领域。包含以下内容:采用X‑mean算法数据子集构建方法;弱分类器平衡数据子集构建;弱分类器构建;基于AdaBoost算法集成分类器构建。本发明根据相似性高的多数类样本聚类算法,提取具有代表性样本作为多数类样本子集,在AdaBoost算法框架下,弱分类器训练采用平衡子集和错分类样本共同作为下一弱分类器训练集,最后集成弱分类器分类结果作为最终分类结果,试验结果表明,通过此方法解决了类不平衡问题,提升了分类器分类结果。 | ||
搜索关键词: | 弱分类器 构建 分类结果 样本 集成分类 子集 计算机技术领域 集成分类器 分类样本 平衡数据 平衡子集 算法数据 样本聚类 样本子集 分类器 训练集 分类 算法 | ||
【主权项】:
1.一种用于不平衡数据的基于X‑mean和样本错分类率集成分类方法,其特征在于:包括以下步骤:步骤1.基于X‑mean算法的样本子集构建方法设训练集S={Sneg,Spos},我们采用K‑means算法对反例样本进行聚类,对于给定的反例样本集D,其中含有n个样本;设定阈值为正反例样本比例T,将反例样本划分为T个簇,分别为K1,K2,..…,Kt,其中,Ki,Kj∈D,
即各簇之间交集为空,划分的T个簇具有簇内相似,组间相异特点;对于任意的簇Ki,定义km为它的质心,质心通过簇内特征集平均值方法获得,而簇内任意样本kn与质心的距离定义为dist(kn,km),将簇K1的质量E定义为簇内所有样本特征集与质心距离的平方和,如下:
通过计算期初最优距离分布,使样本在所在簇内距离最小,而与其他簇距离最大,簇与簇之间最大程度相互独立;基于K‑means算法构建质心近距离训练样本平衡方法伪代码描述为:
步骤2.弱分类器平衡数据子集构建正反例数据比为T,将所有反例样本分为T组,对于每一组,选取T分之一距离聚类质心距离最近的样本被选取构成训练子集1的反例样本Sneg1;接下来Sneg1与所有正例样本Spos联合构成平衡的训练子集1 S1,即S1=Sneg1∪Spos接下来,训练第一个弱分类器,训练集S采用该分类器进行分类,而且,错分类样本集1 Sincor1与训练子集1S1一起构成新的训练子集2 S2用来训练下一个分类器;因此,训练子集Si定义为:Si=Spos∪Sneg1∪Sincorr(i‑1)∪Sincorr(i‑2)…∪Sincorr1步骤3.弱分类器构建分类器输入为所有候选者,输出为每一候选为真的概率,最后,根据实际情况确定选取需要结果,弱分类器选择贝叶斯、支持向量机、随机森林和决策树算法中的一个;步骤4.基于AdaBoost算法集成分类器构建基于AdaBoost算法集成分类器构建算法描述如下:设有训练集样本S={(xi,yi)|i=1,2,...n},其中xi∈X为样本,yi∈Y=(+1,‑1}为样本类别,第一步,初始化样本权值,设定训练集S在第t轮训练中样本xi权值为Dt(i),其中第一轮样本权值初始化为:D1=(P11,P12…P1i...,P1N),P11=P12=…=P1N=1/N第二步,训练弱分类器,在训练过程中,给定每一个样本为真概率,选取概率最大候选者类别为+1,其他候选者类别为‑1,即分类器Gt(X):X→{‑1,+1};第三步,设定训练轮数T;第四步,定义训练集S的权值分布:Dt={Pt1,Pt2,...,PtN}其中Dt是由每个样本权重组成向量集。从训练集S中,根据样本权重构建训练子集St;第五步,计算训练子集错分率,假定Gt(X):X→Y},样本错分率:
第六步,计算样本及分类器权重,分类器权重为:
样本集权重更新为:Dt+1=(Pt+1,1,Pt+1,2…Pt+1,i…,Pt+1,N) (8)式(8)中,
式(9)中,zt定义为下一轮训练集权重,是一个一般化常量,定义为:
最后,根据各弱分类器Gt(X)及其权重集成分类器,定义为:![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐齐哈尔大学,未经齐齐哈尔大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810991730.0/,转载请声明来源钻瓜专利网。