[发明专利]一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法在审
申请号: | 201810991730.0 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109063787A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 王颖;汝吉东 | 申请(专利权)人: | 齐齐哈尔大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 齐齐哈尔鹤城专利事务所 23207 | 代理人: | 刘丽 |
地址: | 161006 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 弱分类器 构建 分类结果 样本 集成分类 子集 计算机技术领域 集成分类器 分类样本 平衡数据 平衡子集 算法数据 样本聚类 样本子集 分类器 训练集 分类 算法 | ||
1.一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法,其特征在于:包括以下步骤:
步骤1.基于X-mean算法的样本子集构建方法
设训练集S={Sneg,Spos},我们采用K-means算法对反例样本进行聚类,对于给定的反例样本集D,其中含有n个样本;设定阈值为正反例样本比例T,将反例样本划分为T个簇,分别为K1,K2,..…,Kt,其中,Ki,Kj∈D,即各簇之间交集为空,划分的T个簇具有簇内相似,组间相异特点;
对于任意的簇Ki,定义km为它的质心,质心通过簇内特征集平均值方法获得,而簇内任意样本kn与质心的距离定义为dist(kn,km),将簇K1的质量E定义为簇内所有样本特征集与质心距离的平方和,如下:
通过计算期初最优距离分布,使样本在所在簇内距离最小,而与其他簇距离最大,簇与簇之间最大程度相互独立;基于K-means算法构建质心近距离训练样本平衡方法伪代码描述为:
步骤2.弱分类器平衡数据子集构建
正反例数据比为T,将所有反例样本分为T组,对于每一组,选取T分之一距离聚类质心距离最近的样本被选取构成训练子集1的反例样本Sneg1;接下来Sneg1与所有正例样本Spos联合构成平衡的训练子集1 S1,即
S1=Sneg1∪Spos
接下来,训练第一个弱分类器,训练集S采用该分类器进行分类,而且,错分类样本集1Sincor1与训练子集1S1一起构成新的训练子集2 S2用来训练下一个分类器;因此,训练子集Si定义为:
Si=Spos∪Sneg1∪Sincorr(i-1)∪Sincorr(i-2)…∪Sincorr1
步骤3.弱分类器构建
分类器输入为所有候选者,输出为每一候选为真的概率,最后,根据实际情况确定选取需要结果,弱分类器选择贝叶斯、支持向量机、随机森林和决策树算法中的一个;
步骤4.基于AdaBoost算法集成分类器构建
基于AdaBoost算法集成分类器构建算法描述如下:
设有训练集样本S={(xi,yi)|i=1,2,...n},其中xi∈X为样本,yi∈Y=(+1,-1}为样本类别,
第一步,初始化样本权值,设定训练集S在第t轮训练中样本xi权值为Dt(i),其中第一轮样本权值初始化为:
D1=(P11,P12…P1i...,P1N),P11=P12=…=P1N=1/N
第二步,训练弱分类器,在训练过程中,给定每一个样本为真概率,选取概率最大候选者类别为+1,其他候选者类别为-1,即分类器Gt(X):X→{-1,+1};
第三步,设定训练轮数T;
第四步,定义训练集S的权值分布:
Dt={Pt1,Pt2,...,PtN}
其中Dt是由每个样本权重组成向量集。从训练集S中,根据样本权重构建训练子集St;
第五步,计算训练子集错分率,假定Gt(X):X→Y},样本错分率:
第六步,计算样本及分类器权重,分类器权重为:
样本集权重更新为:
Dt+1=(Pt+1,1,Pt+1,2…Pt+1,i…,Pt+1,N) (8)式(8)中,
式(9)中,zt定义为下一轮训练集权重,是一个一般化常量,定义为:
最后,根据各弱分类器Gt(X)及其权重集成分类器,定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐齐哈尔大学,未经齐齐哈尔大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810991730.0/1.html,转载请声明来源钻瓜专利网。