[发明专利]基于权重聚类和欠抽样的不平衡数据分类方法在审

专利信息
申请号: 201611116829.3 申请日: 2016-12-07
公开(公告)号: CN106778853A 公开(公告)日: 2017-05-31
发明(设计)人: 邓晓衡;钟维坚;任炬 申请(专利权)人: 中南大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一。因为少数类样本数量远远少于多数类,导致少数类在传统算法的分类学习过程中存在正确率低、泛化性能不好等缺陷。算法集成已经成处理该问题的一个重要方法,其中基于随机欠抽样和基于聚类的两种集成算法能有效提高分类的性能。但是,前者容易造成信息丢失,后者计算复杂不易推广。本文提出一种基于权重聚类,融合欠抽样的改进的集成分类算法,具体为基于权重聚类和欠抽样的不平衡数据分类方法。算法根据样本权重划分簇,依据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集,并利用Adaboost算法框架对分类器进行集成,提高了分类效果。实验结果表明,该算法具有准确,简单,稳定性高的特点。
搜索关键词: 基于 权重 抽样 不平衡 数据 分类 方法
【主权项】:
一种基于权重聚类和欠抽样的不平衡数据分类方法,其特征在于包括以下步骤:步骤1:建立Adaboost集成算法模型Adaboost算法是一种典型的集成学习方法,可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值,算法迭代若干轮得到若干弱分类器;对于训练错误的样本,算法增加其权值,也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本,算法减小其权值,以降低下一轮被弱分类器选中的机会;最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下:步骤1.1:给定训练集S={(x1,y1),(x2,y2),…,(xn,yn)}和预定的迭代次数T,wt(i)表示第t轮迭代中样本xi的权值,初始t=1。步骤1.2:初始化样本权重:wt(i)=1/n,i=1,2,…,n步骤1.3:使用弱分类算法在带权样本上训练得到弱分类器ht,并更新训练样本权重并对样本权重进行归一化,公式如下:wt+1(i)=wt(i)×1-ϵt12×|ht(xi)-yi|ϵt]]>wt+1(i)wt(i)/Σi=1nwt(i)]]>其中εt为当前样本分布上的加权错误率,计算公式如下:ϵt=Σjyi≠yji(1-ht(xi,yi)+ht(xi,y))]]>若t<T,令t=t+1并重复步骤c,否则,输出集成分类器H(x):H(x)=argmaxΣt=1Tht(x,y)log(1-ϵtϵt)]]>步骤2:建立基于权重方差的子集分割方法在Adaboost算法中,当h(xi)表示一个弱分类器,w表示样本权重,y表示样本类别时,其方式如下:wh(xi)≠yi=wh(xi)≠yi×1-ϵϵ,∈=Σh(xi)≠yiwh(xi)≠yi]]>通过在每轮迭代中对权重进行修正后,较难分类正确的样本往往有比较高的样本权重,而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar,当有集合C,C中样本数量为NC,集合中样本权重为w时,权重方差公式如下wvar(C)=Σi=0NC(wk-Σk=0NCwkNC)2/NC]]>利用权重方差,可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重,当一个集合中的样本权重近似时,集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2,定义子集方差和:wsvar(C1,C2)=size(C1)size(C)×wvar(C1)+size(C2)size(C)×wvar(C2)]]>其中size表示集合中样本的数量,当两个子集C1、C2的样本权重比原集合C有序时,则其子集方差和较小。当集合C中样本数量为I时,可能的子集分割情况的数量为I‑1,选取子集方差和最小的分割最为子集的分割,当输入一个带分裂簇C时,NC为C重样本的个数,wk为C中样本的权重,k=1,2…NC,在计算C中权重方差wvars=wvar(C)后,对C中的样本依据权重大小进行排序,对集合中的样本的进行从左到右的遍历,每次计算左右两个集合样本权重的最小方差和wsvarmin=min0<j<J{wsvar(C1,C2)}计算所有可能分割的子集方差和后,选取其中子集方差和最小的情况,将原簇分割为两个子簇。步骤3:建立融合权重聚类和Adaboost集成学习算法模型,已知有输入训练集S={xi,yi},i=1,2…N;其中少数类集合为S+,多数类集合为S‑;S+,S‑∈S;Cj是S‑中的一个簇,J为簇的数量;WeakLearn表示若学习算法,则融合权重聚类和Adaboost集成学习算法模型具体步骤如下:步骤3.1:初始化所有样本的样本权重,公式如下:wi1=1/N]]>步骤3.2:使样本集合中的多数类集合为初始第一个簇,即C1=S‑步骤3.3:从各个簇中抽取一定数量的样本构成有代表性的训练数据集,确定每个簇的样本抽取数量。当wk是第j个簇中样本的权重,N为少数类样本的数量,那么第j的簇Cj的抽样数量SNCj为:W=Σi=1Nwi,SNCj=Σwk∈Cjwk/W]]>步骤3.4:对每个簇采用TOP‑K的方式,从每个簇Cj中随机抽取SNCj个样本,并与所有的少数类样本组成临时训练集S′,训练集中的样本权重为w′。步骤d)、使用弱学习算法,根据S′以及w′训练一个分类器h(t)←I(S′),并计算分类误差,分类误差计算公式如下:h(t):ϵt=Σjyi≠yji(1-ht(xi,yi)+ht(xi,y))]]>由分类误差计算β=εt/(1‑εt),并更新所有的样本权重,公式如下:wit+1=witβt1-[[ht(xi)≠yi]]]]>步骤3.5:对循环次数t,计算t%step,当t%step==0且NS<MN时,对所有簇进行步骤2所示的分裂操作。步骤:3.6:若t<T,令t=t+1,并重复步骤g),否则输出强分类器H(x):H(x)=argmaxΣt=1Tht(x,y)log(1-ϵtϵt)]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611116829.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top