[发明专利]基于权重聚类和欠抽样的不平衡数据分类方法在审

申请号：	201611116829.3	申请日：	2016-12-07
公开（公告）号：	CN106778853A	公开（公告）日：	2017-05-31
发明（设计）人：	邓晓衡;钟维坚;任炬	申请（专利权）人：	中南大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一。因为少数类样本数量远远少于多数类，导致少数类在传统算法的分类学习过程中存在正确率低、泛化性能不好等缺陷。算法集成已经成处理该问题的一个重要方法，其中基于随机欠抽样和基于聚类的两种集成算法能有效提高分类的性能。但是，前者容易造成信息丢失，后者计算复杂不易推广。本文提出一种基于权重聚类，融合欠抽样的改进的集成分类算法，具体为基于权重聚类和欠抽样的不平衡数据分类方法。算法根据样本权重划分簇，依据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集，并利用Adaboost算法框架对分类器进行集成，提高了分类效果。实验结果表明，该算法具有准确，简单，稳定性高的特点。
搜索关键词：	基于权重抽样不平衡数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于权重聚类和欠抽样的不平衡数据分类方法，其特征在于包括以下步骤：步骤1：建立Adaboost集成算法模型Adaboost算法是一种典型的集成学习方法，可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值，算法迭代若干轮得到若干弱分类器；对于训练错误的样本，算法增加其权值，也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本，算法减小其权值，以降低下一轮被弱分类器选中的机会；最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下：步骤1.1：给定训练集S＝{(x1，y1)，(x2，y2)，…，(xn，yn)}和预定的迭代次数T，wt(i)表示第t轮迭代中样本xi的权值，初始t＝1。步骤1.2：初始化样本权重：wt(i)＝1/n，i＝1,2,…,n步骤1.3：使用弱分类算法在带权样本上训练得到弱分类器ht，并更新训练样本权重并对样本权重进行归一化，公式如下：wt+1(i)=wt(i)×1-ϵt12×|ht(xi)-yi|ϵt]]>wt+1(i)wt(i)/Σi=1nwt(i)]]>其中εt为当前样本分布上的加权错误率，计算公式如下：ϵt=Σjyi≠yji(1-ht(xi,yi)+ht(xi,y))]]>若t<T，令t＝t+1并重复步骤c，否则，输出集成分类器H(x)：H(x)=argmaxΣt=1Tht(x,y)log(1-ϵtϵt)]]>步骤2：建立基于权重方差的子集分割方法在Adaboost算法中，当h(xi)表示一个弱分类器，w表示样本权重，y表示样本类别时，其方式如下：wh(xi)≠yi=wh(xi)≠yi×1-ϵϵ,∈=Σh(xi)≠yiwh(xi)≠yi]]>通过在每轮迭代中对权重进行修正后，较难分类正确的样本往往有比较高的样本权重，而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar，当有集合C，C中样本数量为NC,集合中样本权重为w时，权重方差公式如下wvar(C)=Σi=0NC(wk-Σk=0NCwkNC)2/NC]]>利用权重方差，可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重，当一个集合中的样本权重近似时，集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2，定义子集方差和：wsvar(C1,C2)=size(C1)size(C)×wvar(C1)+size(C2)size(C)×wvar(C2)]]>其中size表示集合中样本的数量，当两个子集C1、C2的样本权重比原集合C有序时，则其子集方差和较小。当集合C中样本数量为I时，可能的子集分割情况的数量为I‑1，选取子集方差和最小的分割最为子集的分割，当输入一个带分裂簇C时，NC为C重样本的个数，wk为C中样本的权重，k＝1,2…NC，在计算C中权重方差wvars＝wvar(C)后，对C中的样本依据权重大小进行排序，对集合中的样本的进行从左到右的遍历，每次计算左右两个集合样本权重的最小方差和wsvarmin＝min0<j<J{wsvar(C1,C2)}计算所有可能分割的子集方差和后，选取其中子集方差和最小的情况，将原簇分割为两个子簇。步骤3：建立融合权重聚类和Adaboost集成学习算法模型，已知有输入训练集S＝{xi,yi},i＝1,2…N；其中少数类集合为S+，多数类集合为S‑；S+，S‑∈S；Cj是S‑中的一个簇，J为簇的数量；WeakLearn表示若学习算法，则融合权重聚类和Adaboost集成学习算法模型具体步骤如下：步骤3.1：初始化所有样本的样本权重，公式如下：wi1=1/N]]>步骤3.2：使样本集合中的多数类集合为初始第一个簇，即C1＝S‑步骤3.3：从各个簇中抽取一定数量的样本构成有代表性的训练数据集，确定每个簇的样本抽取数量。当wk是第j个簇中样本的权重，N为少数类样本的数量，那么第j的簇Cj的抽样数量SNCj为：W=Σi=1Nwi,SNCj=Σwk∈Cjwk/W]]>步骤3.4：对每个簇采用TOP‑K的方式，从每个簇Cj中随机抽取SNCj个样本，并与所有的少数类样本组成临时训练集S′，训练集中的样本权重为w′。步骤d)、使用弱学习算法，根据S′以及w′训练一个分类器h(t)←I(S′)，并计算分类误差，分类误差计算公式如下：h(t):ϵt=Σjyi≠yji(1-ht(xi,yi)+ht(xi,y))]]>由分类误差计算β＝εt/(1‑εt)，并更新所有的样本权重，公式如下：wit+1=witβt1-[[ht(xi)≠yi]]]]>步骤3.5：对循环次数t，计算t％step，当t％step＝＝0且NS<MN时，对所有簇进行步骤2所示的分裂操作。步骤:3.6：若t<T，令t＝t+1，并重复步骤g)，否则输出强分类器H(x)：H(x)=argmaxΣt=1Tht(x,y)log(1-ϵtϵt)]]>

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611116829.3/，转载请声明来源钻瓜专利网。

上一篇：一种修正误判的图像内容识别方法
下一篇：基于轨迹和卷积神经网络特征提取的行为识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于权重聚类和欠抽样的不平衡数据分类方法在审

专利文献下载