[发明专利]基于权重聚类和欠抽样的不平衡数据分类方法在审

申请号：	201611116829.3	申请日：	2016-12-07
公开（公告）号：	CN106778853A	公开（公告）日：	2017-05-31
发明（设计）人：	邓晓衡;钟维坚;任炬	申请（专利权）人：	中南大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于权重抽样不平衡数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机技术领域，具体涉及到一种基于Adaboost算法的权重聚类和欠抽样的不平衡数据集分类方法。

背景技术

随着互联网技术的发展，人们获取的信息类型和数量都在快速地增加。大量的数据噪声和更加复杂的数据发布类型，会给我们的数据分析带来新的挑战。其中，不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一，它广泛存在于医疗诊断，信用评估等领域。在不平衡数据中，多数类的样本数量远远大于少数类的数量，如果使用普通的机器学习方法和评价标准，很有可能会导致少数类被忽略，甚至直接被当做噪声处理掉。因此，普通的机器学习算法对不平衡数据集进行学习分类时往往难以取得较好的效果。

针对不平衡数据分类问题，研究者进行了大量研究，提出了许多解决方案。其中，基于数据层的方法前期对数据样本进行预处理，达到尽量平衡化数据样本的效果。如SMOTE方法，采用人工合成新样本的方式以平衡样本分布。然而，SMOTE在合成样本的过程中具有一定的盲目性，它不能对合成样本数量进行精确控制，同时也没有充分考虑到多数类近邻样本，往往导致严重的样本重叠。在这种情况下，SMOTEBoost算法将SMOTE方法数据层上的改进与集成学习相结合，在Adaboost算法每次迭代中引入合成样本，使得分类器对类别平衡关注。而RUSBoost算法则将欠抽样方法与Adaboost算法结合，在不平衡数据集中的多数类采用欠抽样的方式提取一部分样本，并与少数类样本组成样本平衡分布的训练集，从而在不平衡数据集上取得较好的泛化能力。然而RUSBoost算法在每一轮的Adaboost迭代的欠采样中，是从多数类样本随机地进行抽取，因此这种方法会造成多数类样本信息的丢失。即使通过Boosting的方法对这种丢失的信息进行一定程度上的弥补，但这弥补的程度是随机而不可定的。

在此背景下，提出基于权重聚类和欠抽样的不平衡数据分类算法。算法吸收Adaboost算法修改权重的方法，在训练的进行过程中，依据权重将多数类样本集合分为有序且相关性较小的子集，再从子集中进行抽样和少数类组成训练集合用于分类器算法训练。通过这样的方式，在不过分提高计算开销的情况下，优化了随机欠采样，提高了分类准确率。

发明内容

本发明提出基一种于权重聚类和欠抽样的不平衡数据分类算法。由于传统聚类算法处理在算法完成后便将子集固定了下来，它对多数类数据集有序程度的规划很可能不是最优的，不能满足集成算法的动态要求。而且，聚类算法往往要对数据集中的所有样本进行迭代的距离计算，这会带来非常大的计算开销。其次，传统的欠抽样方法没有考虑不平衡数据不同分布情况对抽样效果的影响。因此本发明的方法在聚类方式和前抽样方式上对传统的方法进行改进，在Adaboost算法的迭代过程中对簇根据样本权重方差对簇进行分割，达到自动聚类的效果，再从子集中依据样本权重进行抽样和少数类组成训练集合用于分类器算法训练。通过这样的方式，在不过分提高计算开销的情况下，优化了随机欠采样，提高了分类准确率。

为了达到以上目的，本发明在Adaboost算法模型的基础上，依据样本权重方差，在算法的每轮迭代过程中对簇进行分裂，从而将多数类样本划分为几个特定的簇，再从每个簇中抽取合适地样本组成平衡分布的训练集。算法具体实现步骤如下：

步骤1：建立Adaboost算法模型

Adaboost算法是一种典型的集成学习方法，可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值，算法迭代若干轮得到若干弱分类器；对于训练错误的样本，算法增加其权值，也就是让后续弱分类器更关注这类较难分类正确的样本。对于训练正确的样本，算法减小其权值，以降低下一轮被弱分类器选中的机会；最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下：

步骤1.1：给定训练集S＝{(x₁，y₁)，(x₂，y₂)，…，(x_n，y_n)}和预定的迭代次数T，w^t(i)表示第t轮迭代中样本xi的权值，初始t＝1。

步骤1.2：初始化样本权重：

w^t(i)＝1/n，i＝1,2,…,n

步骤1.3：使用弱分类算法在带权样本上训练得到弱分类器h_t，并更新训练样本权重并对样本权重进行归一化，公式如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611116829.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种修正误判的图像内容识别方法
下一篇：基于轨迹和卷积神经网络特征提取的行为识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于权重聚类和欠抽样的不平衡数据分类方法在审

专利文献下载