[发明专利]一种数据分类方法在审

申请号：	201810415714.7	申请日：	2018-05-03
公开（公告）号：	CN108596268A	公开（公告）日：	2018-09-28
发明（设计）人：	赵寒枫;陈佐;杨胜刚;陈邦道;梅雪松;余湘军;李浩之;王芍	申请（专利权）人：	湖南大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	湖南兆弘专利事务所(普通合伙) 43008	代理人：	邹大坚;胡君
地址：	410082 湖南省长沙市***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	弱分类器训练子集样本训练集样本强分类器数据分类训练分类器错误样本分类结果分类数据分类效率数据完整训练数据训练样本分类迭代拟合输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种数据分类方法，步骤包括：S1.获取用于训练分类器的训练集样本，并按照训练所需迭代次数将获取的训练集样本进行等分，得到多个训练子集样本；S2.基于Adaboost算法使用多个弱分类器分别对各训练子集样本进行训练，且每个弱分类器训练时，选择部分训练子集样本以及上一个弱分类器得到的部分错误样本组合构成最终的训练样本，由训练完成后的各弱分类器得到最终的ADB强分类器；S3.使用训练得到的ADB强分类器对待分类数据进行分类，输出分类结果。本发明分类训练时数据完整，且可避免训练数据成倍数增长及过拟合，具有实现原理简单、分类效率及精度高等优点。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据分类方法。

背景技术

数据分类即是将数据映射为指定的类别，Adaboost(Adaptive Boostin，自适应增强)是一种自适应数据分类算法，针对同一训练集训练不同的分类器(弱分类器)，然后将这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)，其自适应在于：上一个弱分类器分错的样本会得到加强，加权之后的全体样本再次被用来训练下一个基本分类器，同时在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率，或达到预先指定的最大迭代次数。Adaboost算法有着很强的循环学习能力，能够较好的把弱分类器进行组合加强，因而有着重要的研究价值。

Adaboost算法具有多种优点：①精度高；②可以使用各种方法构建子分类器(弱分类器)，Adaboost提供的是算法框架；③当使用简单分类器时，结果是可以理解的，且弱分类器构造简单等。但是传统的Adaboost算法的分类精度、性能仍有进一步提高的空间。Adaboost算法训练时，都是采用全样本进行迭代训练，具体是先初始化训练数据的权值分布，如果有N个样本，每一个样本开始时都赋予相同的权重1/N，训练弱分类器，在训练过程中，如果某个样本已经被准确的分类，那么在构造下一个训练集时，它的权重就会被降低；相反，如果某个样本没有被准确分类，那么它的权重就得到提高；然后，更新过权重的样本用于下一个分类器，整个训练过程如此迭代下去；将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后，会加大分类误差率较小的弱分类器的权重，使其在最终的分类函数中起着较大的决定作用，而降低分类误差率大的弱分类器的权重，使其在最终的分类函数中起着较小的决定作用。即Adaboost的核心思想就是对于错误分类的数据提高其样本的权重，而正确分类的数据，降低样本的权重，使其各占50％。

但是Adaboost算法分类时采用上述全样本进行迭代训练的方式会存在以下问题：

(1)如果采用全样本进行迭代训练，每一次迭代之后，样本的数量将成倍数增长，加大了训练的难度；

(2)如果利用随机抽样来构成相应的权重比例，又会造成有部分的样本漏掉，导致训练不完整；

(3)对于反复错误的样本，原始算法会一致加大其样本的权重，如果此样本是离群点，那么将会导致后续分类器对于离群点过分训练，从而偏离实际数据样本。

目前对于分类算法的改进主要包括两种方法：对算法本身进行改进的方式、和对多个算法进行组合叠加的方式，其中对于分类算法本身改进的方式，通常都是通过对算法本身的一些特性加以改进，如增加判别公式、融合其他算法以及改进算法结构，但是由于机器学习算法本身普遍复杂性较高，改进算法也是基本建立在特定的应用场景，不具有普适性，再者在算法上进行改进存在着难度大、算法冗余复杂等问题；而对于组合的方式，由于不会打乱本身算法的结构特点，可以根据不同算法之间的特性进行相互弥补，有着很大的优势且适用性较强，但是目前对于Adaboost算法的组合改进方式通常都是简单的组合方式，并没有考虑Adaboost算法本身在训练过程中的上述问题，依然会存在如上述样本的数量会成倍的增长，训练难度大或训练不完整以及会产生过训练等问题。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810415714.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种图像重建方法、终端设备及计算机可读存储介质
下一篇：一种基于SVM+CNN的足底压力图像的识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种数据分类方法在审

专利文献下载