[发明专利]一种数据分类方法在审

申请号：	201810415714.7	申请日：	2018-05-03
公开（公告）号：	CN108596268A	公开（公告）日：	2018-09-28
发明（设计）人：	赵寒枫;陈佐;杨胜刚;陈邦道;梅雪松;余湘军;李浩之;王芍	申请（专利权）人：	湖南大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	湖南兆弘专利事务所(普通合伙) 43008	代理人：	邹大坚;胡君
地址：	410082 湖南省长沙市***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	弱分类器训练子集样本训练集样本强分类器数据分类训练分类器错误样本分类结果分类数据分类效率数据完整训练数据训练样本分类迭代拟合输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种数据分类方法，其特征在于，步骤包括：

S1.获取用于训练分类器的训练集样本，并按照训练所需迭代次数将获取的所述训练集样本进行等分，得到多个训练子集样本；

S2.基于Adaboost算法使用多个弱分类器分别对各所述训练子集样本进行训练，且每个弱分类器训练时，选择部分训练子集样本以及上一个弱分类器得到的部分错误样本组合构成最终的训练样本，由训练完成后的各弱分类器得到最终的ADB强分类器；

S3.使用训练得到的所述ADB强分类器对待分类数据进行分类，输出分类结果。

2.根据权利要求1所述的数据分类方法，其特征在于，所述步骤S2中具体采用Ripper弱分类器，以使用Ripper算法对各所述训练子集样本进行训练，由训练完成后的Ripper弱分类器得到最终的Ripper-ADB强分类器。

3.根据权利要求1所述的数据分类方法，其特征在于，所述步骤S2中最终的训练样本中训练子集样本、上一个弱分类器得到的错误样本分别占50％。

4.根据权利要求1所述的数据分类方法，其特征在于：所述步骤S1中进行等分时，等分数取所述训练所需迭代次数，即按照训练所需迭代次数N将所述训练集样本S等分为N份训练子集样本S₁,S₂,S_N，i为划分样本的个数，S_i为第i分样本。

5.根据权利要求4所述的数据分类方法，其特征在于：所述训练所需迭代次数以及所述训练集样本的等分数具体为不小于10。

6.根据权利要求1～5中任意一项所述的数据分类方法，其特征在于，所述步骤S1中获取训练集样本时，还包括对获取的所述训练子集样本分别进行特征选取步骤以减少训练特征。

7.根据权利要求6所述的数据分类方法，其特征在于，所述特征选取步骤具体为对获取的所述训练子集样本执行多次RIPPER分类，每次RIPPER分类后根据分类结果对所述训练子集样本中特征属性进行筛选，将筛选后的训练子集样本重新进行RIPPER分类，直至生成所需的RIPPER分类模型，输出最终的训练子集样本。

8.根据权利要求7所述的数据分类方法，其特征在于，所述特征选取时，具体通过每次RIPPER分类后删除出现次数小于指定阈值的特征属性，得到筛选后的特征属性集重新进行RIPPER分类，直至生成的RIPPER评级模型的精度或特征数量达到预设要求，得到最终的训练子集样本输出。

9.根据权利要求8所述的数据分类方法，其特征在于，所述特征选取的具体步骤为：

S11.对当前训练子集样本使用RIPPER分类器进行分类，根据分类结果中每个特征属性出现的次数统计各特征属性的权重，并按照统计的权重对各特征属性进行排序，得到排序后特征属性集；

S12.将所述排序后特征属性集中出现次数小于预设阈值的特征属性删除，得到更新后的特征属性集；

S13.将所述步骤S12得到的更新后的特征属性集进行RIPPER分类，判断当前得到的RIPPER分类模型的精度或特征数量是否达到预设要求，如果是，得到最终的RIPPER评级模型，输出当前特征属性集作为最终的训练子集样本，否则返回执行步骤S11。

10.根据权利要求1～5中任意一项所述的数据分类方法，其特征在于，所述步骤S2的具体步骤为：

S21.获取第一份训练子集样本，并使用弱分类器进行分类训练，得到弱分类器a1以及错分样本R1，对所述弱分类器a1的分类结果进行统计计算，得到所述弱分类器a1的权重w1；

S22.将上一弱分类器ai得到的错分样本Ri按照指定比例数量进行重复抽样扩充，得到扩充的错误样本集Rip，并将所述扩充的错误样本集Rip添加至下一份训练子集样本Si+1中，得到新的训练样本子集Si+1R，其中i＝1,2,….,N，N为训练子集样本数；

S23.对所述新的样本训练子集Si+1R使用弱分类器进行分类训练，得到弱分类器ai+1以及错分样本Ri+1，对所述弱分类器ai+1的分类结果进行统计计算，得到所述弱分类器ai+1的权重w2；

S24.重复步骤S22、S23，直到所有训练子集样本训练完毕，得到各弱分类器a1,a2,…,ai,…,aN；

S25.将得到的各弱分类器a1,a2,…ai,…,aN与对应的权重w1,w2,…,wi,…,wN进行加权后，得到最终的ADB强分类器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810415714.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种图像重建方法、终端设备及计算机可读存储介质
下一篇：一种基于SVM+CNN的足底压力图像的识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种数据分类方法在审

专利文献下载