[发明专利]一种数据分类方法在审
申请号: | 201810415714.7 | 申请日: | 2018-05-03 |
公开(公告)号: | CN108596268A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 赵寒枫;陈佐;杨胜刚;陈邦道;梅雪松;余湘军;李浩之;王芍 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 邹大坚;胡君 |
地址: | 410082 湖南省长沙市*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 弱分类器 训练子集 样本 训练集样本 强分类器 数据分类 训练分类器 错误样本 分类结果 分类数据 分类效率 数据完整 训练数据 训练样本 分类 迭代 拟合 输出 | ||
1.一种数据分类方法,其特征在于,步骤包括:
S1.获取用于训练分类器的训练集样本,并按照训练所需迭代次数将获取的所述训练集样本进行等分,得到多个训练子集样本;
S2.基于Adaboost算法使用多个弱分类器分别对各所述训练子集样本进行训练,且每个弱分类器训练时,选择部分训练子集样本以及上一个弱分类器得到的部分错误样本组合构成最终的训练样本,由训练完成后的各弱分类器得到最终的ADB强分类器;
S3.使用训练得到的所述ADB强分类器对待分类数据进行分类,输出分类结果。
2.根据权利要求1所述的数据分类方法,其特征在于,所述步骤S2中具体采用Ripper弱分类器,以使用Ripper算法对各所述训练子集样本进行训练,由训练完成后的Ripper弱分类器得到最终的Ripper-ADB强分类器。
3.根据权利要求1所述的数据分类方法,其特征在于,所述步骤S2中最终的训练样本中训练子集样本、上一个弱分类器得到的错误样本分别占50%。
4.根据权利要求1所述的数据分类方法,其特征在于:所述步骤S1中进行等分时,等分数取所述训练所需迭代次数,即按照训练所需迭代次数N将所述训练集样本S等分为N份训练子集样本S1,S2,SN,i为划分样本的个数,Si为第i分样本。
5.根据权利要求4所述的数据分类方法,其特征在于:所述训练所需迭代次数以及所述训练集样本的等分数具体为不小于10。
6.根据权利要求1~5中任意一项所述的数据分类方法,其特征在于,所述步骤S1中获取训练集样本时,还包括对获取的所述训练子集样本分别进行特征选取步骤以减少训练特征。
7.根据权利要求6所述的数据分类方法,其特征在于,所述特征选取步骤具体为对获取的所述训练子集样本执行多次RIPPER分类,每次RIPPER分类后根据分类结果对所述训练子集样本中特征属性进行筛选,将筛选后的训练子集样本重新进行RIPPER分类,直至生成所需的RIPPER分类模型,输出最终的训练子集样本。
8.根据权利要求7所述的数据分类方法,其特征在于,所述特征选取时,具体通过每次RIPPER分类后删除出现次数小于指定阈值的特征属性,得到筛选后的特征属性集重新进行RIPPER分类,直至生成的RIPPER评级模型的精度或特征数量达到预设要求,得到最终的训练子集样本输出。
9.根据权利要求8所述的数据分类方法,其特征在于,所述特征选取的具体步骤为:
S11.对当前训练子集样本使用RIPPER分类器进行分类,根据分类结果中每个特征属性出现的次数统计各特征属性的权重,并按照统计的权重对各特征属性进行排序,得到排序后特征属性集;
S12.将所述排序后特征属性集中出现次数小于预设阈值的特征属性删除,得到更新后的特征属性集;
S13.将所述步骤S12得到的更新后的特征属性集进行RIPPER分类,判断当前得到的RIPPER分类模型的精度或特征数量是否达到预设要求,如果是,得到最终的RIPPER评级模型,输出当前特征属性集作为最终的训练子集样本,否则返回执行步骤S11。
10.根据权利要求1~5中任意一项所述的数据分类方法,其特征在于,所述步骤S2的具体步骤为:
S21.获取第一份训练子集样本,并使用弱分类器进行分类训练,得到弱分类器a1以及错分样本R1,对所述弱分类器a1的分类结果进行统计计算,得到所述弱分类器a1的权重w1;
S22.将上一弱分类器ai得到的错分样本Ri按照指定比例数量进行重复抽样扩充,得到扩充的错误样本集Rip,并将所述扩充的错误样本集Rip添加至下一份训练子集样本Si+1中,得到新的训练样本子集Si+1R,其中i=1,2,….,N,N为训练子集样本数;
S23.对所述新的样本训练子集Si+1R使用弱分类器进行分类训练,得到弱分类器ai+1以及错分样本Ri+1,对所述弱分类器ai+1的分类结果进行统计计算,得到所述弱分类器ai+1的权重w2;
S24.重复步骤S22、S23,直到所有训练子集样本训练完毕,得到各弱分类器a1,a2,…,ai,…,aN;
S25.将得到的各弱分类器a1,a2,…ai,…,aN与对应的权重w1,w2,…,wi,…,wN进行加权后,得到最终的ADB强分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810415714.7/1.html,转载请声明来源钻瓜专利网。