[发明专利]基于样本边界值及集成多样性的数据分类方法在审

专利信息
申请号: 202110169621.2 申请日: 2021-02-07
公开(公告)号: CN112906779A 公开(公告)日: 2021-06-04
发明(设计)人: 刘星成;沈子雄;刘异橦 申请(专利权)人: 中山大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 张金福
地址: 510260 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 样本 边界 集成 多样性 数据 分类 方法
【说明书】:

发明提供一种基于样本边界值及集成多样性的数据分类方法,包括如下:将初始数据集划分为训练集、验证集、测试集;对训练集行处理,得到采样集;对每个采样集采用基分类器进行训练,得到集成系统;利用集成系统对验证集进行分类,得到验证集的分类预测结果矩阵;根据分类预测结果矩阵进行统计得到投票数向量、验证集样本个数,计算出基分类器池中的每个分类器的平均边界值;计算关于数据集标签类别的概率分布,并引入J‑S散度,计算得到某个基分类器与其它基分类器之间的平均差异程度;结合平均边界值、平均差异程度进行综合度量,得到新的集成系统,通过选取得到分类器子集合;利用分类器子集合对测试集进行分类预测,获取分类结果。

技术领域

本发明涉及机器学习技术领域,更具体地,涉及一种基于样本边界值及集成 多样性的数据分类方法。

背景技术

分类是机器学习的主要任务之一,其根据已知标签类别的数据来训练学习分 类器或算法,从而利用训练好的分类器或算法再去对未知的数据进行分类预测, 重点在于如何提高最终的识别正确率,降低分类错误率。

现有的分类方法有集成学习方法(ensemble learning)[Dietterich T G.Ensemble Methods in Machine Learning[C]//International Workshop on MultipleClassifier Systems.Springer,Berlin,Heidelberg,2000](也可称为多分类器系统(multi-classifier system))、基于委员会的学习(committee-based learning)等, 其依托某种生成方法得到一系列数量众多且相互之间又有一定差异性的基分类 器,再根据特定的策略对分类结果进行整合并最终输出。

然而传统的集成学习方法存在以下几个问题:

第一个问题:现有的许多经典集成学习方法为了追求更高的泛化性能而训练 数量众多的基分类器,由此也会出现部分基分类器的分类正确率不高、分类器相 互之间的差异性比较小的情况,需要大量的计算资源去计算单个分类器的输出额 外地浪费了许多存储资源,此外还会在一定程度上影响分类器总体的泛化性能。 Zhou[Wei Gao,Zhi-HuaZhou.On the doubt about margin explanation of boosting[J]. ArtificialIntelligence.2013,203:1-18]就曾在文章中论证过:集成系统的分类器子 集合一般会比由所有分类器构成的集成系统的表现出更佳的泛化能力。如果能够 从全部基分类器集合中筛选出部分基分类器并使得筛选出的基分类器的分类精 度较高且相互之间的差异性较大,就能从整体上提升集成系统的泛化能力,同时 又减少了内存占用,提高了装载速度和处理速度。

第二个问题:在许多实际的数据分类问题中,在给获取到的数据集打样本标 签时会出现标注错误的情况,类似于Boosting这种串行式的集成算法会过度关注 被错误分类的样本,因而面对错误标注的样本会出现过度拟合的情况。如何增强 集成系统应对误标注噪声样本的能力也具有重要的研究意义。

第三个问题:多样性增强问题。Krogh[19]给出了“误差-分歧分解”,明确指 出基分类器准确率越高、基分类器之间的多样性越大,则集成性能越好。如果集 成系统中的众多基分类器之间很相似则完全没有必要生成众多的分类器,因此集 成系统应该在保持基分类器高正确率的同时又能使得相互之间有一定的差异,即 优势互补,通过多个不同的决策边界来更好地拟合真实的决策边界。

发明内容

本发明为克服上述现有技术中集成学习方法为了追求更高的泛化性能而训 练数量众多的基分类器,需要大量的计算资源去计算单个分类器的输出额外地浪 费了许多存储资源的问题,提供了一种基于样本边界值及集成多样性的数据分类 方法,其能通过剔除差异性低的基分类器,提升集成系统整体的多样性,使得集 成系统更加精简,利用筛选后的分类器集合再去分类预测相同分布的数据集,可 以减少存储开销和计算时间。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110169621.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top