[发明专利]适应动态调整基分类器权重的集成学习方法及装置有效

申请号：	201510974685.4	申请日：	2015-12-22
公开（公告）号：	CN105574547B	公开（公告）日：	2019-03-05
发明（设计）人：	李智星;张亮;王进;王占一	申请（专利权）人：	北京奇虎科技有限公司;重庆邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/35
代理公司：	北京天达知识产权代理事务所(普通合伙) 11386	代理人：	马东伟;张春
地址：	100088 北京市西城区新***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	适应动态调整分类权重集成学习方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种自适应动态调整基分类器权重的集成学习方法及装置，其中方法包括：构建多个基分类器；基于多个所述基分类器，对采集到的训练样本进行聚类；确定各个所述基分类器对聚类后的训练样本的各个簇的适应度；计算所述测试样本与聚类后的训练样本各个簇的相似度；对所述适应度和所述相似度进行整合，得到每个所述测试样本针对各个所述基分类器相适应的权重，并将多个所述权重组合为一个强分类器；装置包括：构建模块、聚类模块、适应度确定模块、相似度计算模块以及组合模块。本发明通过结合聚类算法，并考虑测试样本与基分类器的适应性，动态地对基分类器进行权重赋值，可有效提高分类器的泛化能力和分类精确率。

技术领域

本发明涉及数据挖掘、机器学习等领域，尤其涉及一种自适应动态调整基分类器权重的集成学习方法及装置。

背景技术

集成学习是近年来数据挖掘和机器学习领域的研究热点之一。集成学习通过将多个基分类器的分类结果按一定的方式进行组合集成，从而决定最终的分类，可以显著提高学习系统的泛化能力，被视为具有广泛应用前景的技术。

现有集成学习方法在集成过程中，往往忽略了测试样本与基分类器之间的适应性问题，即有的测试样本适合第一个基分类器，有的适合第二个基分类器等。

Boosting方法是一种应用广泛的基分类器组合方法，该算法虽然在一定程度上提高了基分类器的分类性能，但是由于该算法是静态地对基分类器进行权重赋值，这样就可能会导致给予与测试样本不相匹配的基分类器权重分配，降低了集成分类正确率。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述测试样本与基分类器的适应性问题。

根据本发明的一个方面，提供了一种自适应动态调整基分类器权重的集成学习方法，包括：

构建多个基分类器；

基于多个所述基分类器，对采集到的训练样本进行聚类；

确定各个所述基分类器对聚类后的训练样本的各个簇的适应度；