[发明专利]适应动态调整基分类器权重的集成学习方法及装置有效
申请号: | 201510974685.4 | 申请日: | 2015-12-22 |
公开(公告)号: | CN105574547B | 公开(公告)日: | 2019-03-05 |
发明(设计)人: | 李智星;张亮;王进;王占一 | 申请(专利权)人: | 北京奇虎科技有限公司;重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35 |
代理公司: | 北京天达知识产权代理事务所(普通合伙) 11386 | 代理人: | 马东伟;张春 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适应 动态 调整 分类 权重 集成 学习方法 装置 | ||
一种自适应动态调整基分类器权重的集成学习方法及装置,其中方法包括:构建多个基分类器;基于多个所述基分类器,对采集到的训练样本进行聚类;确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;计算所述测试样本与聚类后的训练样本各个簇的相似度;对所述适应度和所述相似度进行整合,得到每个所述测试样本针对各个所述基分类器相适应的权重,并将多个所述权重组合为一个强分类器;装置包括:构建模块、聚类模块、适应度确定模块、相似度计算模块以及组合模块。本发明通过结合聚类算法,并考虑测试样本与基分类器的适应性,动态地对基分类器进行权重赋值,可有效提高分类器的泛化能力和分类精确率。
技术领域
本发明涉及数据挖掘、机器学习等领域,尤其涉及一种自适应动态调整基分类器权重的集成学习方法及装置。
背景技术
集成学习是近年来数据挖掘和机器学习领域的研究热点之一。集成学习通过将多个基分类器的分类结果按一定的方式进行组合集成,从而决定最终的分类,可以显著提高学习系统的泛化能力,被视为具有广泛应用前景的技术。
现有集成学习方法在集成过程中,往往忽略了测试样本与基分类器之间的适应性问题,即有的测试样本适合第一个基分类器,有的适合第二个基分类器等。
Boosting方法是一种应用广泛的基分类器组合方法,该算法虽然在一定程度上提高了基分类器的分类性能,但是由于该算法是静态地对基分类器进行权重赋值,这样就可能会导致给予与测试样本不相匹配的基分类器权重分配,降低了集成分类正确率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述测试样本与基分类器的适应性问题。
根据本发明的一个方面,提供了一种自适应动态调整基分类器权重的集成学习方法,包括:
构建多个基分类器;
基于多个所述基分类器,对采集到的训练样本进行聚类;
确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;
计算所述测试样本与聚类后的训练样本各个簇的相似度;
对所述适应度和所述相似度进行整合,得到每个所述测试样本针对各个所述基分类器相适应的权重,并将多个所述权重组合为一个强分类器。
进一步地,采用下列任意一种方式构建多个所述基分类器:
通过对相同的所述训练样本选取不同的分类算法训练得到;
调整所述训练样本的权重并利用不同或相同的分类算法训练得到;
调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
进一步地,采用下列任意一种方式对所述训练样本进行聚类:
划分聚类、层次聚类、密度聚类、网格聚类。
进一步地,计算各个所述基分类器对聚类后的训练样本的各个簇的适应度矩阵的过程进一步包括:
利用n个所述基分类器对聚类算法生成的k个簇分别进行测试,计算得出基分类器在各个簇上的错误率eij;
利用错误率eij进行相应的对数处理,从而得到n个基分类器对k个簇的适应度fij,并以n*k矩阵的形式进行存储,得到适应度矩阵;其中,i表示第i个基分类器,j表示第j个簇类。
进一步地,计算所述测试样本与聚类后的训练样本各个簇的相似度向量的过程进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;重庆邮电大学,未经北京奇虎科技有限公司;重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510974685.4/2.html,转载请声明来源钻瓜专利网。