[发明专利]递减子空间集成学习算法无效
申请号: | 201310654010.2 | 申请日: | 2013-12-09 |
公开(公告)号: | CN103631753A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | 陈科;周羿 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18 |
代理公司: | 天津市杰盈专利代理有限公司 12207 | 代理人: | 朱红星 |
地址: | 300387 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 递减 空间 集成 学习 算法 | ||
技术领域
本发明属于数据挖掘技术领域,具体涉及一种新的基于boosting的递减子空间集成学习算法。
背景技术
集成学习是使用一系列基分类器进行学习,并使用某种规则将基分类器的学习结果进行整合从而获得比单个分类器更优的学习效果的一种机器学习方法。由于能够显著提高学习系统的泛化性能,集成学习已成为模式识别和机器学习领域的研究热点。常用的集成学习方法包括AdaBoost、Bagging、CVParameterSelection、RandomSubSpace、Rotation Forest等。在这些方法中,Bagging与RandomSubSpace通过调整训练空间的样本来生成基分类器。Rotation Forest则对特征空间进行操作,通过对特征空间的随机划分与特征提取来生成基分类器。CVParameterSelection通过对参数的调整获得多样化的基分类器;而Adaboost以其简单、适应性强成为目前最为流行的一种集成学习方法。AdaBoost(Adaptive Boosting)是对boosting算法的改进,它的核心思想是降低被准确分类的样本出现在下一轮迭代时训练集中的概率(权重)和提高错误分类的样本出现在训练集中的概率(权重)。通过这个思想,AdaBoost有效的实现了将识别率不高的弱分类器组合为识别率较高的强分类器。
本文将借鉴Bagging与RandomSubSpace的思想,通过对训练样本空间的调整来生成一系列基分类器。而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence)。置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握。通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集,我们把该方法称为递减子空间集成学习方法。由于我们的方法借鉴了Bagging与AdaBoost的思想,我们先它们做简要的回顾。
Bagging算法:给定一个弱分类器C和一个训练集D,Bagging通过对D中样本的选取来生成多样化的模型。具体操作如下:从D中可重复随机选取若干样本构成训练集,训练集的规模通常与D的规模相当,这种选取方式使得某些样本可以在新的训练集中出现多次,而另一些样本则可能不出现;在新构造的训练集上训练分类器C,得到分类模型。重复上述操作n次,则可以得到n个不同的分类模型。最终采用投票规则对n模型的预测结果进行综合。Bagging方法通过重新选取训练集增加了弱分类器集成的差异度,从而提高了泛化能力。
Adaboost算法:AdaBoost方法是一种迭代方法,在每一轮迭代中加入一个新的弱分类器,直到达到某个预定的终止条件。在每次迭代中,每个训练样本都被赋予一个权重,表明它在训练集中分布的相对比例。如果某个样本已经被准确地分类,那么在构造下一个分类器时(即下一次迭代),它的权值被降低;相反,如果某个样本未能被准确分类,它的权重就相应提高。这种方式使得AdaBoost方法能“聚焦于”那些较难被分类的样本上。
用 Wk(i) 表示第k次迭代时样本i的权重,xi 和 yi分别表示第i个样本的特征与类标签,则AdaBoost的算法描述如下:
1. 初始化Wk(i)=1/n,i=1,...,n
2. k ← 0
3. do k ← k+1
4. 训练使用按照 Wk(i) 采样的弱学习器 Ck
5. Ek ←测量的 Ck 的训练误差
6.
7.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310654010.2/2.html,转载请声明来源钻瓜专利网。