[发明专利]递减子空间集成学习算法无效

申请号：	201310654010.2	申请日：	2013-12-09
公开（公告）号：	CN103631753A	公开（公告）日：	2014-03-12
发明（设计）人：	陈科;周羿	申请（专利权）人：	天津工业大学
主分类号：	G06F15/18	分类号：	G06F15/18
代理公司：	天津市杰盈专利代理有限公司 12207	代理人：	朱红星
地址：	300387 天津市***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	递减空间集成学习算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.递减子空间集成学习算法，所述算法的输入包括训练集D_train，测试集D_test，校验集D_valid，输出包括一列分类器C₀, C₁,…,C_k’以及相应的置信度阈值l₀, l₁,…,l_k’

其特征在于，通过对训练样本空间的调整来生成一系列基分类器，而在样本调整方面则借鉴了AdaBoost的思想，一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度（confidence），置信度较高，表明当前分类器有较大概率对其正确分类；反之，如果置信度较低，则表明当前分类器对该样本的分类没有把握；通过不断地把具有较高置信度的样本从训练集中移除，新生成的训练集都是迭代前训练集的子集；所述步骤为：

（1）把D_train作为D₀输入；

（2）把0赋值给k ；

（3）循环开始，把k+1赋值给k；

（4）在 D_k上训练，得到分类器 C_k；

（5）用C_k测试D_k中每个样本的置信度，置信度如下定义：假设分类器C预测样本s属于类标签T₁，T₂，…, T_m的概率分别为p₁, p₂,…, p_m, 则分类器C对样本s预测的置信度定义为p₁, p₂,…, p_m的最大值;设置最低的置信度水平l_k,把置信度水平高于l_k的样本从D_k中删除，得到D_k+1；

（6）满足D_k中样本的个数Sizeof(D_k)<λ*Num(Feature)时循环结束,其中Num(Feature)指样本的特征个数，而λ为常数；

（7）把迭代的次数赋值给n;

（8）循环开始，k从0 到 n

（9）计算使用分类器组C₀, C₁,…,C_k在D_valid上的错误率E_k,对于检验集或测试集中的样本，依次使用C₀, C₁,…,C_k进行预测，若存在某个C_i预测的置信度高于l_i，则C_i的预测被采用，其后的分类器不需再使用；若不存在任何C_i预测的置信度高于l_i，则该样本采用C_k的预测;（10）保存最低的错误率E ’与k’