[发明专利]递减子空间集成学习算法无效
申请号: | 201310654010.2 | 申请日: | 2013-12-09 |
公开(公告)号: | CN103631753A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | 陈科;周羿 | 申请(专利权)人: | 天津工业大学 |
主分类号: | G06F15/18 | 分类号: | G06F15/18 |
代理公司: | 天津市杰盈专利代理有限公司 12207 | 代理人: | 朱红星 |
地址: | 300387 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 递减 空间 集成 学习 算法 | ||
1.递减子空间集成学习算法,所述算法的输入包括训练集Dtrain,测试集Dtest,校验集Dvalid,输出包括一列分类器C0, C1,…,Ck’以及相应的置信度阈值l0, l1,…,lk’
其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述步骤为:
(1)把Dtrain作为D0输入;
(2)把0赋值给k ;
(3)循环开始,把k+1赋值给k;
(4)在 Dk上训练,得到分类器 Ck;
(5)用Ck测试Dk中每个样本的置信度,置信度如下定义:假设分类器C预测样本s属于类标签T1,T2,…, Tm的概率分别为p1, p2,…, pm, 则分类器C对样本s预测的置信度定义为p1, p2,…, pm的最大值;设置最低的置信度水平lk,把置信度水平高于lk的样本从Dk中删除,得到Dk+1;
(6)满足Dk中样本的个数Sizeof(Dk)<λ*Num(Feature)时循环结束,其中Num(Feature)指样本的特征个数,而λ为常数;
(7)把迭代的次数赋值给n;
(8)循环开始,k从0 到 n
(9)计算使用分类器组C0, C1,…,Ck在Dvalid上的错误率Ek,对于检验集或测试集中的样本,依次使用C0, C1,…,Ck进行预测,若存在某个Ci预测的置信度高于li,则Ci的预测被采用,其后的分类器不需再使用;若不存在任何Ci预测的置信度高于li,则该样本采用Ck的预测;(10)保存最低的错误率E ’与k’
(11)返回 k’, C0, C1,…,Ck’以及l0, l1,…,lk’
(12)算法结束。
2.根据权利要求1所述的方法,其特征在于,所述方案中是将(Cn,Dtrain,Dtest,Dvalid,lk,终止条件,预测样本的筛选)公开,其中,
Cn 表示第n次迭代中学习得到的分类器;
Dtrain表示训练集;
Dtest表示测试集;
Dvalid表示校验集;
lk按如下方式计算:我们设定比例a%(0<a<100),把Dk中样本的置信度降序排列,Dk可以按比例a%分割为两部分,其一是置信度较高的a%样本,其二是置信度较低的1- a%样本,分割两部分样本的阈值即设置为lk。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310654010.2/1.html,转载请声明来源钻瓜专利网。