[发明专利]递减子空间集成学习算法无效

专利信息
申请号: 201310654010.2 申请日: 2013-12-09
公开(公告)号: CN103631753A 公开(公告)日: 2014-03-12
发明(设计)人: 陈科;周羿 申请(专利权)人: 天津工业大学
主分类号: G06F15/18 分类号: G06F15/18
代理公司: 天津市杰盈专利代理有限公司 12207 代理人: 朱红星
地址: 300387 天津市*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种新的不断以子样本集进行进程学习的算法,属于数据挖掘领域。本发明是借鉴boosting算法思想产生的递减子空间集成学习算法。在一次分类过程中,本发明通过对原始数据进行筛选,使下一层分类器更好的排除一些不必要的训练数据特征,并将关键放在关键的训练数据上面从而获得较高的分类精度。本发明重点是解决现在提高单个分类器准确率的问题。
搜索关键词: 递减 空间 集成 学习 算法
【主权项】:
递减子空间集成学习算法,所述算法的输入包括训练集Dtrain,测试集Dtest,校验集Dvalid,输出包括一列分类器C0, C1,…,Ck’以及相应的置信度阈值l0, l1,…,lk’    其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述步骤为:(1)把Dtrain作为D0输入;(2)把0赋值给k ;(3)循环开始,把k+1赋值给k;(4)在 Dk上训练,得到分类器 Ck;(5)用Ck测试Dk中每个样本的置信度,置信度如下定义:假设分类器C预测样本s属于类标签T1,T2,…, Tm的概率分别为p1, p2,…, pm, 则分类器C对样本s预测的置信度定义为p1, p2,…, pm的最大值;设置最低的置信度水平lk,把置信度水平高于lk的样本从Dk中删除,得到Dk+1;(6)满足Dk中样本的个数Sizeof(Dk)<λ*Num(Feature)时循环结束,其中Num(Feature)指样本的特征个数,而λ为常数;(7)把迭代的次数赋值给n;(8)循环开始,k从0 到 n(9)计算使用分类器组C0, C1,…,Ck在Dvalid上的错误率Ek,对于检验集或测试集中的样本,依次使用C0, C1,…,Ck进行预测,若存在某个Ci预测的置信度高于li,则Ci的预测被采用,其后的分类器不需再使用;若不存在任何Ci预测的置信度高于li,则该样本采用Ck的预测;(10)保存最低的错误率E ’与k’(11)返回 k’, C0, C1,…,Ck’以及l0, l1,…,lk’(12)算法结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津工业大学,未经天津工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310654010.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top