[发明专利]一种基于集成学习的模式训练和识别方法无效

专利信息
申请号: 201110303362.4 申请日: 2011-09-30
公开(公告)号: CN102521599A 公开(公告)日: 2012-06-27
发明(设计)人: 唐胜;韩淇;张勇东;李锦涛 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京泛华伟业知识产权代理有限公司 11280 代理人: 王勇
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 集成 学习 模式 训练 识别 方法
【说明书】:

技术领域

本发明涉及智能系统领域,更具体地,涉及模式识别和机器学习领域。

背景技术

对于维数很高的数据来说,传统方法在小数据集上训练出来的检测识别模型,很难囊括各种可能的样本情况,在开放数据集上推广性能差、检测精度低。特别是对于互联网上飞速增长的图像视频数据,不仅特征维数高,且具有覆盖面广、内容多样、更新快等特点,更加迫切需要研究面向大规模训练数据集的模式学习方法,以尽量囊括各种可能出现的样本,提高算法在开放多媒体数据集上的检测精度。

2009年M.Enzweiler和D.M.Gavrila在IEEE Transactions on Pattern Analysis and Machine Intelligence的第2179-2195页上发表的文章“Monocular Pedestrian Detection:Survey and Experiments”通过对图像中行人检测的研究表明:选择最佳的特征和模式分类器组合,所带来的收益没有增大训练样本集所带来的收益明显。由此也说明了面向大规模训练数据集的模式学习方法研究的必要性。

但是,大规模训练数据集对于传统模式学习方法提出了新的挑战:(1)模式种类呈多样性,同一模式的类内距离很大,导致检测精度低;(2)由于训练样本个数的增加导致最优分类面非常复杂,从而使检测速度下降;(3)由于模型训练的时间复杂度通常介于O(n2)至O(n3)之间,其中n为训练样本个数,若再考虑实际内存的限制,当训练样本个数增加到几十万甚至上百万时,在整个训练集上训练单个模型的传统方法是一件难以忍受甚至是几乎不可能的事情。

对于大规模训练样本集,由于训练样本太多,训练和检测速度会显著下降。为了提高效率,集成学习(Ensemble Learning)方法采取“分而治之”的策略,将大规模训练集采取不同的策略划分为不同的子集,然后在每个子集上训练相应的子模型;检测时在对每个子模型上的得分值采用不同的方法进行融合,来计算检测样本的综合得分值,从而给出统一的判别。1995年和1996年著名国际顶级会议Advances in Neural Information Processing Systems及最新相关研究成果表明:一个好的集成分类器由于各分类器之间的知识互补,决策独立,个别分类器带来的错误因互不关联而不会传播到集成分类器中,因而集成分类器比单一分类器更为有效。而且,由于训练时每个子集的样本个数远小于训练样本总数,因而集成学习方法能显著减少内存开销和提高训练效率,同时由于子集上的最优分类面简单,从而能提高检测效率。例如,若将大规模训练数据集分成k个子集,然后对每一个子集进行支持向量机(SVM)训练。由于训练时每个子集的训练样本个数减少到n/k,因此单个子集上的SVM模型训练时间复杂度仅为O(n2/k2)至O(n3/k3)之间。因此,所有k个子集的SVM模型的训练时间复杂度O(n2/k)至O(n3/k2)之间。相对于单个SVM模型训练方法,训练效率提高了k至k2倍。同时由于单个子集上训练样本个数的减少,因此单个子集上SVM模型的支持向量个数也会减少,从而提高了检测速度。

虽然集成学习方法各异,但它们的主要区别在于训练时子集划分策略的不同和检测时融合方法的不同。最早的集成学习方法有随机划分子集的Bagging方法、Boosting和Adaboost方法。不同子分类器结果间的融合主要采用平均融合方法,即将检测样本在所有子分类器上的得分值的平均值作为综合得分值。由于平均融合方法需要全部的子模型参与样本的检测,因而很难进一步提高检测速度。在2009年10月9日提交的,申请号为200910092710.0的专利申请“一种数字图像训练和检测方法”记载了如下的数字图像训练和检测方法,首先对训练样本集进行聚类分析,将样本集分为多个子集,对每个子集训练SVM子模型,检测时根据检测样本在每个子集上的权重系数(样本属于子集的程度系数)对多个SVM子模型上的检测结果进行融合从而确定检测样本的检测结果。但这种权重系数无法保证其稀疏性,因此训练和融合的效率有待于进一步提高,其中稀疏表征非零系数个数较少。

发明内容

本发明的目的是提供一种基于集成学习的模式训练和识别方法,以提高模式训练和识别的速度和模式识别准确度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110303362.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top