[发明专利]一种基于集成学习的模式训练和识别方法无效
申请号: | 201110303362.4 | 申请日: | 2011-09-30 |
公开(公告)号: | CN102521599A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 唐胜;韩淇;张勇东;李锦涛 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 模式 训练 识别 方法 | ||
技术领域
本发明涉及智能系统领域,更具体地,涉及模式识别和机器学习领域。
背景技术
对于维数很高的数据来说,传统方法在小数据集上训练出来的检测识别模型,很难囊括各种可能的样本情况,在开放数据集上推广性能差、检测精度低。特别是对于互联网上飞速增长的图像视频数据,不仅特征维数高,且具有覆盖面广、内容多样、更新快等特点,更加迫切需要研究面向大规模训练数据集的模式学习方法,以尽量囊括各种可能出现的样本,提高算法在开放多媒体数据集上的检测精度。
2009年M.Enzweiler和D.M.Gavrila在IEEE Transactions on Pattern Analysis and Machine Intelligence的第2179-2195页上发表的文章“Monocular Pedestrian Detection:Survey and Experiments”通过对图像中行人检测的研究表明:选择最佳的特征和模式分类器组合,所带来的收益没有增大训练样本集所带来的收益明显。由此也说明了面向大规模训练数据集的模式学习方法研究的必要性。
但是,大规模训练数据集对于传统模式学习方法提出了新的挑战:(1)模式种类呈多样性,同一模式的类内距离很大,导致检测精度低;(2)由于训练样本个数的增加导致最优分类面非常复杂,从而使检测速度下降;(3)由于模型训练的时间复杂度通常介于O(n2)至O(n3)之间,其中n为训练样本个数,若再考虑实际内存的限制,当训练样本个数增加到几十万甚至上百万时,在整个训练集上训练单个模型的传统方法是一件难以忍受甚至是几乎不可能的事情。
对于大规模训练样本集,由于训练样本太多,训练和检测速度会显著下降。为了提高效率,集成学习(Ensemble Learning)方法采取“分而治之”的策略,将大规模训练集采取不同的策略划分为不同的子集,然后在每个子集上训练相应的子模型;检测时在对每个子模型上的得分值采用不同的方法进行融合,来计算检测样本的综合得分值,从而给出统一的判别。1995年和1996年著名国际顶级会议Advances in Neural Information Processing Systems及最新相关研究成果表明:一个好的集成分类器由于各分类器之间的知识互补,决策独立,个别分类器带来的错误因互不关联而不会传播到集成分类器中,因而集成分类器比单一分类器更为有效。而且,由于训练时每个子集的样本个数远小于训练样本总数,因而集成学习方法能显著减少内存开销和提高训练效率,同时由于子集上的最优分类面简单,从而能提高检测效率。例如,若将大规模训练数据集分成k个子集,然后对每一个子集进行支持向量机(SVM)训练。由于训练时每个子集的训练样本个数减少到n/k,因此单个子集上的SVM模型训练时间复杂度仅为O(n2/k2)至O(n3/k3)之间。因此,所有k个子集的SVM模型的训练时间复杂度O(n2/k)至O(n3/k2)之间。相对于单个SVM模型训练方法,训练效率提高了k至k2倍。同时由于单个子集上训练样本个数的减少,因此单个子集上SVM模型的支持向量个数也会减少,从而提高了检测速度。
虽然集成学习方法各异,但它们的主要区别在于训练时子集划分策略的不同和检测时融合方法的不同。最早的集成学习方法有随机划分子集的Bagging方法、Boosting和Adaboost方法。不同子分类器结果间的融合主要采用平均融合方法,即将检测样本在所有子分类器上的得分值的平均值作为综合得分值。由于平均融合方法需要全部的子模型参与样本的检测,因而很难进一步提高检测速度。在2009年10月9日提交的,申请号为200910092710.0的专利申请“一种数字图像训练和检测方法”记载了如下的数字图像训练和检测方法,首先对训练样本集进行聚类分析,将样本集分为多个子集,对每个子集训练SVM子模型,检测时根据检测样本在每个子集上的权重系数(样本属于子集的程度系数)对多个SVM子模型上的检测结果进行融合从而确定检测样本的检测结果。但这种权重系数无法保证其稀疏性,因此训练和融合的效率有待于进一步提高,其中稀疏表征非零系数个数较少。
发明内容
本发明的目的是提供一种基于集成学习的模式训练和识别方法,以提高模式训练和识别的速度和模式识别准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110303362.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种表面覆盖锆砂的高耐火度铝热焊底板
- 下一篇:一种铁路无缝线路绝缘接头