[发明专利]一种基于集成学习的模式训练和识别方法无效

申请号：	201110303362.4	申请日：	2011-09-30
公开（公告）号：	CN102521599A	公开（公告）日：	2012-06-27
发明（设计）人：	唐胜;韩淇;张勇东;李锦涛	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京泛华伟业知识产权代理有限公司 11280	代理人：	王勇
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于集成学习模式训练识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及智能系统领域，更具体地，涉及模式识别和机器学习领域。

背景技术

对于维数很高的数据来说，传统方法在小数据集上训练出来的检测识别模型，很难囊括各种可能的样本情况，在开放数据集上推广性能差、检测精度低。特别是对于互联网上飞速增长的图像视频数据，不仅特征维数高，且具有覆盖面广、内容多样、更新快等特点，更加迫切需要研究面向大规模训练数据集的模式学习方法，以尽量囊括各种可能出现的样本，提高算法在开放多媒体数据集上的检测精度。

2009年M.Enzweiler和D.M.Gavrila在IEEE Transactions on Pattern Analysis and Machine Intelligence的第2179-2195页上发表的文章“Monocular Pedestrian Detection：Survey and Experiments”通过对图像中行人检测的研究表明：选择最佳的特征和模式分类器组合，所带来的收益没有增大训练样本集所带来的收益明显。由此也说明了面向大规模训练数据集的模式学习方法研究的必要性。

但是，大规模训练数据集对于传统模式学习方法提出了新的挑战：(1)模式种类呈多样性，同一模式的类内距离很大，导致检测精度低；(2)由于训练样本个数的增加导致最优分类面非常复杂，从而使检测速度下降；(3)由于模型训练的时间复杂度通常介于O(n²)至O(n³)之间，其中n为训练样本个数，若再考虑实际内存的限制，当训练样本个数增加到几十万甚至上百万时，在整个训练集上训练单个模型的传统方法是一件难以忍受甚至是几乎不可能的事情。

对于大规模训练样本集，由于训练样本太多，训练和检测速度会显著下降。为了提高效率，集成学习(Ensemble Learning)方法采取“分而治之”的策略，将大规模训练集采取不同的策略划分为不同的子集，然后在每个子集上训练相应的子模型；检测时在对每个子模型上的得分值采用不同的方法进行融合，来计算检测样本的综合得分值，从而给出统一的判别。1995年和1996年著名国际顶级会议Advances in Neural Information Processing Systems及最新相关研究成果表明：一个好的集成分类器由于各分类器之间的知识互补，决策独立，个别分类器带来的错误因互不关联而不会传播到集成分类器中，因而集成分类器比单一分类器更为有效。而且，由于训练时每个子集的样本个数远小于训练样本总数，因而集成学习方法能显著减少内存开销和提高训练效率，同时由于子集上的最优分类面简单，从而能提高检测效率。例如，若将大规模训练数据集分成k个子集，然后对每一个子集进行支持向量机(SVM)训练。由于训练时每个子集的训练样本个数减少到n/k，因此单个子集上的SVM模型训练时间复杂度仅为O(n²/k²)至O(n³/k³)之间。因此，所有k个子集的SVM模型的训练时间复杂度O(n²/k)至O(n³/k²)之间。相对于单个SVM模型训练方法，训练效率提高了k至k²倍。同时由于单个子集上训练样本个数的减少，因此单个子集上SVM模型的支持向量个数也会减少，从而提高了检测速度。

虽然集成学习方法各异，但它们的主要区别在于训练时子集划分策略的不同和检测时融合方法的不同。最早的集成学习方法有随机划分子集的Bagging方法、Boosting和Adaboost方法。不同子分类器结果间的融合主要采用平均融合方法，即将检测样本在所有子分类器上的得分值的平均值作为综合得分值。由于平均融合方法需要全部的子模型参与样本的检测，因而很难进一步提高检测速度。在2009年10月9日提交的，申请号为200910092710.0的专利申请“一种数字图像训练和检测方法”记载了如下的数字图像训练和检测方法，首先对训练样本集进行聚类分析，将样本集分为多个子集，对每个子集训练SVM子模型，检测时根据检测样本在每个子集上的权重系数(样本属于子集的程度系数)对多个SVM子模型上的检测结果进行融合从而确定检测样本的检测结果。但这种权重系数无法保证其稀疏性，因此训练和融合的效率有待于进一步提高，其中稀疏表征非零系数个数较少。

发明内容

本发明的目的是提供一种基于集成学习的模式训练和识别方法，以提高模式训练和识别的速度和模式识别准确度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110303362.4/2.html，转载请声明来源钻瓜专利网。

上一篇：一种表面覆盖锆砂的高耐火度铝热焊底板
下一篇：一种铁路无缝线路绝缘接头

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于集成学习的模式训练和识别方法无效

专利文献下载