[发明专利]一种基于增量学习的分类方法及装置在审
申请号: | 201510824421.0 | 申请日: | 2015-11-24 |
公开(公告)号: | CN106778795A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 王堃;杨丽;王元钢 | 申请(专利权)人: | 华为技术有限公司;南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 广州三环专利代理有限公司44202 | 代理人: | 郝传鑫,熊永强 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 增量 学习 分类 方法 装置 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于增量学习的分类方法及装置。
背景技术
云计算、物联网等新兴技术的快速发展促使数据的规模正以前所未有的速度增长,大数据时代已经到来。如何在海量的复杂数据中及时有效地获取有价值的信息,依赖于一种能够主动学习,并且根据需求自行分析数据中的有价值信息,主动进行数据计算处理的模型——认知计算模型。应理解的,认知计算模型能够快速、准确的发现有价值的信息,提取有效信息并将这些有价值的信息组织起来,给出一个有效的解决方案。
作为一种应用较为普遍的认知计算模型,支持向量机(Support Vector Machine,SVM)分类算法采用的是批量处理算法,由于批量处理算法需要将整个数据集加载到内存之中,而内存的存储量有限,使得该算法不适合于大数据的运算,无法应用于实时性较高的场合。同时,还会使得在构建分类器时需要耗费大量的时间,导致后面到达的数据可能会由于处理不及时导致丢失,造成严重的后果。
发明内容
本发明实施例提供了一种基于增量学习的分类方法及装置,可以实现在增量学习中,主动删除无用的数据以及保留有用的数据,从而提高认知计算模型的适应性和准确率。
本发明实施例第一方面提供了一种基于增量学习的分类方法,包括:
构建分类器并确定分类特征向量;
根据所述分类器和所述分类特征向量,对新增的数据样本进行训练;
根据训练所得到的相关参数,对所述数据样本进行删除和保留。
在第一方面的第一种可能实现方式中,所述构建分类器并确定分类特征向 量,包括:
确定待构建的分类器的数量;
构建各个所述分类器;
确定各个所述分类器的分类特征向量。
在第一方面的第二种可能实现方式中,所述根据所述分类器和所述分类特征向量,对新增的数据样本进行训练,包括:
①通过随机梯度下降SGD算法,随机抽取新增的数据样本子集B1进行训练;
②通过初始分类器Γ1判断所述样本子集B1分类的正确性,并根据判断结果将所述样本子集B1划分为测试错误集Berr和测试正确集Bok;
③判断所述测试错误集Berr是否为空集,
若是,则通过所述SGD算法抽取新一批数据样本进行训练,
若否,则将原始的数据样本中支持向量SV的集合与所述样本子集B1进行合并以得到新的集合和新的分类器Γ2,以及将所述集合中除所述集合的数据样本外的剩余数据样本与所述测试正确集Bok进行合并以得到所述分类器Γ2的增量数据样本集B1′;
重复执行上述①、②和③三个步骤。
结合第一方面的第二种可能实现方式,在第三种可能实现方式中,所述根据训练所得到的相关参数,对所述数据样本进行删除和保留,包括:
根据公式(1)、公式(2)和公式(3),求得遗忘因子αi,其中,αi表示数据样本经T次训练后第i个数据样本支持向量SV的比率,Ti表示总训练次数,ri表示第i个数据样本经训练后支持向量SV的次数,所述测试错误集Berr内每个数据样本的ri=0,所述测试正确集Bok内每个数据样本的ri=1;
根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留。
结合第一方面的第三种可能实现方式,在第四种可能实现方式中,所述根据基于所述遗忘因子αi的预测增量学习机制,对所述数据样本进行删除和保留, 包括:
设置β、γ和δ三个阈值;
比较所述遗忘因子αi与β、γ和δ的大小关系;
根据比较的结果,对所述数据样本进行删除和保留。
结合第一方面的第四种可能实现方式,在第五种可能实现方式中,所述设置β、γ和δ三个阈值之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;南京邮电大学,未经华为技术有限公司;南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510824421.0/2.html,转载请声明来源钻瓜专利网。