[发明专利]一种基于局部敏感哈希的SVM快速增量学习算法在审
申请号: | 201710275575.8 | 申请日: | 2017-04-25 |
公开(公告)号: | CN107194414A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 姚明海;林宣民;陈志浩;顾勤龙;王宪保 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州之江专利事务所(普通合伙)33216 | 代理人: | 林蜀 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 敏感 svm 快速 增量 学习 算法 | ||
技术领域
本发明涉及计算机模式识别领域,特别是涉及一种基于局部敏感哈希的SVM快速增量学习算法。
背景技术
近年来,随着计算机网络技术和传感器技术的发展,应用软件和设备产生了大量的高维数据,且规模呈几何级数增加。如何从这些数据中学习、抽取出有用的知识,至少有两个主要的问题需要解决:一是如何处理不断增长的数据,同时保持学习训练得到模型的高性能;以及其如何快速适应动态环境。第一个问题可以通过增量学习的重要信息来解决。对于第二个问题,可以通过快速删除在学习中的不重要的数据来减少学习时间。
支持向量机(SVM)是一种以统计学习理论为基础的机器学习技术,主要应用于求解监督学习问题。在实际应用中,训练样本常常表现出上述的特点,这就要求分类器不断地对新样本重新训练。而增量学习旨在获得原训练样本与新增样本并集的最优解。因此,对于不断增长的数据集来说,SVM增量学习具有其独特的优势。Syed 最早提出了基于支持向量机的增量学习算法:固定划分增量学习算法。其基本思想是:每次增量过程只保留支持向量集,舍弃非支持向量集,并本次SV集与所有新增样本作为下一次增量学习的训练样本。但事实上,这样没有对新增样本进行筛选,将其中没用不重要的样本也进行了训练,导致增量训练速度变慢了;同时其中的一些糟糕的样本有可能会影响精度。也有引入卡罗需-库恩-塔克条件(KKT)条件,来提取新增样本中的有用信息,即卡罗需-库恩-塔克条件的SVM增量学习(KKT-ISVM)。后来的文献都是基于KKT条件进行改进。也有的文献引入了错误驱动的概念,把错分类样本也考虑在内。而2014年的文献《一种新的基于 KKT 条件的错误驱动 SVM 增量学习算法》提出新的基于KKT条件的错误驱动SVM增量学习。这些增量学习大部分利用KKT条件来筛选新增样本,虽然克服了前一类方法在学习过程中可能丢失重要数据样本的缺陷,但是其筛选速度慢,影响了训练学习的总体速度,在实时工业生产中无法满足要求。
发明内容
为解决现有技术的不足,提供一种基于局部敏感哈希的SVM快速增量学习算法,这种算法充分利用历史训练结果,在学习过程中选择最有可能成为新SV的样本,舍弃对分类结果没有贡献的历史样本,从而达到加快训练速度,减少存储空间的目的。
为实现上述目的,本发明采用以下技术方案:
一种基于局部敏感哈希的SVM快速增量学习算法,包括以下步骤:
步骤1:训练初始样本集得到支持向量集(SV集),SV集可以充分描述整个训练样本集的特征,和训练样本集是等价的;
步骤2:使用局部敏感哈希函数进行哈希编码投影,得到SV集对应的哈希编码集,称为PCA-LSH方法;
步骤3:将新来的样本通过同样的PCA-LSH方法进行哈希编码,得到对应的哈希编码值,筛选出与上一步得到的SV集的哈希编码值相邻近的样本,得到新增样本筛选后的样本集;
步骤4:将这些经过筛选的新增样本与初始训练样本得到的SV集一起进行训练来更新分类器;
步骤5:步骤(3)和(4)进行迭代,直到没有新的样本到来为止。
上述的一种基于局部敏感哈希的SVM快速增量学习算法,所述的步骤2包括以下子步骤:
步骤21,利用主成分分析(PCA)投影得到特征向量,使得这种特征子空间拥有很好的近似输入空间,逼近误差可以通过累积输入特征成分的近似子空间占整个输入空间的比率来控制;
步骤22,利用PCA-LSH方法将之前训练得到的支持向量集(SV集)进行局部敏感哈希投影,得到各个支持向量对应的哈希编码值,组成一个初始化的哈希表。
上述的一种基于局部敏感哈希的SVM快速增量学习算法,所述的步骤3包括以下子步骤:
步骤31,判断是否有新增样本进入,如果有,则继续第二子步骤;如果没有则直接将SV集输出,此时的SV集就是最终的分类器f的分类判断标准;
步骤32,利用PCA-LSH方法将新增样本进行逐一的哈希编码,得到一系列哈希编码值;
步骤33,根据预先设定的正确率,筛选出新增样本中哈希值落在初始化哈希表的样本,这样使得邻近原SV集的新增样本得以保留,这些样本是影响新分类器SV集的重要数据样本;如果都不存在,则直接跳到下一个新增样本集筛选;如果有,继续步骤四。
上述的一种基于局部敏感哈希的SVM快速增量学习算法,所述的步骤4包括以下子步骤:
步骤41,将筛选出来的符合要求的样本和初始化SV集一起作为下一次SVM学习的训练集,得到一个新的SV集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710275575.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种湿法磷酸尾气双循环脱氟处理系统及处理方法
- 下一篇:环保型碳烤炉