[发明专利]一种适用于支持向量机训练的冗余数据约减方法无效

申请号：	201210136985.1	申请日：	2012-05-07
公开（公告）号：	CN102831432A	公开（公告）日：	2012-12-19
发明（设计）人：	沈项军;吴昊翔;蒋中秋;林琳;詹永照;杨鹤标	申请（专利权）人：	江苏大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	楼高潮
地址：	212013 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种适用于支持向量训练冗余数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及人工智能领域，特别是数据挖掘和模式识别技术，是一种基于聚类和费歇尔判别率的冗余数据约减方法，可用于支持向量机的快速训练。

背景技术

分类是人类智能活动的一个重要任务，其目标是将未分类的数据按照一定的规则归类到已知类别中。因此数据分类一直是数据挖掘和模式识别等人工智能技术的重要应用方向，被广泛应用在诸如手写字体识别、人脸识别以及垃圾邮件鉴别等多个领域。目前已出现多种智能分类技术，如判决树（decision tree）方法，神经网络方法（neural network）以及支持向量机（support vector machines）方法等。支持向量机方法由于其具有坚实的统计学习理论基础，成为近年来应用最广泛、分类效果最好的分类器。然而传统的支持向量机适合小样本情况下的训练及分类，这是因为，在支持向量机的样本训练方面，传统上主要利用标准二次型优化技术解决对偶问题的方法来解决，如Platt提出了“序列最小化”(SequentialMinimal Optimization，SMO)算法，这种算法将工作样本集的规模减到最小——两个样本。吴翔等人用块算法的思想对SMO算法进行了改进，称为分块SMO算法(CSMO)。该算法利用分块思想通过某种迭代方式逐步排除非支持向量。这些优化算法的基本思想是把大规模的二次规划问题转化为小规模的二次规划问题，在不太影响计算精度的情况下尽可能提高速度。

然而随着大型数据库，计算机技术及网络技术的发展，出现了海量数据的分类需求，如邮件服务器每天需要处理上百万垃圾邮件的分类，上述算法在应用到海量数据的分类上就显得异常缓慢，往往需要几十、几百小时甚至更长时间才能完成训练任务。在海量数据的支持向量机的分类训练上，出现了各种利用无监督聚类以消除非支持向量数据，即消除冗余数据的方法。这一类方法的基本思想是把数据用各种方法进行分类，然后删去对支持向量机训练分类无影响或影响较小的冗余数据，其缺陷是要牺牲一定分类精度的情况下才能大幅度提升分类的速度，如Cervantes等人提出的使用模糊聚类（Fuzzy Clustering）方法对聚类后的结果进行分析，只保留那些同时含有多类数据的聚类（即在很大概率上有支持向量的聚类）进行支持向量机的训练；Yu等人提出了层次式聚类(Hierarchical Clustering)方法，通过快速计算出粗略的分类面，然后对数据进行多次聚类，每次聚类都保留靠近粗略分类面的那一部分数据，删除远离粗略分类面的冗余数据，最后得到一个较小的样本集。

发明内容

本发明的目的是为克服上述现有技术的缺陷而提供一种适用于支持向量机训练的冗余数据约减方法，利用类最小最大化方法及费歇尔判别率准则，对大规模海量数据上冗余训练数据进行约减，在不降低支持向量机分类精度的条件下，显著提升训练速度。

为实现上述目的，本发明的技术方案是采用如下步骤：A、先将训练数据集合定义为，是n维实向量空间上的数据对象，是数据对象的实际类别标签，共有N个数据对象，数据对象分别属于M个实际类别；然后利用K均值聚类方法将训练数据聚类成K个子类，将K个子类分为所包含的数据对象为单一类别的纯子类集合和子类所含数据对象为两个以上多个类别的混合子类；最后将混合子类MC中每一个混合子类中的数据对象按照其所属实际类别再次划分为多个纯子类，最终分成L个纯子类，得到R+L个纯子类集合。

B、通过类最大最小距离方法对纯子类集合UC筛选，找到离支持向量机的分类面较远的纯子类并予以删除，得到集合S上约减纯类集合后的纯子类子集合RS₁，具体按以下步骤实现：

1）计算集合S上每一个纯子类的聚类中心，对R+L个聚类中心及其对应的实际类别标签组成的集合使用支持向量机分类，得到M-1个近似分类面；

2）从实际类别标签=1开始，选择纯子类UMC中属于同一实际类别标签的若干子集合，计算子集合的某一子集的每一个数据对象到M-1个近似分类面的最近距离，以中所有子集合的距离的极大值作为该实际类别标签LY的类最大距离；

3）选取集合UC上所有实际类别标签均是LY的子集合，H_cj是纯子类个数；

4）从cj=1开始，选取集合中的一个纯子类，计算中每一个数据对象到M-1个近似分类面的最近距离作为该数据对象到M-1个近似分类面的距离，选取所有数据对象到近似分类面的极小值作为纯子类到近似分类面的距离；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏大学，未经江苏大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210136985.1/2.html，转载请声明来源钻瓜专利网。

上一篇：智能型巡航控制系统及利用该系统的车间距控制方法
下一篇：止动装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种适用于支持向量机训练的冗余数据约减方法无效

专利文献下载