[发明专利]适用于支持向量机训练的不平衡样本加权方法在审
申请号: | 201410803911.8 | 申请日: | 2014-12-22 |
公开(公告)号: | CN104463221A | 公开(公告)日: | 2015-03-25 |
发明(设计)人: | 彭长生;沈项军;蔡炜 | 申请(专利权)人: | 江苏科海智能系统有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 镇江京科专利商标代理有限公司 32107 | 代理人: | 夏哲华 |
地址: | 212000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明主要用于人工智能领域,涉及一种适用于支持向量机训练的不平衡样本加权方法。本发明利用聚类和费歇尔判别率准则对冗余数据约减,然后计算约减后的数据样本到模糊分类面的距离,根据这个距离来赋予相应的权值,然后用这些加权后的数据样本进行支持向量机的训练。本发明针对传统的支持向量机在处理大数据集或不平衡数据样本上仍有需要改进和提高的地方,本发明就提出了一种新的算法,在已约减的大样本数据上再进行相应的加权,以此来用于支持向量机的训练学习,不仅提高了支持向量机的训练速度,而且还提高了其分类精度,这对于大样本的数据集的分类是大有裨益的。 | ||
搜索关键词: | 适用于 支持 向量 训练 不平衡 样本 加权 方法 | ||
【主权项】:
一种适用于支持向量机训练的不平衡样本加权方法,其特征是:步骤如下:步骤一:设训练样本数据为TD={(di,Li)|di∈Rn,Li∈{1,...,S},i=1,...,N};di是n维实向量空间Rn上的样本数据对象,Li是样本数据对象di的类别标签;训练样本数据集合TD中共有N个样本数据对象,这些样本数据对象分属于S个类别;用K均值聚类算法将训练样本集中N个样本数据对象数据聚类成K个子类,所得子类为T={Tc|c=1,...,K};根据得到的K个子类中样本数据对象相应的类别分布情况,将这K个子类分为样本数据对象只含一种类别的纯子类UT={utj|j=1,...,P,1≤P≤K}和包含两种或以上类别的混合子类MT={mtq|q=1,...,K‑P},K是UT和MT的并集,即有K=UT∪MT;将MT中每个混合子类中的样本数据对象按其相应类别再划分为多个纯子类,第a个混合子类MTa有两个类别的样本数据对象,就将其再分为两个纯子类,设K‑P个混合子类中还有WC个纯子类即UMT={umtb|b=1,...,WC},最终得到P+W个纯子类集合X=UT∪UMT;步骤二:计算集合X上每个纯子类的聚类中心,设X集合上第g个纯子集的样本数据集合为{dg,h|h=1,...,m},dg,h为训练样本数据集合TD经聚类后在X集合的第g个子集上的样本数据,设该类样本有m个样本数据对象且每个样本数据对象的类别标签都是Sh,则聚类中心
通过X集合上P+WC个聚类中心及相应的类别标签组成集合GS={(Ge,Se)|Se∈{1,...,S},e=1,...P+WC},然后使用libsvm来训练这些类中心,从而得到相应的模糊分类面f(x)=wTx+c,x是模糊分类面上的支持向量,w是根据训练得到的模糊分类面上支持向量的权重,c是偏移量;当f(x)>0时,表示样本数据对象属于某一类,当f(x)<0时,则属于另一类,f(x)=0时,则表示无法判断样本数据对象属于任何一类;支持向量机被设计为两类问题的分类,当样本有S个类别时,采用一对一的两两分类训练得到S(S‑1)/2个模糊分类面,对任意一类样本集合,其模糊分类面都为S‑1个;步骤三:采用类最大最小距离方法对纯子类集合UT进行遴选,从其中找到离分类面较远的某些纯子类,将这些纯子类看作是不包含支持向量的,删除这些子类以减少集合X中所包含的对训练作用不大的样本数据,得到集合X上约减纯类集合后的子集RX1;步骤四:利用费歇尔判别法对遴选后得到的纯子类集合RX1继续消除子类内层冗余数据,得到样本数据集RX2,假设RX2中剩下了M个子类集合;步骤五:计算步骤四当中的样本数据集RX2中各个数据对象到模糊分类面的距离disi,然后依照样本加权公式Vi=(1+disi)‑z,i=1,...,M;其中Vi是相应的权值,z是经过试验后得到的一个取值在1.0‑1.2之间的一个变量;对RX2中剩下的M个子类中所有的数据对象根据到模糊分类面的远近分配相应的权值Vi,经过加权之后的样本数据集合RX2最后变为最终用来训练的样本数据集RX3;步骤六:对最后保留下来的样本数据集RX3进行SVM训练,就可以得到最终的支持向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏科海智能系统有限公司,未经江苏科海智能系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410803911.8/,转载请声明来源钻瓜专利网。