[发明专利]一种基于半监督学习的GA-SOM聚类方法无效
申请号: | 201010576193.7 | 申请日: | 2010-12-07 |
公开(公告)号: | CN102024179A | 公开(公告)日: | 2011-04-20 |
发明(设计)人: | 孙雁飞;张顺颐;亓晋;顾成杰;朱伟春;王攀 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06N3/12 | 分类号: | G06N3/12 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于半监督学习的GA-SOM聚类方法,该方法在自组织特征映射(Self-Organization Map,SOM)神经网络的基础上,结合半监督学习方式,并利用遗传算法(GeneticAlgorithm,GA)优化,弥补了SOM网络存在的弊端。该聚类方法主要分为三个部分:(1)半监督学习模块,负责初始化训练样本;(2)GA模块,负责训练过程的参数优化;(3)SOM模块,作为训练机进行样本聚类。该方法在分类问题上具有良好灵活性和扩展性,能够完成大量未知样本的特征聚类,并提高了原SOM网络的学习速度和分类精度,且聚类学习过程不容易发生振荡。 | ||
搜索关键词: | 一种 基于 监督 学习 ga som 方法 | ||
【主权项】:
1.一种基于半监督学习的GA-SOM聚类方法,其特征在于,包括如下步骤:步骤1),对样本数据进行预处理,所述预处理过程包括空值处理、归一化数据;步骤2),采用半监督学习策略对预处理后的样本数据进行初始化,具体步骤为:2)-A、根据历史数据及专家库鉴定,去除样本中冗余信息,设样本X=(x1,x2,...,xm),其中m为样本总数,经由专家库及历史数据产生一个关键数据比例权值β,β∈(0,1),所述关键数据由专家库及历史数据对样本数据进行查询匹配得出,该数据代表某种类别,β即为关键数据占总数据的比例;2)-B、初始化t=0,t是指循环次数;2)-C、对样本数据按照从小至大的顺序进行标记,标记数为:Numtag=mβ+σ,其中σ∈{1,2,...,m-mβ};2)-D、采用SOM网络进行数据样本训练;2)-E、令t=t+1,返回执行2)-C步骤;2)-F、当满足条件Numtag=m时,训练结束,样本数据初始化完成;步骤3),确定网络输入模式:令Xi=(x1,x2,...,xn),其中i表示第i个样本,n为输入层节点数,即为样本总数;步骤4),根据以下公式计算输入模式Xi与所有输出节点间权向量的欧式距离:
其中,n表示输入层节点数、y表示输出层节点数、i表示输入节点、j表示输出节点,wij表示输入节点与输出节点之间的连接权值,
表示第i个输入节点下的第k个样本,n、y、i、j、k均为正整数;步骤5),取最小欧式距离作为获胜节点c;步骤6),计算获胜节点c的适应度值,选出具有最小聚类中心的最大节点权值Wmax,进而更新获胜节点c的权值;其中Wmax=dmin(Ci′,Cj′),即计算Ci′、Cj′这两个类的聚类中心距离,距离最小适应度最好;具体步骤为:参数定义:用Y表示获胜节点c的所有样本空间,yi′表示不同的特征元,即Y={yi′|i′=1,...m′},m′为获胜节点c的样本总数,过程如下:6)-a步,另t′=0,t′指循环次数,根据步骤2)所述的步骤初始化特征子集:G(t′)={y1,y2,...,yn′};6)-b步,根据适应值函数评价特征元;所述适应值函数采用优化问题的目标函数选取,即
其中Ci′、Cj′表示两个不同聚类,Pi′、Pj′表示个体被选中的概率,Wmax表示最大权值,dmin表示与Wmax对应的最小聚集中心;6)-c步,进化体系,具体步骤为:6)-c-1,初始化计数器i′=1,判断i′是否小于m′,当i′小于m′,进入下一步;否则终止迭代进入步骤7);6)-c-2,母体选择:通过该个体的适应度与群体其他成员的适应度比值进行选择,个体被选中的概率Pi′与它的适应度比值成正比,
;其中f(yi′)为yi′的适应度值,group_size表示种群大小;yk′与yi′均表示获胜节点c某个子代个体;6)-c-3,母体经过交叉产生n′个中间个体(O1,O2,...,On′);n′为正整数;6)-c-4,n′个中间个体(O1,O2,...,On′)经过变异产生n′个全新的子代,即特征子集;6-d步,将新产生的子代加入G(t′),并计算适应度值;6-e步,选出适应度从高至低的m′个个体,作为下一次的训练样本,即G(t′)→G(t′+1),并转至6-b步骤;6-f步,当6-e步的迭代次数超过样本总数m′的2倍时终止迭代;步骤7),确定获胜节点c的邻域范围NC,NC取高斯函数表示,根据以下公式调整获胜节点c的权向量:
其中,
表示权值wi′j′的调整大小,ε(t′)随时间t′呈衰减趋势;wi′j′表示获胜节点c与输入节点之间的连接权值,
表示获胜节点c的第i′个输入节点下的第k′个样本;以上i′、j′、k′均为正整数;步骤8),判断ε(t′)是否为0或迭代达到指定的最大次数,当结果为是,训练结束,分类不再改变,聚类过程终止;否则转至步骤3),继续执行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010576193.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种新型减速箱传动轴
- 下一篇:龙头节水出水嘴