[发明专利]一种基于半监督学习的GA-SOM聚类方法无效

专利信息
申请号: 201010576193.7 申请日: 2010-12-07
公开(公告)号: CN102024179A 公开(公告)日: 2011-04-20
发明(设计)人: 孙雁飞;张顺颐;亓晋;顾成杰;朱伟春;王攀 申请(专利权)人: 南京邮电大学
主分类号: G06N3/12 分类号: G06N3/12
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 许方
地址: 210003 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于半监督学习的GA-SOM聚类方法,该方法在自组织特征映射(Self-Organization Map,SOM)神经网络的基础上,结合半监督学习方式,并利用遗传算法(GeneticAlgorithm,GA)优化,弥补了SOM网络存在的弊端。该聚类方法主要分为三个部分:(1)半监督学习模块,负责初始化训练样本;(2)GA模块,负责训练过程的参数优化;(3)SOM模块,作为训练机进行样本聚类。该方法在分类问题上具有良好灵活性和扩展性,能够完成大量未知样本的特征聚类,并提高了原SOM网络的学习速度和分类精度,且聚类学习过程不容易发生振荡。
搜索关键词: 一种 基于 监督 学习 ga som 方法
【主权项】:
1.一种基于半监督学习的GA-SOM聚类方法,其特征在于,包括如下步骤:步骤1),对样本数据进行预处理,所述预处理过程包括空值处理、归一化数据;步骤2),采用半监督学习策略对预处理后的样本数据进行初始化,具体步骤为:2)-A、根据历史数据及专家库鉴定,去除样本中冗余信息,设样本X=(x1,x2,...,xm),其中m为样本总数,经由专家库及历史数据产生一个关键数据比例权值β,β∈(0,1),所述关键数据由专家库及历史数据对样本数据进行查询匹配得出,该数据代表某种类别,β即为关键数据占总数据的比例;2)-B、初始化t=0,t是指循环次数;2)-C、对样本数据按照从小至大的顺序进行标记,标记数为:Numtag=mβ+σ,其中σ∈{1,2,...,m-mβ};2)-D、采用SOM网络进行数据样本训练;2)-E、令t=t+1,返回执行2)-C步骤;2)-F、当满足条件Numtag=m时,训练结束,样本数据初始化完成;步骤3),确定网络输入模式:令Xi=(x1,x2,...,xn),其中i表示第i个样本,n为输入层节点数,即为样本总数;步骤4),根据以下公式计算输入模式Xi与所有输出节点间权向量的欧式距离:其中,n表示输入层节点数、y表示输出层节点数、i表示输入节点、j表示输出节点,wij表示输入节点与输出节点之间的连接权值,表示第i个输入节点下的第k个样本,n、y、i、j、k均为正整数;步骤5),取最小欧式距离作为获胜节点c;步骤6),计算获胜节点c的适应度值,选出具有最小聚类中心的最大节点权值Wmax,进而更新获胜节点c的权值;其中Wmax=dmin(Ci′,Cj′),即计算Ci′、Cj′这两个类的聚类中心距离,距离最小适应度最好;具体步骤为:参数定义:用Y表示获胜节点c的所有样本空间,yi′表示不同的特征元,即Y={yi′|i′=1,...m′},m′为获胜节点c的样本总数,过程如下:6)-a步,另t′=0,t′指循环次数,根据步骤2)所述的步骤初始化特征子集:G(t′)={y1,y2,...,yn′};6)-b步,根据适应值函数评价特征元;所述适应值函数采用优化问题的目标函数选取,即其中Ci′、Cj′表示两个不同聚类,Pi′、Pj′表示个体被选中的概率,Wmax表示最大权值,dmin表示与Wmax对应的最小聚集中心;6)-c步,进化体系,具体步骤为:6)-c-1,初始化计数器i′=1,判断i′是否小于m′,当i′小于m′,进入下一步;否则终止迭代进入步骤7);6)-c-2,母体选择:通过该个体的适应度与群体其他成员的适应度比值进行选择,个体被选中的概率Pi′与它的适应度比值成正比,;其中f(yi′)为yi′的适应度值,group_size表示种群大小;yk′与yi′均表示获胜节点c某个子代个体;6)-c-3,母体经过交叉产生n′个中间个体(O1,O2,...,On′);n′为正整数;6)-c-4,n′个中间个体(O1,O2,...,On′)经过变异产生n′个全新的子代,即特征子集;6-d步,将新产生的子代加入G(t′),并计算适应度值;6-e步,选出适应度从高至低的m′个个体,作为下一次的训练样本,即G(t′)→G(t′+1),并转至6-b步骤;6-f步,当6-e步的迭代次数超过样本总数m′的2倍时终止迭代;步骤7),确定获胜节点c的邻域范围NC,NC取高斯函数表示,根据以下公式调整获胜节点c的权向量:其中,表示权值wi′j′的调整大小,ε(t′)随时间t′呈衰减趋势;wi′j′表示获胜节点c与输入节点之间的连接权值,表示获胜节点c的第i′个输入节点下的第k′个样本;以上i′、j′、k′均为正整数;步骤8),判断ε(t′)是否为0或迭代达到指定的最大次数,当结果为是,训练结束,分类不再改变,聚类过程终止;否则转至步骤3),继续执行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010576193.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top