[发明专利]一种基于半监督学习的GA-SOM聚类方法无效

申请号：	201010576193.7	申请日：	2010-12-07
公开（公告）号：	CN102024179A	公开（公告）日：	2011-04-20
发明（设计）人：	孙雁飞;张顺颐;亓晋;顾成杰;朱伟春;王攀	申请（专利权）人：	南京邮电大学
主分类号：	G06N3/12	分类号：	G06N3/12
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	许方
地址：	210003 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于半监督学习的GA-SOM聚类方法，该方法在自组织特征映射(Self-Organization Map，SOM)神经网络的基础上，结合半监督学习方式，并利用遗传算法(GeneticAlgorithm，GA)优化，弥补了SOM网络存在的弊端。该聚类方法主要分为三个部分：(1)半监督学习模块，负责初始化训练样本；(2)GA模块，负责训练过程的参数优化；(3)SOM模块，作为训练机进行样本聚类。该方法在分类问题上具有良好灵活性和扩展性，能够完成大量未知样本的特征聚类，并提高了原SOM网络的学习速度和分类精度，且聚类学习过程不容易发生振荡。
搜索关键词：	一种基于监督学习 ga som 方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于半监督学习的GA-SOM聚类方法，其特征在于，包括如下步骤：步骤1)，对样本数据进行预处理，所述预处理过程包括空值处理、归一化数据；步骤2)，采用半监督学习策略对预处理后的样本数据进行初始化，具体步骤为：2)-A、根据历史数据及专家库鉴定，去除样本中冗余信息，设样本X＝(x₁，x₂，...，x_m)，其中m为样本总数，经由专家库及历史数据产生一个关键数据比例权值β，β∈(0，1)，所述关键数据由专家库及历史数据对样本数据进行查询匹配得出，该数据代表某种类别，β即为关键数据占总数据的比例；2)-B、初始化t＝0，t是指循环次数；2)-C、对样本数据按照从小至大的顺序进行标记，标记数为：Num_tag＝mβ+σ，其中σ∈{1，2，...，m-mβ}；2)-D、采用SOM网络进行数据样本训练；2)-E、令t＝t+1，返回执行2)-C步骤；2)-F、当满足条件Num_tag＝m时，训练结束，样本数据初始化完成；步骤3)，确定网络输入模式：令Xⁱ＝(x₁，x₂，...，x_n)，其中i表示第i个样本，n为输入层节点数，即为样本总数；步骤4)，根据以下公式计算输入模式X_i与所有输出节点间权向量的欧式距离：其中，n表示输入层节点数、y表示输出层节点数、i表示输入节点、j表示输出节点，w_ij表示输入节点与输出节点之间的连接权值，表示第i个输入节点下的第k个样本，n、y、i、j、k均为正整数；步骤5)，取最小欧式距离作为获胜节点c；步骤6)，计算获胜节点c的适应度值，选出具有最小聚类中心的最大节点权值W_max，进而更新获胜节点c的权值；其中W_max＝d_min(C_i′，C_j′)，即计算C_i′、C_j′这两个类的聚类中心距离，距离最小适应度最好；具体步骤为：参数定义：用Y表示获胜节点c的所有样本空间，y_i′表示不同的特征元，即Y＝{y_i′|i′＝1，...m′}，m′为获胜节点c的样本总数，过程如下：6)-a步，另t′＝0，t′指循环次数，根据步骤2)所述的步骤初始化特征子集：G(t′)＝{y₁，y₂，...，y_n′}；6)-b步，根据适应值函数评价特征元；所述适应值函数采用优化问题的目标函数选取，即其中C_i′、C_j′表示两个不同聚类，P_i′、P_j′表示个体被选中的概率，W_max表示最大权值，d_min表示与W_max对应的最小聚集中心；6)-c步，进化体系，具体步骤为：6)-c-1，初始化计数器i′＝1，判断i′是否小于m′，当i′小于m′，进入下一步；否则终止迭代进入步骤7)；6)-c-2，母体选择：通过该个体的适应度与群体其他成员的适应度比值进行选择，个体被选中的概率P_i′与它的适应度比值成正比，；其中f(y_i′)为y_i′的适应度值，group_size表示种群大小；y_k′与y_i′均表示获胜节点c某个子代个体；6)-c-3，母体经过交叉产生n′个中间个体(O₁，O₂，...，O_n′)；n′为正整数；6)-c-4，n′个中间个体(O₁，O₂，...，O_n′)经过变异产生n′个全新的子代，即特征子集；6-d步，将新产生的子代加入G(t′)，并计算适应度值；6-e步，选出适应度从高至低的m′个个体，作为下一次的训练样本，即G(t′)→G(t′+1)，并转至6-b步骤；6-f步，当6-e步的迭代次数超过样本总数m′的2倍时终止迭代；步骤7)，确定获胜节点c的邻域范围N_C，N_C取高斯函数表示，根据以下公式调整获胜节点c的权向量：其中，表示权值w_i′j′的调整大小，ε(t′)随时间t′呈衰减趋势；w_i′j′表示获胜节点c与输入节点之间的连接权值，表示获胜节点c的第i′个输入节点下的第k′个样本；以上i′、j′、k′均为正整数；步骤8)，判断ε(t′)是否为0或迭代达到指定的最大次数，当结果为是，训练结束，分类不再改变，聚类过程终止；否则转至步骤3)，继续执行。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010576193.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于半监督学习的GA-SOM聚类方法无效

专利文献下载