[发明专利]一种基于属性聚类的邻域粗糙集集成学习方法有效
申请号: | 201610100024.3 | 申请日: | 2016-02-23 |
公开(公告)号: | CN105760888B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 胡峰;石瑾;于洪;张清华 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种基于属性聚类的邻域粗糙集集成学习方法,涉及数据挖掘技术。首先,通过属性聚类将决策系统中的条件属性分成多个聚类簇,使得属性聚类簇内的属性关联性较大,而不同属性聚类簇之间的关联性较小;其次,利用各个聚类簇的差异性来训练集成不同的基分类器,在训练集成基分类器的过程中,加入了邻域粗糙集的指导,根据基分类器对邻域粗糙集中边界域的样本不同的识别能力来分配基分类器的权重,从而得到最终的集成分类器;最后,利用得到的集成分类器对测试集分类。本发明结合了邻域粗糙集和集成学习理论,充分利用了决策表中条件属性的相关性和差异性,并使不同基分类器之间取长补短,能够从不同角度有效挖掘决策系统中的知识。 | ||
搜索关键词: | 一种 基于 属性 邻域 粗糙 集成 学习方法 | ||
【主权项】:
1.一种基于属性聚类的邻域粗糙集集成学习方法,其特征在于,包括以下步骤:101、从实验数据平台下载数据集,然后对数据集的数据进行预处理,预处理包括归一化步骤和拆分数据集步骤,把数据集拆分成训练集和测试集;102、对经过步骤101预处理的训练集的数据根据属性进行聚类,聚类分为选择主要属性集和划分属性聚类簇两个步骤;103、用经过步骤102的训练集集成训练基分类器进行分类,分为确定边界域和集成训练分类器两个步骤,其中集成训练分类器加入了邻域粗糙集来进行分类,所述确定边界域的步骤具体为:决策属性集,形式为{决策属性1,决策属性2,……决策属性p}中的决策属性把数据集分为p个等价类,决策属性关于属性集的边界域用邻域粗糙集计算出来;a.对于训练集中的某个样本xi,计算xi的邻域δB(xi);b.判断δB(xi)中的样本是否与xi属于同一类别,不是则把xi归入边界域;c.重复步骤a、步骤b,直到遍历完整个训练集;最终得到训练集的边界域,形式为{边界域样本1,边界域样本2,…,边界域样本x};集成训练分类器的步骤为:根据集成学习的差异性原则选择3个基分类器并初始化每个分类器的权重比例为1,形式为{分类器h1:ω1=1,分类器h2:ω2=1,分类器h3:ω3=1},ωi表示分类器i的权重比例;A1.从每个属性聚类集中选择一个属性组成选择属性集后,得到一个新的子属性集,形式为{主要属性集∪选择属性集},用这个新的子属性集训练每个分类器,得到每个分类器能够正确分类的样本集,形式为{样本集1,样本集2,样本集3};B1.判断{样本集1,样本集2,样本集3}中哪个样本集中的样本在边界域的个数最多,给对应的样本集的分类器的权重比例增加1;C1.重复A1,B1,直到所有的子属性集组合都训练完毕,且A1中每次组成的子属性集不能与之前的重复;D1.完成A1,B1,C1步骤后,得到分类器的权重比例ω1,ω2,ω3,保证
其中wi是分类器i的权重,根据分类器的权重比例计算得到分类器的最后权重;104、最后,利用得到的集成分类器对测试集分类,完成学习。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610100024.3/,转载请声明来源钻瓜专利网。