[发明专利]一种基于树状基学习器的混合特征数据聚类方法及系统在审
申请号: | 202111073665.1 | 申请日: | 2021-09-14 |
公开(公告)号: | CN114004271A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 范庆来;倪勇龙;陈义;周君良;钱至远;朱霄;蒋肇标;郭庆 | 申请(专利权)人: | 浙江浙石油综合能源销售有限公司;浙江浙能技术研究院有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 黎双华 |
地址: | 310000 浙江省杭州市西湖区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 树状 学习 混合 特征 数据 方法 系统 | ||
1.一种基于树状基学习器的混合特征数据聚类方法,其特征在于,包括步骤:
S1、对样本集进行随机子采样生成N个不同的子样本集;
S2、对每个子样本集进行树状基学习器的训练,并得到训练完成后的N颗树以及聚类簇数量K;
S3、基于训练完成后的N颗树,统计任意两个样本之间的相似度矩阵,并将所有相似度矩阵归一化,以得到多个归一化相似度矩阵;
S4、将聚类簇数量K以及多个归一化相似度矩阵作为谱聚类模型的输入,以得到样本集最终的聚类结果。
2.根据权利要求1所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,步骤S1具体包括以下步骤:
S1.1、初始化聚类森林,设置聚类森林中树的棵树为N;
S1.2、设置子样本集内样本个数为Ψ;
S1.2、对样本集采样N次,每次从样本集中随机不放回采样Ψ个样本,以生成N个子样本集。
3.根据权利要求2所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,步骤S2中具体包括以下步骤:
S2.1、初始化树状基学习器,设置树的最大深度,并生成每颗树的根节点;
S2.2、随机挑选一子样本集,将该子样本集中的所有样本均放入一根节点;
S2.3、选取树中一个未访问过的节点,随机选取一种样本特征,遍历该节点中所有样本与该样本特征相关的值,作为当前节点的多个分割阈值;
S2.4、根据每个分割阈值,分别对当前节点中的样本进行左右树划分,并分别计算划分后每个样本的样本轮廓系数;
S2.5、分别根据每个分割阈值下每个样本的轮廓系数计算整棵树的整树轮廓系数;
S2.6、判断是否存在分割阈值,以使划分后整树轮廓系数大于划分前整树轮廓系数,若存在,则挑选使得整树轮廓系数最大的分割阈值作为划分阈值,并按划分阈值对当前节点中的所有样本进行左右树划分,并产生两个新的节点;若不存在则不进行左右树划分,也不产生新节点;
S2.7、重复步骤S2.3-S2.6,直至树中的所有节点均已被访问或者树的深度已达到最大深度,完成当前树的训练;
S2.8、重复步骤S2.2-S2.7,直至所有树均训练完成;
S2.9、对每棵树的节点个数求取平均值,以得到聚类簇数量K。
4.根据权利要求3所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,步骤S2.4中样本轮廓系数的计算公式具体为:
其中,a(i)是样本i到其节点内其他样本的平均距离,b(i)是样本i到相邻最近一节点内所有样本的平均距离。
5.根据权利要求4所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,步骤S2.5中,整树轮廓系数通过对树中每个样本的轮廓系数取平均值得到。
6.根据权利要求5所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,步骤S3具体包括以下步骤:
S3.1、初始化相似度矩阵;
S3.2、将任意两个样本分别放入步骤2训练好的每一颗树中;
S3.3、通过判断两个样本在每一颗树中是否落入同一节点,以形成该两个样本之间的相似度矩阵;
S3.4、重复步骤S3.2-S3.3,直至得到所有样本之间的相似度矩阵。
S3.5、将所有相似度矩阵进行归一化,以得到所有样本之间的多个归一化相似度矩阵。
7.根据权利要求6所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,步骤S3.5中所述归一化相似度矩阵为通过将相似度矩阵除以树的总数N得到。
8.根据权利要求2所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,N=50,Ψ=30。
9.根据权利要求3所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,树的最大深度为10。
10.一种基于树状基学习器的混合特征数据聚类系统,其特征在于,包括依次相联的子样本集生成模块、树状基学习模块、相似度矩阵模块、聚类模块,聚类模块还与树状基学习模块联接;
子样本集生成模块,用于对样本集进行随机子采样生成N个不同的子样本集;
树状基学习模块,用于对每个子样本集进行树状基学习器的训练,并得到训练完成后的N颗树以及聚类簇数量K;
相似度矩阵模块,用于基于训练完成后的N颗树,统计任意两个样本之间的相似度矩阵,并将所有相似度矩阵归一化,以得到多个归一化相似度矩阵;
聚类模块,用于将聚类簇数量K以及多个归一化相似度矩阵作为谱聚类模型的输入,以得到样本集最终的聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江浙石油综合能源销售有限公司;浙江浙能技术研究院有限公司,未经浙江浙石油综合能源销售有限公司;浙江浙能技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111073665.1/1.html,转载请声明来源钻瓜专利网。