[发明专利]无监督的特征选择方法、装置在审
申请号: | 201610205887.7 | 申请日: | 2016-04-05 |
公开(公告)号: | CN107291760A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 黄光远;兰金鹤;麦港林 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙)11363 | 代理人: | 逯长明,许伟群 |
地址: | 开曼群岛资本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监督 特征 选择 方法 装置 | ||
1.一种无监督的特征选择方法,其特征在于,包括:
计算样本数据的所有特征之间的相似度;
以特征为节点,根据节点之间的相似度构建特征拓扑图;
对所述特征拓扑图进行分割,得到一个或多个连通图;
根据所述连通图,确定目标特征集。
2.根据权利要求1所述的方法,其特征在于,根据节点之间的相似度构建特征拓扑图,包括:
在任意相似度大于零的两个节点之间添加一条边,得到所述特征拓扑图。
3.根据权利要求1或2所述的方法,其特征在于,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:
分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较;
删除所述特征拓扑图中相似度小于所述预设相似度阈值的边;
将通过边连接的节点划分在同一个连通图中,得到一个或多个连通图。
4.根据权利要求1或2所述的方法,其特征在于,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:
为所述特征拓扑图中的每个节点设置唯一的标签;
将每个节点的标签传播至相应的邻居节点;
对于每个节点,将自己的标签和接收到的所有来自邻居的标签进行比较,选其中值最小的标签作为相应节点的新标签;
判断各个节点的标签是否发生变化;
如果存在至少一个节点的标签发生变化,则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤;
如果所有节点的标签均未发生变化,则将标签相同的节点划分在同一个连通图中,得到一个或多个连通图。
5.根据权利要求1或2所述的方法,其特征在于,根据所述连通图,确定目标特征集,包括:
分别确定每个连通图中的核心节点,并将各个核心节点对应的特征记入目标特征集。
6.根据权利要求5所述的方法,其特征在于,分别确定每个连通图中的核心节点,包括:
根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。
7.一种无监督的特征选择装置,其特征在于,包括:
相似度计算单元,用于计算样本数据的所有特征之间的相似度;
拓扑图构建单元,用于以特征为节点,根据节点之间的相似度构建特征拓扑图;
连通图挖掘单元,用于对所述特征拓扑图进行分割,得到一个或多个连通图;
目标特征选择单元,用于根据所述连通图,确定目标特征集。
8.根据权利要求7所述的装置,其特征在于,所述拓扑图构建单元具体被配置为:
在任意相似度大于零的两个节点之间添加一条边,得到所述特征拓扑图。
9.根据权利要求7或8所述的装置,其特征在于,所述连通图挖掘单元包括:第一挖掘模块;
所述第一挖掘模块被配置为:
分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较;
删除所述特征拓扑图中相似度小于所述预设相似度阈值的边;
将通过边连接的节点划分在同一个连通图中,得到一个或多个连通图。
10.根据权利要求7或8所述的装置,其特征在于,所述连通图挖掘单元包括:第二挖掘模块;
所述第二挖掘模块被配置为:
为所述特征拓扑图中的每个节点设置唯一的标签;
将每个节点的标签传播至相应的邻居节点;
对于每个节点,将自己的标签和接收到的所有来自邻居的标签进行比较,选其中值最小的标签作为相应节点的新标签;
判断各个节点的标签是否发生变化;
如果存在至少一个节点的标签发生变化,则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤;
如果所有节点的标签均未发生变化,则将标签相同的节点划分在同一个连通图中,得到一个或多个连通图。
11.根据权利要求7或8所述的装置,其特征在于,所述目标特征选择单元具体被配置为:
分别确定每个连通图中的核心节点,并将各个核心节点对应的特征记入目标特征集。
12.根据权利要求11所述的装置,其特征在于,为确定每个连通图中的核心节点,所述目标特征选择单元具体被配置为:
根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610205887.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:浏览器页面资源的处理方法和装置
- 下一篇:一种正则表达式的匹配方法和装置