[发明专利]无监督的特征选择方法、装置在审
申请号: | 201610205887.7 | 申请日: | 2016-04-05 |
公开(公告)号: | CN107291760A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 黄光远;兰金鹤;麦港林 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙)11363 | 代理人: | 逯长明,许伟群 |
地址: | 开曼群岛资本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监督 特征 选择 方法 装置 | ||
技术领域
本申请涉及计算机数据处理技术领域,尤其涉及无监督的特征选择方法、装置。
背景技术
目前,基于大数据分析的应用不断涌现,如信息检索、挖掘用户的消费倾向、消费模式等;通过对样本数据进行分析,提取出能够描述样本数据的属性信息,即样本的特征。例如,从某商品的网络销售数据中,可以提取出购买用户等级、购买次数、购金额等特征。一般的,样本数据都具有多个特征,但未必每个特征都对数据的分析有用处,因此需要从大量特征中选出有效的特征,以减少特征集中特征的个数,进而减小具体应用中基于特征集的计算过程的复杂度,提高预测精度。
针对样本数据的特征选择问题,相关技术中已经给出多种实现方法,这些实现方法大多都是需要依赖样本数据分类标示的有监督方式,即各条样本数据的类别应当为已知,从而根据这些已知类别调整特征选择模型的参数,以保证特征选择的准确率。
但是有些应用场景下样本数据不具备分类标示,从而难以通过现有特征选择方法进行特征选择。另外,应用现有特征选择方法会出现所选出的两个或两个以上特征所代表的信息相似的现象,即最终得到的特征集存在信息冗余。
发明内容
为克服相关技术中存在的问题,本申请提供一种无监督的特征选择方法、装置。
本申请第一方面,提供一种无监督的特征选择方法,包括:
计算样本数据的所有特征之间的相似度;
以特征为节点,根据节点之间的相似度构建特征拓扑图;
对所述特征拓扑图进行分割,得到一个或多个连通图;
根据所述连通图,确定目标特征集。
结合第一方面,在第一方面第一种可行的实施方式中,根据节点之间的相似度构建特征拓扑图,包括:
在任意相似度大于零的两个节点之间添加一条边,得到所述特征拓扑图。
结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第二种可行的实 施方式中,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:
分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较;
删除所述特征拓扑图中相似度小于所述预设相似度阈值的边;
将通过边连接的节点划分在同一个连通图中,得到一个或多个连通图。
结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第三种可行的实施方式中,对所述特征拓扑图进行分割,得到一个或多个连通图,包括:
为所述特征拓扑图中的每个节点设置唯一的标签;
将每个节点的标签传播至相应的邻居节点;
对于每个节点,将自己的标签和接收到的所有来自邻居的标签进行比较,选其中值最小的标签作为相应节点的新标签;
判断各个节点的标签是否发生变化;
如果存在至少一个节点的标签发生变化,则返回执行所述将每个节点的标签传播至相应的邻居节点的步骤;
如果所有节点的标签均未发生变化,则将标签相同的节点划分在同一个连通图中,得到一个或多个连通图。
结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第四种可行的实施方式中,根据所述连通图,确定目标特征集,包括:
分别确定每个连通图中的核心节点,并将各个核心节点对应的特征记入目标特征集。
结合第一方面第四种可行的实施方式,在第一方面第五种可行的实施方式中,分别确定每个连通图中的核心节点,包括:
根据各个节点的节点度值、介数值和Kcore系数中的任意一种确定每个连通图中的核心节点。
本申请第二方面,提供一种无监督的特征选择装置,包括:
相似度计算单元,用于计算样本数据的所有特征之间的相似度;
拓扑图构建单元,用于以特征为节点,根据节点之间的相似度构建特征拓扑图;
连通图挖掘单元,用于对所述特征拓扑图进行分割,得到一个或多个连通图;
目标特征选择单元,用于根据所述连通图,确定目标特征集。
结合第二方面,在第二方面第一种可行的实施方式中,所述拓扑图构建单元具体被配置为:
在任意相似度大于零的两个节点之间添加一条边,得到所述特征拓扑图。
结合第二方面,或者第二方面第一种可行的实施方式,在第二方面第二种可行的实施方式中,所述连通图挖掘单元包括:第一挖掘模块;
所述第一挖掘模块被配置为:
分别将所述特征拓扑图中每条边对应的相似度与预设相似度阈值进行比较;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610205887.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:浏览器页面资源的处理方法和装置
- 下一篇:一种正则表达式的匹配方法和装置