[发明专利]一种数据聚类方法在审

专利信息
申请号: 201911183968.1 申请日: 2019-11-27
公开(公告)号: CN110956276A 公开(公告)日: 2020-04-03
发明(设计)人: 柴磊;许靖 申请(专利权)人: 深圳市魔数智擎人工智能有限公司
主分类号: G06N20/00 分类号: G06N20/00
代理公司: 深圳市神州联合知识产权代理事务所(普通合伙) 44324 代理人: 周松强
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 方法
【说明书】:

发明提供一种数据聚类方法,该方法包括步骤1:获取原始样本;步骤2:通过原始样本随机生成新样本;步骤3:将原始样本标记为第一样本,并将新样本标记为第二样本,混合得到混合样本;步骤4:对混合样本进行分类训练,并得到具有样本节点的分类模型;步骤5:统计分类模型的样本节点数量,并对分类模型内的样本节点进行特征标记;步骤6:提取样本节点的路径,并基于路径得到样本节点的逻辑结构;步骤7:运用节点筛选算法,筛选重要样本节点;步骤8:统计重要样本节点覆盖的样本,得到聚类的簇。该方法可生成具有局部相似性、可解释性的簇,该方法可更好的应用在现实的聚类问题当中。

技术领域

本发明涉及数据处理领域,本发明特别涉及了一种数据挖掘方法。

背景技术

伴随着大数据的蓬勃发展,数据的价值日益增大,挖掘数据背后的规律是商业竞争不可缺少的部分,数据挖掘已经成为当今各行各业不可缺少的技术。数据挖掘是指从大数据中,通过各类数据挖掘与机器学习的方法,挖掘分析得出数据背后的规律的方法。

传统的聚类分析是基于计算数据的距离,从而得到不同的类别划分的聚类方法,是数据挖掘领域中的重要分支,属于无监督的机器学习方法。目前模式识别、机器学习、图像、语音及大数据及数据挖掘领域都广泛应用该技术。其中热门的聚类算法包括:kmeans、DBSCAN、EM算法、层次聚类等,此类算法均基于数据距离进行计算,而聚类的类别结果均存在主观规定的参数,具有严重的不确定性和随机性。以kmeans为例,聚类类别个数基于人为主观判断,初始的类别中心点也具有很强的随机性。

上述传统的聚类方法在实际应用中存在两个缺陷:1、全局相似性,使用数据的距离来进行数据聚类,而在现实中,真实的数据聚类其实是只需要局部相似即可聚为一类。2、不可解释性,聚类得出的簇的可解释性不足,使用人员往往难以根据聚类的结果理解簇的主要特点,难以刻画该簇。

而实际应用中,大部分的聚类问题都不要求群体完全相似,而是希望获得“求同存异”(局部相似)、特征明显(可解释)的群体,故传统的聚类方法在实际问题中的应用与实际价值不大。

发明内容

为了解决上述问题,本发明的目的在于提供一种数据聚类方法,该方法可生成具有局部相似性、可解释性的簇,该方法可更好的应用在现实的聚类问题当中。

本发明的另一个目的在于提供一种实现简单、可靠性强、便于广泛推广的数据聚类方法。

为了实现上述目的,本发明的技术方案如下。

本发明提供一种数据聚类方法,该方法包括以下步骤:

步骤1:获取原始样本;

步骤2:通过原始样本随机生成新样本;所述新样本,也称衍生样本,此处样本随机生成算法指的是基于原始数据,用随机的方法生成新数据的方法。包括但不限于:随机法、洗牌法、基于统计学的样本生成方法、基于机器学习的样本生成方法等。通过以上方法,可生成与原始样本具有非常大差异的新样本,该样本集的特征间规律被破坏,而原始样本则保有特征间的规律。如:原始数据存在未知的特征A与特征B的潜在相关关系,随机样本则会将以上潜在规律破坏,再用这两组样本进行对比分析的时候即可得到规律差异。

进一步的,随机法是指:应用随机的方法生成新样本的方法;

进一步的,洗牌法是指:将样本的每一个特征进行洗牌从而得到新样本的方法;

进一步的,基于统计学的方法泛指使用统计的方法生成新样本的方法;

进一步的,基于机器学习的方法生成新样本的方法;

进一步的,本发明此处声明的样本生成算法不限于以上的样本生成方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市魔数智擎人工智能有限公司,未经深圳市魔数智擎人工智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911183968.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top