[发明专利]一种数据聚类方法在审
申请号: | 201911183968.1 | 申请日: | 2019-11-27 |
公开(公告)号: | CN110956276A | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 柴磊;许靖 | 申请(专利权)人: | 深圳市魔数智擎人工智能有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 深圳市神州联合知识产权代理事务所(普通合伙) 44324 | 代理人: | 周松强 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 方法 | ||
本发明提供一种数据聚类方法,该方法包括步骤1:获取原始样本;步骤2:通过原始样本随机生成新样本;步骤3:将原始样本标记为第一样本,并将新样本标记为第二样本,混合得到混合样本;步骤4:对混合样本进行分类训练,并得到具有样本节点的分类模型;步骤5:统计分类模型的样本节点数量,并对分类模型内的样本节点进行特征标记;步骤6:提取样本节点的路径,并基于路径得到样本节点的逻辑结构;步骤7:运用节点筛选算法,筛选重要样本节点;步骤8:统计重要样本节点覆盖的样本,得到聚类的簇。该方法可生成具有局部相似性、可解释性的簇,该方法可更好的应用在现实的聚类问题当中。
技术领域
本发明涉及数据处理领域,本发明特别涉及了一种数据挖掘方法。
背景技术
伴随着大数据的蓬勃发展,数据的价值日益增大,挖掘数据背后的规律是商业竞争不可缺少的部分,数据挖掘已经成为当今各行各业不可缺少的技术。数据挖掘是指从大数据中,通过各类数据挖掘与机器学习的方法,挖掘分析得出数据背后的规律的方法。
传统的聚类分析是基于计算数据的距离,从而得到不同的类别划分的聚类方法,是数据挖掘领域中的重要分支,属于无监督的机器学习方法。目前模式识别、机器学习、图像、语音及大数据及数据挖掘领域都广泛应用该技术。其中热门的聚类算法包括:kmeans、DBSCAN、EM算法、层次聚类等,此类算法均基于数据距离进行计算,而聚类的类别结果均存在主观规定的参数,具有严重的不确定性和随机性。以kmeans为例,聚类类别个数基于人为主观判断,初始的类别中心点也具有很强的随机性。
上述传统的聚类方法在实际应用中存在两个缺陷:1、全局相似性,使用数据的距离来进行数据聚类,而在现实中,真实的数据聚类其实是只需要局部相似即可聚为一类。2、不可解释性,聚类得出的簇的可解释性不足,使用人员往往难以根据聚类的结果理解簇的主要特点,难以刻画该簇。
而实际应用中,大部分的聚类问题都不要求群体完全相似,而是希望获得“求同存异”(局部相似)、特征明显(可解释)的群体,故传统的聚类方法在实际问题中的应用与实际价值不大。
发明内容
为了解决上述问题,本发明的目的在于提供一种数据聚类方法,该方法可生成具有局部相似性、可解释性的簇,该方法可更好的应用在现实的聚类问题当中。
本发明的另一个目的在于提供一种实现简单、可靠性强、便于广泛推广的数据聚类方法。
为了实现上述目的,本发明的技术方案如下。
本发明提供一种数据聚类方法,该方法包括以下步骤:
步骤1:获取原始样本;
步骤2:通过原始样本随机生成新样本;所述新样本,也称衍生样本,此处样本随机生成算法指的是基于原始数据,用随机的方法生成新数据的方法。包括但不限于:随机法、洗牌法、基于统计学的样本生成方法、基于机器学习的样本生成方法等。通过以上方法,可生成与原始样本具有非常大差异的新样本,该样本集的特征间规律被破坏,而原始样本则保有特征间的规律。如:原始数据存在未知的特征A与特征B的潜在相关关系,随机样本则会将以上潜在规律破坏,再用这两组样本进行对比分析的时候即可得到规律差异。
进一步的,随机法是指:应用随机的方法生成新样本的方法;
进一步的,洗牌法是指:将样本的每一个特征进行洗牌从而得到新样本的方法;
进一步的,基于统计学的方法泛指使用统计的方法生成新样本的方法;
进一步的,基于机器学习的方法生成新样本的方法;
进一步的,本发明此处声明的样本生成算法不限于以上的样本生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市魔数智擎人工智能有限公司,未经深圳市魔数智擎人工智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911183968.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置