[发明专利]一种数据挖掘系统中数据聚类的方法、系统及装置有效
申请号: | 201010102976.1 | 申请日: | 2010-01-28 |
公开(公告)号: | CN102141988A | 公开(公告)日: | 2011-08-03 |
发明(设计)人: | 高丹;徐萌;邓超;罗治国;周文辉;孙少陵;陶涛;何鸿凌;何清;赵卫中;马慧芳 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 挖掘 系统 方法 装置 | ||
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种数据挖掘系统中数据聚类的方法、系统及装置。
背景技术
数据挖掘又称数据库中的知识发现,是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。
在数据挖掘处理中,聚类(Clustering)是将数据对象分组成为多个类或簇(cluster),属于同一个簇的对象之间具有较高的相似度,属于不同簇的对象之间具有较低的相似度。相似度一般根据描述对象的属性值计算得到,而对象之间的距离是常用的度量方式。目前,聚类分析已经广泛地用在许多领域,例如,在商务领域,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。通过聚类,能够对客户消费行为及消费心理等多种因素进行分析,从而得出客户在消费习惯、生活方式、社会联系等方面的特征,按不同特征划分客户群,并针对不同客户群进行不同的市场营销活动和客户服务。
目前,聚类方法多采用PAM(PArtitioning method,划分方法)(也称k-中心点对象算法),PAM是给定一个有N个元组或者纪录的数据集,构造K个分组,每一个分组代表一个聚类,K<N,其中,构造的K个分组满足下列条件:
(1)每一个分组至少包含一个数据纪录;
(2)每一个数据纪录属于且仅属于一个分组;
对于给定的K,首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都优于前一次分组,即同一分组中的对象的相似度越高越好,不同分组中对象的相似度越小越好。
PAM用簇中位置最靠近中心的对象作为代表对象,然后反复地用非代表对象来代替代表对象,试图找出更好的中心点对象,在反复迭代的过程中,所有可能的“对象对”被分析,每个对中的一个对象为中心点对象,另一个为非代表对象。一个对象代表可以被最大平方-误差值减少的对象代替。一个非代表对象Oh是否是当前一个代表对象Oi的一个好的替代,对于每个非中心点对象Oj,有以下四种情况需要考虑,然后计算,如果为负,则可以替换:
(1)Oj当前隶属于Oi,如果Oi被Oh替换,且Oj离另一个Om最近,那么Oj被分配给Om,则替换代价为Cjih=d(j,m)-d(j,i),其中,i!=m。
(2)Oj当前隶属于Oi,如果Oi被Oh替换,且Oj离Oh最近,那么Oj被分配给Oh,则替换代价为Cjih=d(j,h)-d(j,i)。
(3)Oj当前隶属于Om,m!=i,如果Oi被Oh替换,且Oj仍然离Om最近,那么Oj被分配给Om,则替换代价为Cjih=0。
(4)Oj当前隶属于Om,m!=i,如果Oi被Oh替换,且Oj离Oh最近,那么Oj被分配给Oh,则替换代价为Cjih=d(j,h)-d(j,m)。
根据以上原理,PAM的计算过程如图1所述,主要包括如下步骤,其中,假设要得到的簇的数目为k,并且数据库中包含n个对象:
步骤101、任意选择k个对象作为初始的簇中心点对象;
步骤102、依次计算每个非中心点对象到k个中心点对象的距离,并指派每个非中心点对象给离他最近的中心点对象所表示的簇,直到所有非中心点对象被指派到对应的簇中;
步骤103、选择一个未被选择的中心点对象Oi;
步骤104、选择一个未被选择的非中心点对象Oh;
步骤105、计算用Oh代替Oi的总代价并记录在S中;
步骤106、重复步骤104至步骤105直到所有非中心点对象都被选择过;
步骤107、重复步骤103至步骤106直到所有中心点对象都被选择过;
步骤108、在S中记录的总代价有小于0的存在,则利用对应最小S值的非中心点对象替代中心点对象,形成新的k个中心点对象的集合;
步骤109、重复步骤103至步骤108直到S中记录的总代价都大于0。
CLARA(Cluster Larger Application,随机搜索聚类算法)也是较常见的聚类方法,该算法先抽取数据集合的多个样本,然后用PAM方法在抽样的样本中寻找最佳的k中心点对象,返回最好的聚类结果作为输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010102976.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电源模块及网络设备
- 下一篇:一种图形数据库联机事务数据恢复的方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置