[发明专利]一种数据挖掘系统中数据聚类的方法、系统及装置有效

申请号：	201010102976.1	申请日：	2010-01-28
公开（公告）号：	CN102141988A	公开（公告）日：	2011-08-03
发明（设计）人：	高丹;徐萌;邓超;罗治国;周文辉;孙少陵;陶涛;何鸿凌;何清;赵卫中;马慧芳	申请（专利权）人：	中国移动通信集团公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
地址：	100032 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据挖掘系统方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种数据挖掘系统中数据聚类的方法、系统及装置。

背景技术

数据挖掘又称数据库中的知识发现，是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式，融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测，从而很好地支持人们的决策。

在数据挖掘处理中，聚类(Clustering)是将数据对象分组成为多个类或簇(cluster)，属于同一个簇的对象之间具有较高的相似度，属于不同簇的对象之间具有较低的相似度。相似度一般根据描述对象的属性值计算得到，而对象之间的距离是常用的度量方式。目前，聚类分析已经广泛地用在许多领域，例如，在商务领域，聚类能帮助市场分析人员从客户基本库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。通过聚类，能够对客户消费行为及消费心理等多种因素进行分析，从而得出客户在消费习惯、生活方式、社会联系等方面的特征，按不同特征划分客户群，并针对不同客户群进行不同的市场营销活动和客户服务。

目前，聚类方法多采用PAM(PArtitioning method，划分方法)(也称k-中心点对象算法)，PAM是给定一个有N个元组或者纪录的数据集，构造K个分组，每一个分组代表一个聚类，K＜N，其中，构造的K个分组满足下列条件：

(1)每一个分组至少包含一个数据纪录；

(2)每一个数据纪录属于且仅属于一个分组；

对于给定的K，首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都优于前一次分组，即同一分组中的对象的相似度越高越好，不同分组中对象的相似度越小越好。

PAM用簇中位置最靠近中心的对象作为代表对象，然后反复地用非代表对象来代替代表对象，试图找出更好的中心点对象，在反复迭代的过程中，所有可能的“对象对”被分析，每个对中的一个对象为中心点对象，另一个为非代表对象。一个对象代表可以被最大平方-误差值减少的对象代替。一个非代表对象Oh是否是当前一个代表对象Oi的一个好的替代，对于每个非中心点对象Oj，有以下四种情况需要考虑，然后计算，如果为负，则可以替换：

(1)Oj当前隶属于Oi，如果Oi被Oh替换，且Oj离另一个Om最近，那么Oj被分配给Om，则替换代价为Cjih＝d(j，m)-d(j，i)，其中，i！＝m。

(2)Oj当前隶属于Oi，如果Oi被Oh替换，且Oj离Oh最近，那么Oj被分配给Oh，则替换代价为Cjih＝d(j，h)-d(j，i)。

(3)Oj当前隶属于Om，m！＝i，如果Oi被Oh替换，且Oj仍然离Om最近，那么Oj被分配给Om，则替换代价为Cjih＝0。

(4)Oj当前隶属于Om，m！＝i，如果Oi被Oh替换，且Oj离Oh最近，那么Oj被分配给Oh，则替换代价为Cjih＝d(j，h)-d(j，m)。

根据以上原理，PAM的计算过程如图1所述，主要包括如下步骤，其中，假设要得到的簇的数目为k，并且数据库中包含n个对象：

步骤101、任意选择k个对象作为初始的簇中心点对象；

步骤102、依次计算每个非中心点对象到k个中心点对象的距离，并指派每个非中心点对象给离他最近的中心点对象所表示的簇，直到所有非中心点对象被指派到对应的簇中；

步骤103、选择一个未被选择的中心点对象Oi；

步骤104、选择一个未被选择的非中心点对象Oh；

步骤105、计算用Oh代替Oi的总代价并记录在S中；

步骤106、重复步骤104至步骤105直到所有非中心点对象都被选择过；

步骤107、重复步骤103至步骤106直到所有中心点对象都被选择过；