[发明专利]一种数据挖掘系统中数据聚类的方法、系统及装置有效

专利信息
申请号: 201010102976.1 申请日: 2010-01-28
公开(公告)号: CN102141988A 公开(公告)日: 2011-08-03
发明(设计)人: 高丹;徐萌;邓超;罗治国;周文辉;孙少陵;陶涛;何鸿凌;何清;赵卫中;马慧芳 申请(专利权)人: 中国移动通信集团公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 100032 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 挖掘 系统 方法 装置
【说明书】:

技术领域

发明涉及数据挖掘技术领域,尤其涉及一种数据挖掘系统中数据聚类的方法、系统及装置。

背景技术

数据挖掘又称数据库中的知识发现,是指从大量的不完全的、有噪声的、模糊的数据中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。

在数据挖掘处理中,聚类(Clustering)是将数据对象分组成为多个类或簇(cluster),属于同一个簇的对象之间具有较高的相似度,属于不同簇的对象之间具有较低的相似度。相似度一般根据描述对象的属性值计算得到,而对象之间的距离是常用的度量方式。目前,聚类分析已经广泛地用在许多领域,例如,在商务领域,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。通过聚类,能够对客户消费行为及消费心理等多种因素进行分析,从而得出客户在消费习惯、生活方式、社会联系等方面的特征,按不同特征划分客户群,并针对不同客户群进行不同的市场营销活动和客户服务。

目前,聚类方法多采用PAM(PArtitioning method,划分方法)(也称k-中心点对象算法),PAM是给定一个有N个元组或者纪录的数据集,构造K个分组,每一个分组代表一个聚类,K<N,其中,构造的K个分组满足下列条件:

(1)每一个分组至少包含一个数据纪录;

(2)每一个数据纪录属于且仅属于一个分组;

对于给定的K,首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都优于前一次分组,即同一分组中的对象的相似度越高越好,不同分组中对象的相似度越小越好。

PAM用簇中位置最靠近中心的对象作为代表对象,然后反复地用非代表对象来代替代表对象,试图找出更好的中心点对象,在反复迭代的过程中,所有可能的“对象对”被分析,每个对中的一个对象为中心点对象,另一个为非代表对象。一个对象代表可以被最大平方-误差值减少的对象代替。一个非代表对象Oh是否是当前一个代表对象Oi的一个好的替代,对于每个非中心点对象Oj,有以下四种情况需要考虑,然后计算,如果为负,则可以替换:

(1)Oj当前隶属于Oi,如果Oi被Oh替换,且Oj离另一个Om最近,那么Oj被分配给Om,则替换代价为Cjih=d(j,m)-d(j,i),其中,i!=m。

(2)Oj当前隶属于Oi,如果Oi被Oh替换,且Oj离Oh最近,那么Oj被分配给Oh,则替换代价为Cjih=d(j,h)-d(j,i)。

(3)Oj当前隶属于Om,m!=i,如果Oi被Oh替换,且Oj仍然离Om最近,那么Oj被分配给Om,则替换代价为Cjih=0。

(4)Oj当前隶属于Om,m!=i,如果Oi被Oh替换,且Oj离Oh最近,那么Oj被分配给Oh,则替换代价为Cjih=d(j,h)-d(j,m)。

根据以上原理,PAM的计算过程如图1所述,主要包括如下步骤,其中,假设要得到的簇的数目为k,并且数据库中包含n个对象:

步骤101、任意选择k个对象作为初始的簇中心点对象;

步骤102、依次计算每个非中心点对象到k个中心点对象的距离,并指派每个非中心点对象给离他最近的中心点对象所表示的簇,直到所有非中心点对象被指派到对应的簇中;

步骤103、选择一个未被选择的中心点对象Oi;

步骤104、选择一个未被选择的非中心点对象Oh;

步骤105、计算用Oh代替Oi的总代价并记录在S中;

步骤106、重复步骤104至步骤105直到所有非中心点对象都被选择过;

步骤107、重复步骤103至步骤106直到所有中心点对象都被选择过;

步骤108、在S中记录的总代价有小于0的存在,则利用对应最小S值的非中心点对象替代中心点对象,形成新的k个中心点对象的集合;

步骤109、重复步骤103至步骤108直到S中记录的总代价都大于0。

CLARA(Cluster Larger Application,随机搜索聚类算法)也是较常见的聚类方法,该算法先抽取数据集合的多个样本,然后用PAM方法在抽样的样本中寻找最佳的k中心点对象,返回最好的聚类结果作为输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010102976.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top