[发明专利]一种基于数据场的自动聚类方法有效
申请号: | 201110114487.2 | 申请日: | 2011-05-04 |
公开(公告)号: | CN102184215A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 王树良;陈亚森 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 张火春 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于数据场的自动聚类方法,通过将每个空间数据看作一个具有质量的数据点,空间数据之间彼此相互影响形成一个数据场,数据场的势值则表现为所有数据点在该处的影响力的总和。数据场势值的一阶偏导数值为零的点即为数据叠加作用最为密集的区域,即数据的簇中心。本发明通过搜索数据场势值的一阶导数来发现数据的簇中心,进而根据这些簇中心向两侧搜索并确定簇的边缘,最终将完整的簇标记出来。与现有聚类方法相比,本发明具有处理速度快、不受噪声影响、对任意形状的聚类有效的特点,可以被应用于图像处理、社区发现、异常检测、市场研究等领域,从而提高处理结果的精确度。 | ||
搜索关键词: | 一种 基于 数据 自动 方法 | ||
【主权项】:
一种基于数据场的自动聚类方法,其特征在于,包括以下步骤:步骤1,读取待进行聚类分析的所有数据,数据的维度为n,根据用户提供的网格划分参数k将数据空间等分为kn个网格,并将每个数据分配到相应的网格中;步骤2,根据用户提供的影响半径参数d,将步骤1中划分的网格每dn个进行合并,得到(k/d)n个大网格;步骤3,将数据场的影响因子σ设定为步骤2中合并后的大网格的最大边长;步骤4,将步骤2中合并后所得每个大网格看作一个具有一定质量的数据点,数据点的质量在数值上等于该大网格中包含的数据总数量,数据点的坐标为大网格的重心坐标;这(k/d)N个数据点之间相互作用构成数据场,数据点之间相互作用力的大小由步骤3中设定的影响因子σ控制;步骤5,根据数据场的一阶偏导势值公式,计算出步骤4所述数据场中位于步骤1划分的每个网格的重心处,每个维度上的一阶偏导值;步骤6,遍历步骤1划分的每个网格,找出每个维度上满足设定条件的网格,并将同一维度上满足设定条件的网格坐标值保存到一个队列中;所述设定条件为,网格的上一个网格的一阶偏导值大于零,而且该网格的一阶偏导值小于或者等于零;步骤7,遍历步骤6中所得n个队列,保留在每个队列中都存在网格坐标值的网格作为找到的聚类中心,并在标记矩阵中标记;所述标记矩阵是一个n维数组,标记矩阵中的单元和步骤1所得网格一一对应;步骤8,确定步骤7所得各聚类中心的网格包含的数据总数量,将其中的最小值作为噪声阀值t;步骤9,对标记矩阵中标记的每个聚类中心,在每个维度上搜索,向左直到一阶偏导值不再增加为止,向右直到一阶偏导值不再减少为止;对于每一个搜索找到的网格,如果其包含的数据点数量大于或者等于步骤8所得噪声阀值t,则将该网格在标记矩阵中标记;步骤10,将标记矩阵中已标记和未标记的单元分别看作0和1,对标记矩阵进行区域标记,所找到的每一个连续区域对应步骤1划分的一组网格,进而对应着实际数据中的一个聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110114487.2/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置