[发明专利]一种基于数据场的自动聚类方法有效

申请号：	201110114487.2	申请日：	2011-05-04
公开（公告）号：	CN102184215A	公开（公告）日：	2011-09-14
发明（设计）人：	王树良;陈亚森	申请（专利权）人：	武汉大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	张火春
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明是一种基于数据场的自动聚类方法，通过将每个空间数据看作一个具有质量的数据点，空间数据之间彼此相互影响形成一个数据场，数据场的势值则表现为所有数据点在该处的影响力的总和。数据场势值的一阶偏导数值为零的点即为数据叠加作用最为密集的区域，即数据的簇中心。本发明通过搜索数据场势值的一阶导数来发现数据的簇中心，进而根据这些簇中心向两侧搜索并确定簇的边缘，最终将完整的簇标记出来。与现有聚类方法相比，本发明具有处理速度快、不受噪声影响、对任意形状的聚类有效的特点，可以被应用于图像处理、社区发现、异常检测、市场研究等领域，从而提高处理结果的精确度。
搜索关键词：	一种基于数据自动方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于数据场的自动聚类方法，其特征在于，包括以下步骤：步骤1，读取待进行聚类分析的所有数据，数据的维度为n，根据用户提供的网格划分参数k将数据空间等分为kn个网格，并将每个数据分配到相应的网格中；步骤2，根据用户提供的影响半径参数d，将步骤1中划分的网格每dn个进行合并，得到(k/d)n个大网格；步骤3，将数据场的影响因子σ设定为步骤2中合并后的大网格的最大边长；步骤4，将步骤2中合并后所得每个大网格看作一个具有一定质量的数据点，数据点的质量在数值上等于该大网格中包含的数据总数量，数据点的坐标为大网格的重心坐标；这(k/d)N个数据点之间相互作用构成数据场，数据点之间相互作用力的大小由步骤3中设定的影响因子σ控制；步骤5，根据数据场的一阶偏导势值公式，计算出步骤4所述数据场中位于步骤1划分的每个网格的重心处，每个维度上的一阶偏导值；步骤6，遍历步骤1划分的每个网格，找出每个维度上满足设定条件的网格，并将同一维度上满足设定条件的网格坐标值保存到一个队列中；所述设定条件为，网格的上一个网格的一阶偏导值大于零，而且该网格的一阶偏导值小于或者等于零；步骤7，遍历步骤6中所得n个队列，保留在每个队列中都存在网格坐标值的网格作为找到的聚类中心，并在标记矩阵中标记；所述标记矩阵是一个n维数组，标记矩阵中的单元和步骤1所得网格一一对应；步骤8，确定步骤7所得各聚类中心的网格包含的数据总数量，将其中的最小值作为噪声阀值t；步骤9，对标记矩阵中标记的每个聚类中心，在每个维度上搜索，向左直到一阶偏导值不再增加为止，向右直到一阶偏导值不再减少为止；对于每一个搜索找到的网格，如果其包含的数据点数量大于或者等于步骤8所得噪声阀值t，则将该网格在标记矩阵中标记；步骤10，将标记矩阵中已标记和未标记的单元分别看作0和1，对标记矩阵进行区域标记，所找到的每一个连续区域对应步骤1划分的一组网格，进而对应着实际数据中的一个聚类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110114487.2/，转载请声明来源钻瓜专利网。

上一篇：一种车用发动机恒温控制系统集成装置
下一篇：适用于工作负载保护系统的重复数据删除方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据场的自动聚类方法有效

专利文献下载