[发明专利]大规模向量场数据处理方法有效
申请号: | 201310239739.3 | 申请日: | 2013-06-17 |
公开(公告)号: | CN103324705A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 汪云海;范超然;王天化;陈宝权 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 吴平 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大规模 向量 数据处理 方法 | ||
1.一种大规模向量场数据处理方法,其特征在于,包括如下步骤:
从外部存储设备中将向量场数据逐一读取至内存;
利用流式K-means算法对内存中的向量场数据进行处理并得到若干个聚类中心;
构建聚类中心的邻居关系;
根据聚类中心的邻居关系对聚类中心进行层次聚类。
2.根据权利要求1所述的大规模向量场数据处理方法,其特征在于,所述利用流式K-means算法对内存中的向量场数据进行处理并得到若干个聚类中心的步骤包括:
(1)、从内存中读取一个向量场数据;
(2)、判断所述向量场数据是否为读取的第一个向量场数据,如果是,则将所述向量场数据作为新的聚类中心,如果不是,则计算所述向量场数据与所有聚类中心的相似度,并找出与所述向量场数据相似度最高的聚类中心;
(3)、判断所述向量场数据和与所述向量场数据相似度最高的聚类中心的相似度是否在预设阈值范围之内,如果是,则将所述向量场数据附属于与所述向量场数据相似度最高的聚类中心,如果不是,则将所述向量场数据作为新的聚类中心;
(4)、重复步骤(1)、步骤(2)和步骤(3),直至内存中的向量场数据被全部读取完。
3.根据权利要求2所述的大规模向量场数据处理方法,其特征在于,所述利用流式K-means算法对内存中的向量场数据进行处理并得到若干个聚类中心的步骤包括:
在内存中的向量场数据被全部读取完之后,计算得到聚类中心的总数。
4.根据权利要求2所述的大规模向量场数据处理方法,其特征在于,所述计算所述向量场数据与所有聚类中心的相似度,并找出与所述向量场数据相似度最高的聚类中心的步骤包括:
选定一随机投影向量;
将每个聚类中心分别与所述随机投影向量相乘得到一个数组,并将所述数组中的所有元素按大小排序,得到一个有序数组;
将向量场数据与所述随机投影向量相乘得到向量场数据投影值;
在有序数组中查找出与所述向量场数据投影值最接近的元素,找出与所述向量场数据相似度最高的聚类中心。
5.根据权利要求4所述的大规模向量场数据处理方法,其特征在于,若向量场数据和与所述向量场数据相似度最高的聚类中心在预设阈值范围之内,则将所述向量场数据附属于与所述向量场数据相似度最高的聚类中心。
6.根据权利要求1所述的大规模向量场数据处理方法,其特征在于,所述构建聚类中心的邻居关系的步骤包括:
遍历内存中的向量场数据,只要相邻的向量场数据属于不同的聚类中心,则将两个聚类中心构成相邻关系。
7.根据权利要求6所述的大规模向量场数据处理方法,其特征在于,所述根据聚类中心的邻居关系对聚类中心进行层次聚类的步骤包括:
计算所有相邻聚类中心的相似度;
取相似度最高的一对聚类中心进行聚类得到一个新的聚类中心,并更新该新的聚类中心和与该新的聚类中心相邻的聚类中心的相似度;
反复取相似度最高的两个聚类中心进行聚类,直到最终聚成一个聚类中心。
8.根据权利要求3所述的大规模向量场数据处理方法,其特征在于,在所述构建聚类中心的邻居关系步骤之前,还包括如下步骤:
判断聚类中心总数是否大于预设值,如果是,则执行所述构建聚类中心的邻居关系的步骤及根据聚类中心的邻居关系对聚类中心进行层次聚类的步骤,如果不是,则直接结束,不再执行后续步骤。
9.根据权利要求2、3、4、5或7所述的大规模向量场数据处理方法,其特征在于,所述相似度采用相似度函数计算,所述相似度函数采用椭圆等值线方法构造。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310239739.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种灾备系统可用性检测方法及装置
- 下一篇:一种女性保健茶及其制备方法