[发明专利]一种应用于K-Mean聚类算法中的加速方法及其装置有效
申请号: | 201711241635.0 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108009099B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 张伍召;谭旭;王达;叶笑春;张浩 | 申请(专利权)人: | 北京中科睿芯科技集团有限公司 |
主分类号: | G06F12/0862 | 分类号: | G06F12/0862;G06F16/28 |
代理公司: | 北京科龙寰宇知识产权代理有限责任公司 11139 | 代理人: | 孙皓晨 |
地址: | 100095 北京市海淀区温泉*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 mean 算法 中的 加速 方法 及其 装置 | ||
本发明公开了一种应用于K‑Mean聚类算法中的加速方法及其装置,其该方法包括以下步骤:S1:将聚类计算所需的中心点和普通点分别预取至一第一缓存区和一第二缓存区;S2:依次从第一缓存区和第二缓存区读取中心点和普通点并计算每一普通点与所有中心点之间的距离;S3:根据上一步骤的计算结果确定每一普通点距离最近的中心点,并将每一普通点对应的中心点进行更新;S4:判断是否存在多个普通点同时更新同一个中心点的情况,如果存在,则进行冲突整合;S5:判断中心点的更新是否过快,如果是,则将每一普通点更新后的中心点信息进行缓冲;S6:检测是否满足终止条件,如果是,则终止聚类计算过程,若为否,则重复进行上述过程。
技术领域
本发明涉及计算机体系结构设计和数据挖掘领域,具体而言,涉及一种聚类加速方法及其装置。
背景技术
互联网技术的发展促进了全球数据的融合。如何从这些汪洋般的数据中发掘出有用的信息成为现代社会生产管理亟待解决的问题。聚类是应用最成熟最广泛的数据挖掘技术之一。目前,聚类在心理学、地理学、天文学等多种学术领域都发挥了巨大的作用。
在聚类问题的计算过程中,需要对全部的数据对象进行多次迭代,带来了非常巨大的运算量和访存量。面对这样的问题,如何对算法进行有效的加速,从而大大缩短整个算法的运行周期,对整体生产效率的提高具有重大的意义。
当前,产业界工作主要集中在计算机集群框架优化和处理方法的层次上,比如Hadoop、Spark等通用并行框架,Zak、Chen D,王康等给出了在MapReduce上的执行机制,但是这些框架并没有从底层硬件架构等方面提出真正适用于大数据应用的处理器,一般只是对数据集进行划分,之后将分块的数据和任务分配给不同的PC节点,每个节点处理完自己的任务之后将结果传回到宿主机。这种方式受限于网络带宽,并且成本也相对较高。学术界针对聚类应用问题的硬件加速研究主要集中在两个平台:GPU平台,然而通用加速器往往强调计算性能,并没有特殊性设计,不能挖掘算法内在的特性,造成了功耗的浪费和性能的瓶颈;另一部分是针对FPGA平台的研究,这类加速器和数据领域耦合性很高,硬件加速结构都限制了聚类个数,大多数采用了曼哈顿距离,此方式节省了片上资源,但使得聚类正确率大大折中。比如D Lavenier、Gokhale M将图像存储在主机端,之后将每一个像素依次流过K个处理节点,每个节点计算数据对象与中心点对象的距离,并记录最小距离编号,在最后的计算节点得到距离当前数据对象最近的类,并将结果传回主机。该类结构存在的问题主要是主从机数据传递时的IO开销,以及计算节点必须要和聚类个数保持一致,严重限制了聚类的灵活性。并且几乎所有的加速结构只观察到了一个普通数据对象和多个中心点之间的并行性,并没有发掘聚类计算过程中普通数据之间的并行性。
发明内容
本发明提供一种应用于K-Mean聚类算法中的加速方法及其装置,以发掘聚类计算过程中普通数据之间的并行性,提高聚类计算的效率。
为达到上述目的,本发明提供了一种应用于K-Mean聚类算法中的加速方法,其包括以下步骤:
S1:将聚类计算所需的中心点和普通点分别预取至一第一缓存区和一第二缓存区;
S2:依次从第一缓存区和第二缓存区读取中心点和普通点并计算每一普通点与所有中心点之间的距离;
S3:根据上一步骤的计算结果确定每一普通点距离最近的中心点,并将每一普通点对应的中心点进行更新;
S4:判断是否存在多个普通点同时更新同一个中心点的情况,如果存在,则进行冲突整合;
S5:判断中心点的更新是否过快,如果是,则将每一普通点更新后的中心点信息进行缓冲;
S6:检测是否满足终止条件,如果是,则终止聚类计算过程,若为否,则重复进行上述过程。
在本发明的一实施例中,所述第一缓存区为CRAM,所述第二缓存区为PRAM,并且所述第一缓存区和所述第二缓存区均为乒乓缓存区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科睿芯科技集团有限公司,未经北京中科睿芯科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711241635.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种香猪产崽用的保育室装置
- 下一篇:一种车辆协作式编队行驶系统