[发明专利]一种并行计算环境下分布式轮廓系数计算方法和系统在审
申请号: | 201710325897.9 | 申请日: | 2017-05-10 |
公开(公告)号: | CN107247583A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 王宇 | 申请(专利权)人: | 北京寄云鼎城科技有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 王莹 |
地址: | 100193 北京市海淀区东北旺*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 并行 计算 环境 分布式 轮廓 系数 计算方法 系统 | ||
技术领域
本发明涉及计算机技术领域,具体涉及一种并行计算环境下分布式轮廓系数计算方法。
背景技术
本部分向读者介绍可能与本发明的各个方面相关的背景技术,相信能够向读者提供有用的背景信息,从而有助于读者更好地理解本发明的各个方面。因此,可以理解,本部分的说明是用于上述目的,而并非构成对现有技术的承认。
Spark作为主流的开源分布式计算框架,广泛的应用于分析计算领域。Spark提供了基于其计算框架的用于机器学习的ML和MlLib库。其中已有各种聚类算法,如k-means,高斯混合等。由于初始点选取,迭代收敛性等问题,造成聚类效果很不稳定。为了得到理想的聚类结果,通常会进行多次探索,对各种方法和参数进行调整。这时,如何正确衡量聚类效果的问题就变得非常重要。K-means常用的衡量类效果的方法是代价(cost)计算方法。这种方法计算所有点到最近类中心点的距离之和,比较不同聚类结果的距离和的大小。这种计算方法只计算了类内距离,并没有考虑类间距离。
轮廓系数(Silhouette Coefficient)方法结合了聚类的凝聚度(Cohesion)和分离度(Separation),用于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。轮廓系数方法比代价计算方法更准确的衡量聚类效果。
但是,轮廓系数的计算复杂度非常高,甚至高于k-means聚类方法本身。当大规模数据进行k-means聚类时,算法复杂度为O(I*K*N),其中I为迭代次数,K为聚类数,N为聚类点规模。一般情况下,I<50,k<10,而N非常大。计算轮廓系数的复杂度为O(N*K*N)。当N很大时,采用轮廓系数作为衡量方法的代价非常高。目前Spark中并没有提供轮廓系数的计算方法。其他的分布式平台上,如Hadoop平台,也没有并行计算轮廓系数的算法实现。
现有的方法在Spark上并不适用,只能用于HDFS存储环境。
发明内容
要解决的技术问题是如何提供一种并行计算环境下分布式轮廓系数计算方法和系统。
针对现有技术中的缺陷,本发明提供一种并行计算环境下分布式轮廓系数计算方法和系统,可以快速得到轮廓系数的值。
第一方面,本发明提供了一种并行计算环境下分布式轮廓系数计算方法,包括:
计算当前聚类的任意两个元素之间的距离;
根据所述任意两个元素之间的距离计算任意一个元素与任意类数据距离的平均值,得到元素与类间距离,通过元素与所在类距离得到凝聚度;
根据所述任意一个元素与任意类距离的最小值计算任意元素与非所在类之间的离散度;
根据所述凝聚度和所述离散度计算元素的轮廓系数。
可选地,还包括:创建源数据文件步骤。
可选地,所述源数据文件包括文本文件、数据库或数据表。
可选地,所述当前元素的轮廓系数按下式计算:
si=(bi–ai)/max(ai,bi)
其中,si表示轮廓系数,ai表示凝聚度,bi表示离散度。
可选地,所述整体轮廓系数计算所有元素的轮廓系数后取平均值得到的。
另一方面,本发明提供一种并行计算环境下分布式轮廓系数计算系统,包括:
元素距离计算单元,用于计算当前聚类的任意两个元素之间的距离;
元素与类距离计算单元,用于根据任意两个元素之间的距离计算任意一个元素与任意类数据距离的平均值,通过元素与所在类间距离得到凝聚度;
离散度计算单元,用于根据所述任意一个元素与非所在类距离的最小值计算当前聚类的类之间的离散度;
轮廓系数计算单元,用于根据所述凝聚度和所述离散度计算元素的轮廓系数。
可选地,还包括:
源数据文件创建单元,用于创建源数据文件。
可选地,所述源数据文件包括文本文件、数据库或者数据表。
可选地,所述当前元素的轮廓系数按下式计算:
si=(bi–ai)/max(ai,bi)
其中,si表示轮廓系数,ai表示凝聚度,bi表示离散度。
可选地,所述整体轮廓系数计算单元,用于计算所有元素的轮廓系数并取平均得到当前聚类的整体轮廓系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京寄云鼎城科技有限公司,未经北京寄云鼎城科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710325897.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动生成CAN发送和接收代码的方法
- 下一篇:应用安装包打包方法及装置