[发明专利]基于L2范数规范化和余弦定理改进的肘部法则的方法在审
| 申请号: | 201711172384.5 | 申请日: | 2017-11-22 |
| 公开(公告)号: | CN108171253A | 公开(公告)日: | 2018-06-15 |
| 发明(设计)人: | 付映雪;石聪明;王锋;邓辉;戴伟;卫守林 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 肘部 范数 余弦定理 畸变 规范化 搜索 聚类 聚类分析 数据挖掘 改进 | ||
本发明涉及一种基于L2范数规范化和余弦定理改进的肘部法则的方法,属于数据挖掘中聚类分析技术领域。本发明包括设定K均值聚类算法中要搜索其最佳聚类数(最佳K值)的范围[Kmin‑Kmax];计算搜索范围内的Kmax‑Kmin+1个聚类数对应的平均畸变程度;对计算得到的Kmax‑Kmin+1个平均畸变程度进行L2范数规范化处理等步骤。本发明在K均值聚类算法及肘部法则的基础上,通过对肘部法则得到的平均畸变程度进行L2范数规范化处理及利用余弦定理对其进行进一步的计算,进而得到搜索范围内的最佳K值,该方法可以使得到的最佳K值更具有客观性。
技术领域
L2范数规范化和余弦定理改进的肘部法则的方法,特别涉及一种结合数据挖掘中聚类分析中常用的K均值聚类算法、肘部法则以及通过L2范数规范化对K均值聚类算法得到的平均畸变程度进行规范化、将规范化后处理的平均畸变程度与对应的搜索范围内的聚类数封装成数据点、进而利用余弦定理求出封装数据点中从第一个数据点开始的每三个相邻数据点之间的夹角等来识别出设定搜索范围内的最佳K值的方法,属于数据挖掘中聚类分析领域。
背景技术
随着信息技术及物联网等技术的迅猛发展,人们产生的数据呈指数式增长,人类逐渐进入了大数据时代。同时大数据中也蕴含着大量的新知识和技能,为了能够获取到大数据中蕴含的新知识和技能需要通过使用数据挖掘来实现上述目标。
数据挖掘通常与计算机科学有关,其可以挖掘出大数据中有用的信息和知识。获取的信息和知识可以广泛应用于各种应用,如商务管理,生产控制,市场分析,科学探索和工程设计等领域。数据挖掘中常用的分析方法有分类(Classification)、估计(Estimation)、预测(Prediction)、关联规则(Association rules)、聚类(Clustering)等。聚类分析是数据挖掘中常用的分析方法,聚类分析可以帮助我们发现数据的“群落”,同时也可以寻找“离群”的样本。聚类是一个将整体的数据点对象划分为以类或簇存在的包含局部数据点对象的过程。K均值聚类算法(K-means Clustering)是聚类模型中最为经典和易用的一个聚类模型。
获取良好聚类效果的关键在于确定最佳的聚类数目。由于K均值聚类算法需要预先设定聚类的数目,然而事实上在某种程度上无法事先直接确定最佳的聚类数目。当使用K均值聚类算法的时候,往往需要通过专家的丰富经验或者通过肘部法则来找到K均值聚类算法中所需的聚类数目(最佳聚类数、最佳K值)。然而肘部法则的方法往往需要通过将指定搜索范围内的聚类数目与其对应的平均畸变程度以关系曲线的形式呈现,进而通过观察法来粗略地预估出关系曲线上的肘点(最佳聚类数),这种通过观测法识别最佳聚类数目的方法不仅存在个人主观性,而且也不利于其在自动化系统中的使用及其它领域的推广使用。
发明内容
本发明要解决的技术问题是提供基于L2范数规范化和余弦定理改进的肘部法则的方法,首先通过给K均值聚类算法设定最佳K值的搜索范围[Kmin,Kmax],然后根据不同的聚类数计算出样本数据点应的聚类中心,根据计算得到的聚类中心和肘部法则计算出样本数据的平均畸变程度,进而通过L2范数规范化来处理得到的平均畸变程度,将经过规范化处理后的平均畸变程度和搜索范围[Kmin,Kmax]内的对应的聚类数封装成数据点,进而利用余弦定理来计算封装数据点中的每三个相邻的数据点之间的夹角,进而找出所计算的夹角中的最小的夹角,进而通过找到的最小夹角来找到搜索范围内的最佳聚类数。该方法降低了对人工通过可视化的观察法来识别肘部法则中得到最优K值的依赖,同样有利于肘部法则在自动化系统中为聚类提供最优K值的应用和推广。
本发明采用的技术方案是:一种基于L2范数规范化和余弦定理改进的肘部法则的方法,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711172384.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于分层聚类的均衡图像聚类方法
- 下一篇:图像标签确定方法、装置及终端





