[发明专利]一种基于半监督聚类的cop-kmeans方法与系统在审
申请号: | 201810794033.6 | 申请日: | 2018-07-19 |
公开(公告)号: | CN109409394A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 丁世飞;秦悦;从林 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 221116 江苏省徐*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 半监督聚类 数据对象 算法 半监督聚类算法 数据预处理 人工智能 背景知识 成对约束 定义距离 图像分类 先验条件 先验知识 约束规则 最小距离 输出 引入 分配 应用 成功 | ||
本发明公布了一种基于半监督聚类的cop‑kmeans方法与系统,涉及kmeans算法和基于半监督聚类的cop‑kmeans算法,有效的利用先验知识来提高半监督聚类算法的性能。本发明选择引入成对约束,利用数据对象之间的约束规则对数据对象进行分配,提高聚类的质量,属于人工智能及图像分类领域。本发明主要包括如下内容:步骤1:数据预处理;步骤2:定义距离函数;步骤3:按照最小距离原则聚类;步骤4:评价或输出,确定最终聚类成果。本方法成功的将带有背景知识的先验条件应用于聚类中。
技术领域
本发明公布了一种基于半监督聚类的cop-kmeans方法与系统,涉及kmeans 算法和基于半监督聚类的cop-kmeans算法,能够对分散的数据集添加约束,进行分类,和普通kmeans算法有所区别,以显示约束效果,属于人工智能及图像分类领域。
背景技术
随着信息技术的迅猛发展,人们无时无刻都在与外界进行数据交流,“大数据”时代来临,如何将这些海量的数据转化为有用的信息,依旧是一个需要解决的问题。数据挖掘是从海量数据中挖掘出有价值的信息知识,提取隐含在其中潜在的有用的信息。数据挖掘起源于多种学科,包括数据库、可视化、机器学习、人工智能、商业智能、数理统计等。
聚类分析,作为数据挖掘中最普遍且常用的技术,成为了研究的重要方向。聚类,就是将已有的数据对象进行分类,让每一类内部之间的相似度尽可能的大,每一类外部之间的相似度尽可能的小。一般情况下,在对数据进行划分的过程中,只靠信息之间简单的相似性作为准则,没有任何背景知识和相应的假设,不需要定义类别和性质,按照自然属性进行分类,由此,聚类分析被认为是一种无监督分析方法。聚类在许多领域中都得到应用,如:生物学,统计学,神经网络,信息检索,图像处理和数据挖掘。聚类算法一般分为五类,分别是划分方法,层次方法,基于密度的方法,基于网格的方法和基于模型的方法。其中最经典的 kmeans算法就是基于划分的聚类方法。
然而在现实生活应用中,人们对数据对象的相关领域或多或少都会有相关的背景知识,那么如何利用这些领域知识来提高聚类分析的质量,是半监督聚类分析的重要研究内容。半监督学习,可以分成半监督分类和半监督聚类,前者用未标记类标签数据辅助监督,后者用部分已标签的数据辅助非监督的学习。传统的 kmeans聚类算法是一种无监督学习方法,它按照基础优化准则对数据进行分类,通过最自然的相关性,没有考虑用户真实世界提供的任何知识。半监督聚类相比传统的无监督聚类,它利用标签或成对约束等先验知识指导聚类过程来提高聚类性能。关于半监督聚类较早的研究有S.Basu等提出的基于种子的半监督聚类算法,对等约束半监督聚类,基于搜索和相似度的半监督聚类方法。
本发明研究的重要问题,就是更有效的利用这些信息来提高半监督聚类算法的性能。本发明选择引入成对约束,利用数据对象之间的约束规则对数据对象进行分配,提高聚类的质量。用有效的方式来整合地面信息聚类算法。Kmeans算法是聚类里另一种流行的聚类算法,用于各种应用领域,如图像分割和信息信息检索。由于其广泛使用,我们认为可以开发一个可以利用背景知识的修改版本。可以对聚类算法有重要的应用。
发明内容
本发明的目的在于将现实当中可能出现的先验知识应用到聚类当中,加入约束提高半监督聚类的性能。
为实现上述目的,本发明包括如下步骤:
步骤1:数据预处理;
步骤2:定义距离函数;
步骤3:按照最小距离原则聚类;
(3.1)kmeans算法
(3.2)Cop-kmeans算法
步骤4:评价或输出,确定最终聚类成果。
(4.1)传统kmeans算法实验结果
(4.2)基于半监督聚类的cop-kmeans方法实验结果
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810794033.6/2.html,转载请声明来源钻瓜专利网。