[发明专利]一种基于标签自适应策略的深度半监督图像聚类方法有效
申请号: | 202010084739.0 | 申请日: | 2020-02-10 |
公开(公告)号: | CN111259979B | 公开(公告)日: | 2022-11-18 |
发明(设计)人: | 陈志奎;李超杰;高静;李朋 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06F16/55 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 李晓亮;潘迅 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 自适应 策略 深度 监督 图像 方法 | ||
一种基于标签自适应策略的深度半监督图像聚类方法,属于图像聚类与数据挖掘技术领域,1)预训练编解码网络,初始化特征嵌入空间;2)通过K‑means方法在潜在特征空间初始化聚类簇心;3)计算聚类结果的软分配和目标分布,基于KL散度生成聚类损失;4)利用标签自适应策略动态生成临时监督标签,基于交叉熵生成标签损失;5)计算和优化联合目标函数,迭代更新直至满足收敛条件,完成聚类学习。本发明针对图像数据设计了一种深度半监督聚类方法,考虑在聚类过程中的标签漂移问题,并设计了一种标签自适应策略,以动态适应标签的漂移,同时整合聚类损失和标签损失,联合优化潜在特征空间和调整聚类簇心,能有效提高聚类方法的性能。
技术领域
本发明属于图像聚类与数据挖掘技术领域,涉及一种基于标签自适应策略的深度半监督图像聚类方法。
背景技术
随着网络信息技术和数据采集技术的飞速发展,人们不断地与外界进行数据交换,从而导致数据量的爆炸性增长。同时智能手机和照相机的广泛应用,造成了图像数据的迅猛增长。尽管互联网上不断增长的图像数据中包含丰富的信息,但要从中获取真正有价值的信息却也变得更加困难。庞大的数据量使得我们迫切需要一种新方法来深入挖掘大规模图像数据中蕴含的真正有价值的信息。数据挖掘技术可以从大量不完整、嘈杂和随机的数据中挖掘隐藏的、潜在的和有价值的信息。它不仅可以学习已有的知识,还可以从数据中发现未知的规律。
图像聚类是图像处理技术中重要的研究内容之一,其目的在于将拥有类似特征或空间属性的图像归为一类,进而在面对海量图像数据时提高图像的管理和检索性能。近年来,许多研究者已经投入到图像聚类领域中,并取得了很大的成果。但是由于图像数据往往表现为高维属性导致其具有不可靠的相似性指标。因此在面对具有较高维度的图像数据时,传统聚类方法的性能往往会下降。为了解决这一维度灾难问题,研究者们常用的方法是将图像数据从高维特征空间转换到低维空间。在深度学习兴起之前,可以使用主成分分析(PCA)和线性判别分析(LDA)之类的方法来缩小数据的维数。但是近年来,由于深度神经网络具有很强的数据表达能力,利用深度神经网络(DNN)变换特征空间的方法引起了广泛的关注。我们将这种聚类方法称为深度聚类。其中代表性的方法包括深度嵌入式聚类(DEC)、深度聚类网络(DCN)、保留局部结构的改进深度嵌入聚类(IDEC)。
然而,以上方法只利用了图像数据的无监督信息,没有利用海量图像数据中存在的部分先验信息,即数据中少量的标签数据或专家给定的约束表示。为了充分考虑数据中有限的标记数据和足够的未标记数据来提高聚类方法的性能,半监督聚类方法引起了研究者的关注。相应地,一些半监督聚类方法被提出,如自加权多核学习(SMKL)和半监督深度嵌入聚类(SDEC),利用数据中监督信息,提高聚类精度。由于聚类方法在执行过程中产生的标签无实际意义,仅表示数据是否归属于同一类,这导致聚类方法在执行过程中每次迭代所产生的标签都不一致且和实际标签无对应关系。本发明中将该现象称作标签漂移。因此以往的半监督聚类方法只是将数据的监督信息作用于数据的特征学习,无法将其直接作用于聚类过程,导致对监督信息的利用程度不足。
综上,本发明提出一种基于标签自适应策略的深度半监督图像聚类方法,主要考虑纠正聚类过程中的标签漂移问题,从而直接利用监督信息来调整聚类簇心,指导聚类过程。
发明内容
本发明提出一种基于标签自适应策略的深度半监督图像聚类方法。该方法使用堆叠自动编码机对原始图像数据进行特征空间的转换,避免图像在原始数据空间中的维度灾难难题,生成语义丰富的深度数据表示。同时,本发明设计一种标签自适应策略,纠正聚类过程中的标签漂移问题,该策略可有效提高标签信息的利用率,同时抑制编解码网络对深度聚类方法簇心学习的过重影响。此外,本发明提出一种半监督联合学习框架,该框架集成部分已知的标签信息来共同学习潜在特征空间和聚类划分,最终提高聚类方法的准确率(ACC)和标准化互信息(NMI)。
为了达到上述目的,本发明采用的技术方案为:
一种基于标签自适应策略的深度半监督图像聚类方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010084739.0/2.html,转载请声明来源钻瓜专利网。