[发明专利]一种基于标签自适应策略的深度半监督图像聚类方法有效

专利信息
申请号: 202010084739.0 申请日: 2020-02-10
公开(公告)号: CN111259979B 公开(公告)日: 2022-11-18
发明(设计)人: 陈志奎;李超杰;高静;李朋 申请(专利权)人: 大连理工大学
主分类号: G06V10/762 分类号: G06V10/762;G06F16/55
代理公司: 大连理工大学专利中心 21200 代理人: 李晓亮;潘迅
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 标签 自适应 策略 深度 监督 图像 方法
【权利要求书】:

1.一种基于标签自适应策略的深度半监督图像聚类方法,其特征在于,所述的深度半监督图像聚类方法包括以下步骤:

步骤1、学习潜在特征空间;

采用堆叠自编码器网络构建高维数据的低维特征空间,学习原始图像数据的低维语义表示;利用降噪自编码机逐层初始化堆叠自编码器网络,设定x表示降噪自编码机的输入,t表示降噪自编码机的输出,具体的计算过程如下:

其中,Dropout(·)是一个随机映射,随机地将输入层的一部分随机设置为0,是对输入x进行随机映射后的结果,h是降噪自编码机的中间输出结果,是对h进行随机映射后的结果,g1和g2分别代表编码器和解码器的激活函数,θ={W1,b1,W2,b2}是网络的参数;降噪自编码机通过最小化平方损失来完成训练;在训练完第一层之后,第一层的输出h作为下一层的输入,依据公式(1)、(2)、(3)、(4)训练网络第二层,以此类推,逐层初始化堆叠自编码器网络;为保证重构初始输入和最终的潜在空间能包含全部的信息,将第一组自编码器的g2和最后一组自编码器的g1设置为常数1,除此之外,所有自编码器的g1和g2都设置为ReLU激活函数;逐层训练后,将所有的编码器层和解码器层连接起来,使用随机梯度下降算法微调整个网络,最小化重构损失,最终得到一个多层的已初始化的深度自编码器网络;然后,使用编码器层作为初始数据空间和潜在特征空间之间的初始映射fθ:X→Z,其中θ是学习到的参数,X是图像的初始数据空间,Z是潜在特征空间;

步骤2、初始化聚类簇心;

给定n个图像样本的集合使用已初始化的深度自编码器网络,生成数据点xi在潜在特征空间Z中的对应点zi=fθ(xi)∈Z,利用K-means聚类方法在潜在特征空间中得到k个初始化的聚类簇心采用欧氏距离平方度量样本之间的相似度,将样本与其所属类的簇心之间的距离总和作为损失函数,K-means的过程即最小化损失函数(5):

其中,j=C(i)表示划分,其中i∈{1,2,...,n},j∈{1,2,...,k};由于上式的直接求解是NP难的问题,因此只能采用启发式的迭代方法进行求解;首先随机选择k个类的簇心,将样本逐个指派到与其最近的簇心的类中,得到中间聚类结果;然后更新每个类的簇心的均值,作为类的新的簇心;重复以上步骤,直到划分不再改变,得到聚类结果,并将最终的聚类结果用作潜在特征空间中的初始聚类簇心;

步骤3、深度嵌入聚类;

给定初始非线性映射fθ和初始化的聚类簇心交替使用下述两个步骤来改善聚类性能;第一步,计算潜在特征空间中的数据点和聚类簇心之间的软分配;第二步,利用辅助目标分布从当前的高置信分配中学习聚类损失;

1)软分配

使用Student’s-t分布来测量特征点zi和簇心μj之间的相似度,计算公式如下:

其中,zi=fθ(xi)∈Z表示原始数据xi∈X在潜在特征空间中的对应点,qij为样本i被分配到类别j的概率;

2)KL分布最小化

使用辅助目标分布指导网络学习,从高置信度的分配中学习聚类损失,通过KL散度度量目标分布与网络输出分布间的代价;先将qi升至二次幂,然后按每个簇的频率进行归一化来计算得到辅助目标分布pi,计算公式如下所示:

其中,fj=∑iqij为类别j的软频率;

让软分配尽可能地匹配目标分布,将聚类损失定义为软分配qi和辅助目标分布pi之间的KL散度损失,定义如公式(8)所示;

如此,通过拟合软分配和目标分布,获得具有高置信度的聚类损失L1,使用聚类损失进一步更新深度映射fθ和优化聚类簇心

步骤4、标签自适应策略;

首先,构建样本标签列表A记录样本点是否具有真实标签,样本标签列表A中的元素ai定义如下:

其次,本发明所设计的标签自适应策略如下;

对于原始数据集中有标签数据中任意类别为i的子集为y=[i1,i2,...,in],初始聚类结果按下式计算得到:

其中,l1,r2,ln分别代表不同的标签;

在聚类结果中存在的误差,即未能将上述同一类别的样本全部归属到同一类中,为了更正这个误差,设计下面的学习策略:

1)统计q=[l1,r2,...,ln]中各类别的数目{ci|i=1,...,k},并认为其中的最大值c:=max{ci|i=1,...,k}为聚类结果的正确标签;

2)为了学习聚类过程中产生的标签误差,将真实标签y=[i1,i2,...,in]在此次聚类过程中动态标记为y'=[c1,c2,...,cn],即原始数据中类别为i的子集在聚类结果中的类别应全部体现为c;

3)计算标签损失-∑y'log q,即聚类结果中未正确判断类别的样本产生的误差;

4)重复步骤1)至步骤3),不断地动态改变q和y',迭代调整潜在特征空间和聚类簇心;

基于上述标签自适应策略和标签存在列表A,定义全部数据集的标签损失如下:

步骤5、优化联合目标函数;

将深度自编码网络、深入嵌入聚类以及标签自适应策略集成至半监督联合框架,并联合优化聚类损失和标签损失,设计整体半监督损失函数如下:

使用随机梯度下降SGD优化损失函数;更新半监督联合框架的参数:堆叠自动编码机的参数θ和聚类簇心{μj};

损失函数相对于潜在特征空间中数据表示点zi的梯度为:

损失函数相对于潜在特征空间中的聚类簇心{μj}的梯度为:

然后,将梯度向下传递到堆叠自动编码器网络,并使用随机梯度下降计算堆叠自动编码机中的参数梯度对参数θ进行更新;聚类簇心{μj}通过进行更新;当两次连续迭代之间的聚类分配变动小于tol%或达到最大训练次数时,聚类过程将终止。

2.根据权利要求1所述的一种基于标签自适应策略的深度半监督图像聚类方法,其特征在于,所述的迭代终止条件中的阈值tol%设为0.01。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010084739.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top