[发明专利]一种基于自适应权重的复杂图片聚类方法在审
申请号: | 202110740031.0 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113449138A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 任亚洲;杨之蒙;吴子锐 | 申请(专利权)人: | 电子科技大学广东电子信息工程研究院 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06K9/62;G06N3/08 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 孟仕杰 |
地址: | 523808 广东省东莞市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 权重 复杂 图片 方法 | ||
本发明涉及深度学习与图像聚类领域,具体是一种基于自适应权重的复杂图片聚类方法,包括如下步骤:首先,利用已有分类网络和传统聚类算法初始化聚类网络;其次,对图像进行聚类并向熵减方向计算本次迭代的网络目标并更新网络;再次,利用样本熵值计算下一次迭代中各个样本的权重;最后,聚类损失小于停止迭代阈值,输出聚类结果。解决了现有图像聚类模型中,难以使用图形样本的质量来决定一个样本的权重,并使用自适应的权重进行模型训练的问题。
技术领域
本发明涉及深度学习与图像聚类领域,具体是指一种基于自适应权重的复杂图片聚类方法。
背景技术
随着便携媒体设备的普及,图像的产生越来越快,因其直观丰富的内容展现方式,图片成为大数据时代最重要的资源之一;对于基于图像的工作包括物体识别,产品推荐等应用,图像聚类都是其底层工作;对于传统的较简单的图像如车牌号等图像的聚类工作已有较好的发展,而对于越来越多的复杂图片,现有的图像聚类算法甚至深层图像聚类算法都不能很好的适应它;复杂图像分类网络已有较好的发展,如ResNet,GoogleNet等,但对海量图片进行准确的打标签是不可能完成的任务,因此对于复杂无标签图像的聚类工作显得尤为重要。
相比于简单图像,无标签复杂图像之所以难以聚类主要表现在两个方面:其一是复杂图像特征难以提取,对此我们可以借用迁移学习的思想使用已有的图像特征提取网络进行网络初始化;二是复杂图像的质量难以衡量,目标特征清晰的图像对网络训练起到重要作用,而噪声大,内容复杂的图像则会损坏网络的性能;对此,我们将基于自步思想,采用自适应的样本权重,提出一个针对于复杂图像的图像聚类网络。
发明内容
基于以上问题,本发明提供了一种基于自适应权重的复杂图片聚类方法,解决了现有图像聚类模型中,无法使用图形样本的质量来决定一个样本的权重,并使用自适应的权重进行模型训练的问题。
为解决以上技术问题,本发明采用的技术方案如下:
一种基于自适应权重的复杂图片聚类方法,包括如下步骤:
步骤一、构建图像数据集,将图像数据集划分为训练集和验证集,并对图像进行预处理;
步骤二、构建特征提取网络,特征提取网络包含特征提取部分以及特征提取部分之后连接两层全连接层和一层聚类层;
步骤三、将训练集输入构建好的特征提取网络中进行训练并输出每个样本属于各个类的概率分布矩阵P;
步骤四、根据概率分布矩阵P在聚类层计算出目标概率分布矩阵Q;
步骤五、计算概率分布矩阵P和目标概率分布矩阵Q的交叉熵损失,若交叉熵损失小于阈值,则停止网络训练保存模型,并进入步骤六,若指数损失的变化率大于阈值,则反向传播以样本的熵更新样本的权重,开始新一轮的网络训练,并进入步骤三;
步骤六、将验证集输入步骤五保存的模型中,对模型进行验证。
进一步,所述步骤一中,图像数据集为OFFICE-31,该图像数据集按照9:1的比例将所有图像划分为训练集和验证集。
进一步,所述步骤一中,图像预处理过程包括对图像进行上采样和下采样操作,其中,上采样采用三次内插法,下采样根据采用目标尺寸以及原有尺寸隔行隔列采样,图像经过上采样和下采样处理后尺寸统一为299*299*3。
进一步,所述步骤二中,特征提取网络使用InceptionV3的第一层至倒数第二层作为特征提取部分对图像的特征表示进行提取,初始化参数选择AlexNet参数,参数不冻结。
进一步,所述第一层全连接层的神经元数量为256,第二层全连接层输出单元为预聚类簇数,其神经元数量为5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学广东电子信息工程研究院,未经电子科技大学广东电子信息工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110740031.0/2.html,转载请声明来源钻瓜专利网。