[发明专利]一种基于标签视觉联合感知的无监督图像检索方法和系统在审
申请号: | 202310086525.0 | 申请日: | 2023-01-17 |
公开(公告)号: | CN116049467A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 刘渝;谢延昭;魏如凯;周可 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/55;G06F16/51;G06V10/764;G06V10/82;G06V10/74;G06V10/80;G06N3/0464;G06N3/048;G06N3/0455;G06N3/084;G06N3/088 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 宋业斌 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 视觉 联合 感知 监督 图像 检索 方法 系统 | ||
本发明公开了一种基于标签视觉联合感知的无监督图像检索方法,首先获取待检索图像以及图像数据库中的多个图像,使用PIL库将该待检索图像和每个图像分别转换为多维张量,所有多维张量构成多维张量集合,然后将多维张量集合输入预先训练好的检索模型中,以得到待检索图像对应的哈希码,以及每个图像对应的哈希码,针对每个图像对应的哈希码而言,计算其与待检索图像对应的哈希码之间的相似度,其中检索模型包括依次连接的ResNet‑101网络、标签共现嵌入生成网络、视觉相似性嵌入生成网络、双重OGSP网络、自监督网络、以及哈希函数学习网络。本发明能够解决现有无监督多标签图像检索方法无法得到最佳的MAP、进而影响最终检索性能的技术问题。
技术领域
本发明属于计算机视觉和图像检索技术领域,更具体地,涉及一种基于标签视觉联合感知的无监督图像检索方法和系统。
背景技术
如今,多标签图像检索(Multi-label image retrieval)在计算机视觉领域已经得到了日趋广泛的应用,包括智能安防、智慧城市、数据库、存储系统和搜索引擎等。由于实际中海量的多标签图像都是没有人工标注(即标签)的,因此如何挖掘图像中对象之间的共现关系,并利用多个对象之间视觉相关性,以及如何将这些信息与检索算法进行高效融合依然面临着挑战。
一般而言,现有的无监督多标签图像检索方法首先是利用预训练的模型生成伪标签并构建监督信号,再利用特征提取网络得到整张图像的特征向量,然后,利用哈希层将这些特征向量映射为预设位长的哈希码,最后,可以直接采用基于成对损失或其他类别的哈希损失函数来指导模型的训练。
然而,上述无监督多标签图像检索方法存在一些不可忽略的缺陷:第一、该方法忽略了不同对象之间具有的相互依赖关系,这导致检索模型无法得到最佳的平均精确率均值(Mean average precision,简称MAP),进而影响最终的检索性能;第二,由于该方法常常使用预训练模型提取多标签图像的伪标签,并作为监督信号加以利用,但未能有效控制其中包含的噪声信号,因此也进一步降低了检索模型的MAP,进而降低了最终的检索精度;第三,由于该方法无法高效地融合伪标签共现信息和图像特征向量,因此也更进一步降低了检索模型的MAP,进而降低了最终的检索精度。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于标签视觉联合感知的无监督图像检索方法和系统,其目的在于:解决现有无监督多标签图像检索方法由于忽略了不同对象之间具有的相互依赖关系,这导致检索模型无法得到最佳的MAP、进而影响最终检索性能的技术问题,以及由于该方法常常使用预训练模型提取多标签图像的伪标签,并作为监督信号加以利用,但未能有效控制其中包含的噪声信号,因此也进一步降低了检索模型的MAP、并并进而降低了最终检索精度的技术问题,以及由于该方法无法高效地融合伪标签共现信息和图像特征向量,因此也更进一步降低了检索模型的MAP、并进而降低了最终检索精度的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于标签视觉联合感知的无监督图像检索方法,包括
按照本发明的另一方面,提供了一种基于标签视觉联合感知的无监督图像检索方法,包括以下步骤:
(1)获取待检索图像以及图像数据库中的多个图像,使用PIL库将该待检索图像和每个图像分别转换为多维张量,所有多维张量构成多维张量集合;
(2)将步骤(1)得到的多维张量集合输入预先训练好的检索模型中,以得到待检索图像对应的哈希码,以及每个图像对应的哈希码;
(3)针对步骤(2)得到的每个图像对应的哈希码而言,计算其与步骤(2)得到的待检索图像对应的哈希码之间的相似度,根据得到的多个相似度计算结果选择与待检索图像匹配的多个图像输出。
其中检索模型包括依次连接的ResNet-101网络、标签共现嵌入生成网络、视觉相似性嵌入生成网络、双重OGSP网络、自监督网络、以及哈希函数学习网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310086525.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:比对和变体测序分析管线
- 下一篇:金属板双面覆膜装置