[发明专利]一种实现同时定位和哈希的细粒度图像检索方法有效
申请号: | 201911128818.0 | 申请日: | 2019-11-18 |
公开(公告)号: | CN110851633B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 曾海恩;赖韩江;印鉴 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/583;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 同时 定位 细粒度 图像 检索 方法 | ||
1.一种实现同时定位和哈希的细粒度图像检索方法,其特征在于,包括以下步骤:
S1:对于一张输入的细粒度图片,首先将其通过共享的特征提取器ResNet-18提取出图像特征,ResNet-18最后一层卷积层的输出的512x7x7的特征作为定位模块的输入;
S2:定位模块中包含了卷积操作,在不同尺度的特征上预测候选框的得分,每个得分对应原图上的一个候选框,三个不同层的特征图大小分别是7x7、4x4、2x2,对应着原图中锚点anchor的数目,按照Region Proposal Net(RPN)的做法,原图中的每个锚点都取了9个候选框,因此共有9x7x7+9x4x4+9x2x2个候选框;
S3:根据S2中定位模块得到的候选框的预测评分对每个尺度的候选框做非极大值抑制NMS,最后三个尺度都分别剩下A个候选框;
S4:在S3中每个尺度的A个候选框选得分最高的那个候选框在原输入图片上所对应的区域作为关键的判别性区域,因为共有三个尺度因此最后得到3个不同尺度的判别性区域;
S5:将3个判别性区域通过双线性插值的方式统一放缩到112x112的大小,然后通过共享的特征提取器ResNet-18提取出3个特征向量;
S6:把S5提取到的3个关键区域的特征向量加上S1得到的原图的特征向量共四个特征向量作为哈希模块的输入;
S7:哈希模块中的分类器接受4个特征向量,然后对他们在列方向上做最大池化,得到一个特征向量,然后这个特征相量用于计算交叉熵损失函数,此外,哈希模块的ranker接受4个特征向量作为输入,然后将他们通过一个门控单元gated unit用于融合不容尺度、不同关键区域的信息,得到一个特征向量,这个特征向量进而生成图像的哈希码;
S8:对数据库中每张细粒度的图像通过S1~S7生成哈希码并保存下来,对每张查询图像也通过同样过程计算哈希码,然后通过计算查询图像的哈希码和数据库哈希码的相似性对数据库图像进行排序,排在前面的图像即和查询图像相似的图像。
2.根据权利要求1所述的实现同时定位和哈希的细粒度图像检索方法,其特征在于,所述步骤S3中A取值为6。
3.根据权利要求2所述的实现同时定位和哈希的细粒度图像检索方法,其特征在于,所述步骤S7中,哈希模块中的分类器接受4个特征向量,然后对他们再列方向上做最大池化,得到一个特征向量,然后这个特征相量用于计算交叉熵损失函数,此外分类器在训练中还会计算候选框的分类置信度,然后作为监督信息返回给定位模块进行训练,另一方面哈希模块的ranker接受4个特征向量作为输入,然后将他们通过一个门控单元gated unit用于融合不容尺度、不同关键区域的信息,得到一个特征向量,然后通过这个特征向量来计算相似性保持损失函数,此外也通过这个特征来得到图像的哈希码表示,该步骤包括了模型训练过程的损失函数,具体可分为三部分:分类器的损失函数的训练,损失函数是ranker的损失函数的训练,损失函数是定位模块部分的损失函数的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911128818.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种观光电梯
- 下一篇:热泵系统、空调器及热泵系统的控制方法