[发明专利]跨模态检索方法、装置和可读存储介质有效
申请号: | 201810862629.5 | 申请日: | 2018-08-01 |
公开(公告)号: | CN110851641B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 郭招 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/58;G06N3/04 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 韩东艳 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 跨模态 检索 方法 装置 可读 存储 介质 | ||
本申请公开了一种跨模态检索方法、装置和可读存储介质,属于计算机技术领域。该方法包括:在被检索图像中提取包含目标对象的感兴趣区域的图像特征;在检索语句中提取短语特征;基于注意力模型,采用感兴趣区域的图像特征计算检索语句对应的图像特征值;基于相似度计算模型,采用短语特征和图像特征值,计算短语特征和感兴趣区域的图像特征的相似度,并根据相似度输出检索结果。本公开基于注意力机制计算检索语句对应的图像特征值,使得图像特征值中,感兴趣区域中与检索语句相关的区域的图像特征比感兴趣区域中与检索语句无关的区域的图像特征所占的比重大,进而使得相似度计算的结果更准确,提高了检索的准确度。
技术领域
本公开涉及计算机技术领域,特别涉及一种跨模态检索方法、装置和可读存储介质。
背景技术
模态是指数据存在的形式,例如文本、音频、图像、视频等文件格式。跨模态检索是指这样一种检索形式:以一种模态的数据作为查询条件,返回另一种模态的相关结果,例如,用文本形式的自然语言描述检索图像等。
目前,用自然语言描述检索图像的跨模态检索的过程如下:从自然语言描述中提取文本特征,从图像中确定感兴趣区域的图像特征,计算文本特征和图像特征的相似度,当相似度达到阈值时,将图像特征所属的图像作为检索结果输出。
由于自然语言描述实际对应的图像区域可能与感兴趣区域并不是完全匹配的,不匹配的部分会对相似度的结果产生影响,导致相似度的计算存在偏差,最终导致检索结果不准确。
发明内容
本公开提供了一种跨模态检索方法、装置和可读存储介质,能够以自然描述语句作为检索条件对图像进行准确检索。所述技术方案如下:
一方面,提供了一种跨模态检索方法,该方法包括:
获取检索语句和被检索图像;
基于第一特征提取模型,在所述被检索图像中提取包含目标对象的感兴趣区域的图像特征;
基于第二特征提取模型,在所述检索语句中提取短语特征;
基于注意力模型,采用所述包含目标对象的感兴趣区域的图像特征计算所述检索语句对应的图像特征值;
基于相似度计算模型,采用所述短语特征和所述图像特征值,计算所述短语特征和所述包含目标对象的感兴趣区域的图像特征的相似度,并将相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出。
可选地,所述第一特征提取模型包括第一卷积网络、候选区域生成网络RPN 感兴趣区域池化层和分类层;
所述基于第一特征提取模型,在所述被检索图像中提取包含目标对象的感兴趣区域的图像特征,包括:
将所述被检索图像输入所述第一卷积网络,得到所述被检索图像的特征图;
将所述被检索图像的特征图输入所述RPN,得到包含对象的感兴趣区域在所述特征图中的位置信息;
将所述被检索图像的特征图和所述包含对象的感兴趣区域在所述被检索图像中的位置信息输入所述感兴趣区域池化层,得到包含对象的感兴趣区域的特征图;
将所述包含对象的感兴趣区域的特征图输入所述分类层,得到所述包含对象的感兴趣区域中的对象的类别;
对感兴趣区域所包含的对象进行筛选,筛选出所述包含目标对象的感兴趣区域,并得到所述包含目标对象的感兴趣区域在所述被检索图像中的位置信息;
基于所述包含目标对象的所述感兴趣区域的在所述被检索图像中的位置信息,确定所述包含目标对象的感兴趣区域的图像特征。
可选地,所述第二特征提取模型包括嵌入层和第二卷积网络;
所述基于第二特征提取模型,在所述检索语句中提取短语特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810862629.5/2.html,转载请声明来源钻瓜专利网。