[发明专利]图像和语音的跨模态检索分类器模型、检索系统和检索方法在审
| 申请号: | 201910131147.7 | 申请日: | 2019-02-21 |
| 公开(公告)号: | CN109977258A | 公开(公告)日: | 2019-07-05 |
| 发明(设计)人: | 袁媛;卢孝强;郭毛 | 申请(专利权)人: | 中国科学院西安光学精密机械研究所 |
| 主分类号: | G06F16/68 | 分类号: | G06F16/68;G06F16/58;G06K9/62;G06N3/04 |
| 代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 王少文 |
| 地址: | 710119 陕西省西*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图像 语音 模态 检索系统 检索 检索分类 图像检索 神经网络结构 检索准确率 关联关系 函数模型 检索过程 检索效率 检索需求 人机交互 神经网络 细节信息 语音描述 构建 监督 | ||
为解决现有图像检索方法检索效率低、可能会丢失一些有用或重要的细节信息、不能很好满足用户真正检索需求的技术问题,本发明提供了一种图像和语音的跨模态检索分类器模型、检索系统和检索方法。本发明构建了一个图像‑语音神经网络结构,利用图像及其语音描述之间的相关性作为监督信息,对深度神经网络进行训练,得到图像和语音关联关系的函数模型,从而实现图像和语音的跨模态检索,提高了图像检索效率和检索准确率,使检索过程中的人机交互变得更容易。
技术领域
本发明属于信息处理技术领域,涉及一种跨模态检索分类器模型、检索系统和检索方法,可用于模式识别、数据挖掘、计算机视觉等领域。
背景技术
近年来,随着图像数据的大量增加,从海量图像中快速检索到所需图像成为一个棘手的问题。
现有的图像检索主要包括两类检索方式,以文搜图和以图搜图。以文搜图的方法高度依赖于手动输入标签的速度以及标签的可用性。然而,键盘输入的效率往往较低。以图搜图的方法需要示例图像作为查询的输入,然而实际应用中示例图像通常不存在。以上两种检索方法的缺陷,使得其无法应用于某些紧急情况和/或特殊情况。
从用户的角度考虑,检索系统应该是快速、容易操作的。众所周知,语音是人类交流的主要方式,比书写和打字更方便快捷。因此,通过语音进行图像检索将极大地提高检索的便利性和效率。而且,在移动终端中广泛使用的语音设备也在物理配置上为语音检索提供了强有力的支持。
虽然目前可以采用语音识别技术,先将语音转录成文本,然后将文本应用于传统的图像检索,但是这一转换过程可能会丢失一些有用或重要的细节信息。
下面将对目前存在的图像检索算法和跨模态检索算法进行详细的描述。
图像检索大都是基于内容的检索方法。这类方法通过对图像的底层特征进行表达,然后对特征做相似性度量,从而实现检索。但是,这类方法需要一个示例图像作为查询输入,而且计算机自动提取的图像的底层特征与用户的查询命令即高层语义特征有很大差异。这些差异使得计算机检索到的图像不能很好的满足用户的查询需求。代表性的工作是Xia,Tong,Hu,Zhong,Datcu,和Zhang在“G.Xia,X.Tong,F.Hu,Y.Zhong,M.Datcu,L.Zhang,Exploiting Deep Features for Remote Sensing Image Retrieval:ASystematicInvestigation,arXiv preprint arXiv:1707.07321,2017.”上提出的工作。该工作重点研究了视觉特征表达,并探讨了如何在检索任务中使用强大的深度神经网络对图像进行表示,表明深度特征表示比传统手工特征具有更好的性能。
跨模态检索大都是基于文本的方法,如用文本检索图像和用文本检索声音。这些方法通过将两种模态的数据映射到一个公共空间,在这个公共空间里进行相似性度量,从而实现检索任务。代表性的工作有Karpathy,Joulin,和Li在“A.Karpathy,A.Joulin,F.Li,Deep fragment embeddings for bidirectional imagesentence mapping,in NeuralInformation Processing Systems,pp.1889-1897,2014.”上提出的图像文本的双向映射方法,该方法不像以前的模型直接映射整张图像或整条句子到一个公共的嵌入空间,而是把图像块和句子片段映射到一个公共的空间,并引入一个结构化的“max-margin”目标函数,将这些片段关联起来,从而实现图像文本的跨模态检索。
发明内容
为解决现有图像检索方法检索效率低、可能会丢失一些有用或重要的细节信息、不能很好满足用户真正检索需求的技术问题,本发明提供了一种图像和语音的跨模态检索分类器模型、检索系统和检索方法。
本发明的技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所,未经中国科学院西安光学精密机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910131147.7/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





