[发明专利]图像和语音的跨模态检索分类器模型、检索系统和检索方法在审
| 申请号: | 201910131147.7 | 申请日: | 2019-02-21 |
| 公开(公告)号: | CN109977258A | 公开(公告)日: | 2019-07-05 |
| 发明(设计)人: | 袁媛;卢孝强;郭毛 | 申请(专利权)人: | 中国科学院西安光学精密机械研究所 |
| 主分类号: | G06F16/68 | 分类号: | G06F16/68;G06F16/58;G06K9/62;G06N3/04 |
| 代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 王少文 |
| 地址: | 710119 陕西省西*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 为解决现有图像检索方法检索效率低、可能会丢失一些有用或重要的细节信息、不能很好满足用户真正检索需求的技术问题,本发明提供了一种图像和语音的跨模态检索分类器模型、检索系统和检索方法。本发明构建了一个图像‑语音神经网络结构,利用图像及其语音描述之间的相关性作为监督信息,对深度神经网络进行训练,得到图像和语音关联关系的函数模型,从而实现图像和语音的跨模态检索,提高了图像检索效率和检索准确率,使检索过程中的人机交互变得更容易。 | ||
| 搜索关键词: | 图像 语音 模态 检索系统 检索 检索分类 图像检索 神经网络结构 检索准确率 关联关系 函数模型 检索过程 检索效率 检索需求 人机交互 神经网络 细节信息 语音描述 构建 监督 | ||
【主权项】:
1.图像和语音的跨模态检索分类器模型,其特征在于,所述跨模态检索分类器模型是按照下述步骤构建的:1)构建图像‑语音数据库,该数据库中的每幅图像对应有一条语音;2)将步骤1)构建的图像‑语音数据库划分为图像‑语音训练集和图像‑语音测试集;3)构建图像‑语音神经网络,所述图像‑语音神经网络包括图像深度神经子网络和语音卷积神经子网络;4)将图像‑语音训练集划分为多个训练块,每个训练块中的图像数量相同,以训练块为单位对所述图像‑语音训练集进行训练:4.1)提取图像的高层语义特征4.1.1)利用ImageNet数据库中的图像对所述图像深度神经子网络进行预训练;4.1.2)利用预训练好的图像深度神经子网络对所述图像‑语音训练集中的图像进行特征提取,得到图像的高层语义特征;4.2)获取语音的高层语义特征4.2.1)用梅尔频率倒谱系数MFCCs将所述图像‑语音训练集中的每一条原始音频数据转化到频率域进行表示,得到梅尔频率倒谱系数MFCCs特征,包括零阶、一阶、二阶特征;4.2.2)将步骤4.2.1)得到的梅尔频率倒谱系数MFCCs特征,输入到所述语音卷积神经子网络中进一步表达,得到语音的高层语义特征;4.3)特征融合将步骤4.1.2)得到的图像的高层语义特征和步骤4.2.2)得到的语音的高层语义特征进行融合,生成一个包含两种模态信息的融合特征;4.4)利用分类器对所述融合特征进行分类将所述融合特征依次输入到全连接层和分类器中,判别输入的图像和语音描述是否匹配,产生匹配或不匹配的二分类结果;4.5)使用交叉熵损失函数判断步骤4.4)得到的分类结果是否理想,若分类结果不理想,则返回步骤4.1);若分类结果理想,则训练结束,得到跨模态检索分类器模型;判断分类结果是否理想的原则是:当交叉熵损失函数的损失值J大于设定阈值时,表示分类结果不理想;当交叉熵损失函数的损失值J小于等于设定阈值时,表示分类结果理想。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所,未经中国科学院西安光学精密机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910131147.7/,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





