[发明专利]图像和语音的跨模态检索分类器模型、检索系统和检索方法在审

申请号：	201910131147.7	申请日：	2019-02-21
公开（公告）号：	CN109977258A	公开（公告）日：	2019-07-05
发明（设计）人：	袁媛;卢孝强;郭毛	申请（专利权）人：	中国科学院西安光学精密机械研究所
主分类号：	G06F16/68	分类号：	G06F16/68;G06F16/58;G06K9/62;G06N3/04
代理公司：	西安智邦专利商标代理有限公司 61211	代理人：	王少文
地址：	710119 陕西省西***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	为解决现有图像检索方法检索效率低、可能会丢失一些有用或重要的细节信息、不能很好满足用户真正检索需求的技术问题，本发明提供了一种图像和语音的跨模态检索分类器模型、检索系统和检索方法。本发明构建了一个图像‑语音神经网络结构，利用图像及其语音描述之间的相关性作为监督信息，对深度神经网络进行训练，得到图像和语音关联关系的函数模型，从而实现图像和语音的跨模态检索，提高了图像检索效率和检索准确率，使检索过程中的人机交互变得更容易。
搜索关键词：	图像语音模态检索系统检索检索分类图像检索神经网络结构检索准确率关联关系函数模型检索过程检索效率检索需求人机交互神经网络细节信息语音描述构建监督
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.图像和语音的跨模态检索分类器模型，其特征在于，所述跨模态检索分类器模型是按照下述步骤构建的：1)构建图像‑语音数据库，该数据库中的每幅图像对应有一条语音；2)将步骤1)构建的图像‑语音数据库划分为图像‑语音训练集和图像‑语音测试集；3)构建图像‑语音神经网络，所述图像‑语音神经网络包括图像深度神经子网络和语音卷积神经子网络；4)将图像‑语音训练集划分为多个训练块，每个训练块中的图像数量相同，以训练块为单位对所述图像‑语音训练集进行训练：4.1)提取图像的高层语义特征4.1.1)利用ImageNet数据库中的图像对所述图像深度神经子网络进行预训练；4.1.2)利用预训练好的图像深度神经子网络对所述图像‑语音训练集中的图像进行特征提取，得到图像的高层语义特征；4.2)获取语音的高层语义特征4.2.1)用梅尔频率倒谱系数MFCCs将所述图像‑语音训练集中的每一条原始音频数据转化到频率域进行表示，得到梅尔频率倒谱系数MFCCs特征，包括零阶、一阶、二阶特征；4.2.2)将步骤4.2.1)得到的梅尔频率倒谱系数MFCCs特征，输入到所述语音卷积神经子网络中进一步表达，得到语音的高层语义特征；4.3)特征融合将步骤4.1.2)得到的图像的高层语义特征和步骤4.2.2)得到的语音的高层语义特征进行融合，生成一个包含两种模态信息的融合特征；4.4)利用分类器对所述融合特征进行分类将所述融合特征依次输入到全连接层和分类器中，判别输入的图像和语音描述是否匹配，产生匹配或不匹配的二分类结果；4.5)使用交叉熵损失函数判断步骤4.4)得到的分类结果是否理想，若分类结果不理想，则返回步骤4.1)；若分类结果理想，则训练结束，得到跨模态检索分类器模型；判断分类结果是否理想的原则是：当交叉熵损失函数的损失值J大于设定阈值时，表示分类结果不理想；当交叉熵损失函数的损失值J小于等于设定阈值时，表示分类结果理想。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所，未经中国科学院西安光学精密机械研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910131147.7/，转载请声明来源钻瓜专利网。

上一篇：一种基于向量表征和长短时记忆网络的音乐重复收听行为预测方法
下一篇：一种数据查询方法、装置及电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]图像和语音的跨模态检索分类器模型、检索系统和检索方法在审

专利文献下载