[发明专利]图像和语音的跨模态检索分类器模型、检索系统和检索方法在审

专利信息
申请号: 201910131147.7 申请日: 2019-02-21
公开(公告)号: CN109977258A 公开(公告)日: 2019-07-05
发明(设计)人: 袁媛;卢孝强;郭毛 申请(专利权)人: 中国科学院西安光学精密机械研究所
主分类号: G06F16/68 分类号: G06F16/68;G06F16/58;G06K9/62;G06N3/04
代理公司: 西安智邦专利商标代理有限公司 61211 代理人: 王少文
地址: 710119 陕西省西*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 为解决现有图像检索方法检索效率低、可能会丢失一些有用或重要的细节信息、不能很好满足用户真正检索需求的技术问题,本发明提供了一种图像和语音的跨模态检索分类器模型、检索系统和检索方法。本发明构建了一个图像‑语音神经网络结构,利用图像及其语音描述之间的相关性作为监督信息,对深度神经网络进行训练,得到图像和语音关联关系的函数模型,从而实现图像和语音的跨模态检索,提高了图像检索效率和检索准确率,使检索过程中的人机交互变得更容易。
搜索关键词: 图像 语音 模态 检索系统 检索 检索分类 图像检索 神经网络结构 检索准确率 关联关系 函数模型 检索过程 检索效率 检索需求 人机交互 神经网络 细节信息 语音描述 构建 监督
【主权项】:
1.图像和语音的跨模态检索分类器模型,其特征在于,所述跨模态检索分类器模型是按照下述步骤构建的:1)构建图像‑语音数据库,该数据库中的每幅图像对应有一条语音;2)将步骤1)构建的图像‑语音数据库划分为图像‑语音训练集和图像‑语音测试集;3)构建图像‑语音神经网络,所述图像‑语音神经网络包括图像深度神经子网络和语音卷积神经子网络;4)将图像‑语音训练集划分为多个训练块,每个训练块中的图像数量相同,以训练块为单位对所述图像‑语音训练集进行训练:4.1)提取图像的高层语义特征4.1.1)利用ImageNet数据库中的图像对所述图像深度神经子网络进行预训练;4.1.2)利用预训练好的图像深度神经子网络对所述图像‑语音训练集中的图像进行特征提取,得到图像的高层语义特征;4.2)获取语音的高层语义特征4.2.1)用梅尔频率倒谱系数MFCCs将所述图像‑语音训练集中的每一条原始音频数据转化到频率域进行表示,得到梅尔频率倒谱系数MFCCs特征,包括零阶、一阶、二阶特征;4.2.2)将步骤4.2.1)得到的梅尔频率倒谱系数MFCCs特征,输入到所述语音卷积神经子网络中进一步表达,得到语音的高层语义特征;4.3)特征融合将步骤4.1.2)得到的图像的高层语义特征和步骤4.2.2)得到的语音的高层语义特征进行融合,生成一个包含两种模态信息的融合特征;4.4)利用分类器对所述融合特征进行分类将所述融合特征依次输入到全连接层和分类器中,判别输入的图像和语音描述是否匹配,产生匹配或不匹配的二分类结果;4.5)使用交叉熵损失函数判断步骤4.4)得到的分类结果是否理想,若分类结果不理想,则返回步骤4.1);若分类结果理想,则训练结束,得到跨模态检索分类器模型;判断分类结果是否理想的原则是:当交叉熵损失函数的损失值J大于设定阈值时,表示分类结果不理想;当交叉熵损失函数的损失值J小于等于设定阈值时,表示分类结果理想。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所,未经中国科学院西安光学精密机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910131147.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top