[发明专利]图像和语音的跨模态检索分类器模型、检索系统和检索方法在审

专利信息
申请号: 201910131147.7 申请日: 2019-02-21
公开(公告)号: CN109977258A 公开(公告)日: 2019-07-05
发明(设计)人: 袁媛;卢孝强;郭毛 申请(专利权)人: 中国科学院西安光学精密机械研究所
主分类号: G06F16/68 分类号: G06F16/68;G06F16/58;G06K9/62;G06N3/04
代理公司: 西安智邦专利商标代理有限公司 61211 代理人: 王少文
地址: 710119 陕西省西*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 图像 语音 模态 检索系统 检索 检索分类 图像检索 神经网络结构 检索准确率 关联关系 函数模型 检索过程 检索效率 检索需求 人机交互 神经网络 细节信息 语音描述 构建 监督
【权利要求书】:

1.图像和语音的跨模态检索分类器模型,其特征在于,所述跨模态检索分类器模型是按照下述步骤构建的:

1)构建图像-语音数据库,该数据库中的每幅图像对应有一条语音;

2)将步骤1)构建的图像-语音数据库划分为图像-语音训练集和图像-语音测试集;

3)构建图像-语音神经网络,所述图像-语音神经网络包括图像深度神经子网络和语音卷积神经子网络;

4)将图像-语音训练集划分为多个训练块,每个训练块中的图像数量相同,以训练块为单位对所述图像-语音训练集进行训练:

4.1)提取图像的高层语义特征

4.1.1)利用ImageNet数据库中的图像对所述图像深度神经子网络进行预训练;

4.1.2)利用预训练好的图像深度神经子网络对所述图像-语音训练集中的图像进行特征提取,得到图像的高层语义特征;

4.2)获取语音的高层语义特征

4.2.1)用梅尔频率倒谱系数MFCCs将所述图像-语音训练集中的每一条原始音频数据转化到频率域进行表示,得到梅尔频率倒谱系数MFCCs特征,包括零阶、一阶、二阶特征;

4.2.2)将步骤4.2.1)得到的梅尔频率倒谱系数MFCCs特征,输入到所述语音卷积神经子网络中进一步表达,得到语音的高层语义特征;

4.3)特征融合

将步骤4.1.2)得到的图像的高层语义特征和步骤4.2.2)得到的语音的高层语义特征进行融合,生成一个包含两种模态信息的融合特征;

4.4)利用分类器对所述融合特征进行分类

将所述融合特征依次输入到全连接层和分类器中,判别输入的图像和语音描述是否匹配,产生匹配或不匹配的二分类结果;

4.5)使用交叉熵损失函数判断步骤4.4)得到的分类结果是否理想,若分类结果不理想,则返回步骤4.1);若分类结果理想,则训练结束,得到跨模态检索分类器模型;

判断分类结果是否理想的原则是:

当交叉熵损失函数的损失值J大于设定阈值时,表示分类结果不理想;

当交叉熵损失函数的损失值J小于等于设定阈值时,表示分类结果理想。

2.根据权利要求1所述的图像和语音的跨模态检索分类器模型,其特征在于:步骤3)中的图像深度神经子网络采用VGG16;语音卷积神经子网络是一维结构,包括卷积层和池化层;卷积层的卷积核大小不超过10;池化层采用最大池化操作。

3.根据权利要求1所述的图像和语音的跨模态检索分类器模型,其特征在于,步骤4.3)利用下述公式进行特征融合:

h=tanh(WI·VI+WS·VS+bI),

其中:

WI和WS是权重;

bI表示偏置;

VI为图像的高层语义特征,VI=f(I;θI);

I表示图像;

S表示语音;

θI表示图像深度神经子网络的参数;

VS为语音的高层语义特征,VS=g(M;θS);

M表示语音的梅尔频率倒谱系数MFCCs特征;

θS表示语音卷积神经子网络的参数;

h表示融合特征向量。

4.根据权利要求1或2或3所述的图像和语音的跨模态检索分类器模型,其特征在于,步骤4.4)中采用的分类器为softmax分类器,其模型如下:

p=softmax(Whh+bh)

其中:

Wh是权重;

bh表示偏置;

h表示融合特征向量;

p表示属于匹配类或不匹配类的概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所,未经中国科学院西安光学精密机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910131147.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top