[发明专利]图像和语音的跨模态检索分类器模型、检索系统和检索方法在审
| 申请号: | 201910131147.7 | 申请日: | 2019-02-21 |
| 公开(公告)号: | CN109977258A | 公开(公告)日: | 2019-07-05 |
| 发明(设计)人: | 袁媛;卢孝强;郭毛 | 申请(专利权)人: | 中国科学院西安光学精密机械研究所 |
| 主分类号: | G06F16/68 | 分类号: | G06F16/68;G06F16/58;G06K9/62;G06N3/04 |
| 代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 王少文 |
| 地址: | 710119 陕西省西*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图像 语音 模态 检索系统 检索 检索分类 图像检索 神经网络结构 检索准确率 关联关系 函数模型 检索过程 检索效率 检索需求 人机交互 神经网络 细节信息 语音描述 构建 监督 | ||
1.图像和语音的跨模态检索分类器模型,其特征在于,所述跨模态检索分类器模型是按照下述步骤构建的:
1)构建图像-语音数据库,该数据库中的每幅图像对应有一条语音;
2)将步骤1)构建的图像-语音数据库划分为图像-语音训练集和图像-语音测试集;
3)构建图像-语音神经网络,所述图像-语音神经网络包括图像深度神经子网络和语音卷积神经子网络;
4)将图像-语音训练集划分为多个训练块,每个训练块中的图像数量相同,以训练块为单位对所述图像-语音训练集进行训练:
4.1)提取图像的高层语义特征
4.1.1)利用ImageNet数据库中的图像对所述图像深度神经子网络进行预训练;
4.1.2)利用预训练好的图像深度神经子网络对所述图像-语音训练集中的图像进行特征提取,得到图像的高层语义特征;
4.2)获取语音的高层语义特征
4.2.1)用梅尔频率倒谱系数MFCCs将所述图像-语音训练集中的每一条原始音频数据转化到频率域进行表示,得到梅尔频率倒谱系数MFCCs特征,包括零阶、一阶、二阶特征;
4.2.2)将步骤4.2.1)得到的梅尔频率倒谱系数MFCCs特征,输入到所述语音卷积神经子网络中进一步表达,得到语音的高层语义特征;
4.3)特征融合
将步骤4.1.2)得到的图像的高层语义特征和步骤4.2.2)得到的语音的高层语义特征进行融合,生成一个包含两种模态信息的融合特征;
4.4)利用分类器对所述融合特征进行分类
将所述融合特征依次输入到全连接层和分类器中,判别输入的图像和语音描述是否匹配,产生匹配或不匹配的二分类结果;
4.5)使用交叉熵损失函数判断步骤4.4)得到的分类结果是否理想,若分类结果不理想,则返回步骤4.1);若分类结果理想,则训练结束,得到跨模态检索分类器模型;
判断分类结果是否理想的原则是:
当交叉熵损失函数的损失值J大于设定阈值时,表示分类结果不理想;
当交叉熵损失函数的损失值J小于等于设定阈值时,表示分类结果理想。
2.根据权利要求1所述的图像和语音的跨模态检索分类器模型,其特征在于:步骤3)中的图像深度神经子网络采用VGG16;语音卷积神经子网络是一维结构,包括卷积层和池化层;卷积层的卷积核大小不超过10;池化层采用最大池化操作。
3.根据权利要求1所述的图像和语音的跨模态检索分类器模型,其特征在于,步骤4.3)利用下述公式进行特征融合:
h=tanh(WI·VI+WS·VS+bI),
其中:
WI和WS是权重;
bI表示偏置;
VI为图像的高层语义特征,VI=f(I;θI);
I表示图像;
S表示语音;
θI表示图像深度神经子网络的参数;
VS为语音的高层语义特征,VS=g(M;θS);
M表示语音的梅尔频率倒谱系数MFCCs特征;
θS表示语音卷积神经子网络的参数;
h表示融合特征向量。
4.根据权利要求1或2或3所述的图像和语音的跨模态检索分类器模型,其特征在于,步骤4.4)中采用的分类器为softmax分类器,其模型如下:
p=softmax(Whh+bh)
其中:
Wh是权重;
bh表示偏置;
h表示融合特征向量;
p表示属于匹配类或不匹配类的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所,未经中国科学院西安光学精密机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910131147.7/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





