[发明专利]一种针对跨模态视频检索模型的训练方法及装置在审
| 申请号: | 202210428132.9 | 申请日: | 2022-04-22 |
| 公开(公告)号: | CN114996511A | 公开(公告)日: | 2022-09-02 |
| 发明(设计)人: | 李冠楠 | 申请(专利权)人: | 北京爱奇艺科技有限公司 |
| 主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06V10/74;G06V10/80;G06V10/82 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 吕俊秀 |
| 地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 跨模态 视频 检索 模型 训练 方法 装置 | ||
1.一种针对跨模态视频检索模型的训练方法,其特征在于,所述跨模态视频检索模型包括隐藏向量空间、标签向量空间,所述方法包括:
获取视频流中用于表达视频序列的特征的多个视频序列特征向量;所述视频序列具有对应的文本序列;
切分所述文本序列,生成分词和由所述分词组成的分词序列;
提取针对所述分词的多个文本序列特征向量,和,针对所述分词序列的文本标签特征向量;
合并所述多个视频序列特征向量,并生成第一目标视觉特征向量;
合并所述多个文本序列特征向量,并生成第一目标文本特征向量;
将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度;
将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度;
基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果。
2.根据权利要求1所述的方法,其特征在于,所述跨模态视频检索模型包括多个不同尺度的循环神经网络,所述合并所述多个视频序列特征向量,并生成第一目标视觉特征向量的步骤包括:
采用所述多个视频序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标视觉特征向量;所述多个第二目标视觉特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标视觉特征向量,并生成第一目标视觉特征向量。
3.根据权利要求2所述的方法,其特征在于,所述合并所述多个文本序列特征向量,并生成第一目标文本特征向量的步骤包括:
采用所述多个文本序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标文本特征向量;所述多个第二目标文本特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标文本特征向量和所述文本标签特征向量,并生成第一目标文本特征向量。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度的步骤包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,生成隐含视觉向量和隐含文本向量;
确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离;
采用所述第一向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度。
5.根据权利要求4所述的方法,其特征在于,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,在所述确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离的步骤之前,还包括:
采用所述隐含视觉向量和所述隐含文本向量生成第一目标损失函数;所述第一目标损失函数包括第一损失函数值;
通过控制所述网络参数,降低所述第一损失函数值。
6.根据权利要求1或4所述的方法,其特征在于,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度的步骤包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,生成标签视觉向量和标签文本向量;
确定所述标签视觉向量和所述标签文本向量之间的第二向量距离;
采用所述第二向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京爱奇艺科技有限公司,未经北京爱奇艺科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210428132.9/1.html,转载请声明来源钻瓜专利网。





