[发明专利]基于多模态的视频检索方法、装置、电子设备及存储介质在审
申请号: | 202310672336.1 | 申请日: | 2023-06-07 |
公开(公告)号: | CN116628263A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 唐小初;苏童;舒畅;陈又新 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/75;G06F16/71;G06F18/25 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 视频 检索 方法 装置 电子设备 存储 介质 | ||
1.一种基于多模态的视频检索方法,其特征在于,所述方法包括:
获取待检索视频,查询所述待检索视频的多模态属性,选取所述多模态属性对应的多模态网络,利用所述多模态网络提取所述待检索视频中的多模态特征;
提取所述多模态特征的特征序列,构建所述特征序列的固定簇群,对所述固定簇群进行均值池化,得到池化簇群,根据所述池化簇群,对所述特征序列进行定长对齐,得到对齐序列;
提取所述多模态特征的特征维度,利用预先构建的多层感知机对所述特征维度的维度长度进行对齐,得到对齐维度;
根据所述对齐序列与所述对齐维度,确定所述多模态特征中的对齐多模态特征,对所述对齐多模态特征中的多个特征进行特征拼接,得到拼接多模态特征,利用全连接视觉网络对所述拼接多模态特征进行特征融合,得到融合多模态特征;
获取检索文本,对所述检索文本进行特征向量编码,得到编码文本向量,计算所述融合多模态特征与所述编码文本向量之间的余弦相似度,根据所述余弦相似度,确定所述检索文本的视频检索结果。
2.如权利要求1所述的基于多模态的视频检索方法,其特征在于,所述查询所述待检索视频的多模态属性,包括:
对所述待检索视频进行播放处理,得到播放视频;
对所述播放视频的视频要素进行完整性检验;
在所述播放视频的视频要素完整性检验成功时,确定所述待检索视频的多模态属性;
在所述播放视频的视频要素完整性检验失败时,提取所述视频完整性检验失败的视频失败部分;
根据所述视频失败部分,确定所述待检索视频的多模态属性。
3.如权利要求1所述的基于多模态的视频检索方法,其特征在于,所述选取所述多模态属性对应的多模态网络,包括:
识别所述多模态属性的特征目的;
获取神经网络结构,查询所述神经网络结构的网络目的;
将所述网络目的与所述特征目的进行匹配;
在所述网络目的与所述特征目的匹配成功时,确定所述多模态属性对应的多模态网络。
4.如权利要求1所述的基于多模态的视频检索方法,其特征在于,所述利用预先构建的多层感知机对所述特征维度的维度长度进行对齐,得到对齐维度,包括:
配置所述特征维度的目标长度;
根据所述目标长度与所述特征维度,选取所述预先构建的多层感知机中的多层神经元;
利用所述多层神经元执行所述特征维度的维度长度对齐操作,得到所述对齐维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310672336.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提高成活率的杨树种植方法
- 下一篇:一种GaAs晶锭的切割方法