[发明专利]多模态特征提取模型训练方法、装置、电子设备有效
申请号: | 202110800982.2 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113486833B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 杨海涛 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06V10/25;G06N3/04;G06N3/08 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王英 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 特征 提取 模型 训练 方法 装置 电子设备 | ||
1.一种多模态特征提取模型训练方法,其特征在于,所述方法包括:
针对视频集合中每个视频,对所述视频进行抽帧处理,得到视频帧集合;
对所述视频帧集合进行采样得到样本帧,并对所述视频的文本信息进行采样得到样本文本;
提取样本帧的视觉特征并提取所述样本文本的文本特征,由所述视觉特征和所述文本特征构建所述视频的样本;
采用同一视频的两个样本构建正样本对,并采用不同视频的样本构建负样本对;
采用所述正样本对、所述负样本对和预设目标函数训练待训练的所述多模态特征提取模型,得到所述预设目标函数的损失信息,基于所述损失信息更新所述多模态特征提取模型,得到所述多模态特征提取模型;
将同一样本的视觉特征和文本特征进行处理,得到所述视觉特征和所述文本特征的外积;
将所述外积、所述视觉特征和所述文本特征通过至少一个全连接层进行特征提取,得到所述同一样本的多模特征;
将所述多模态特征提取模型输出的多模特征存储到负样本队列中;所述负样本队列为指定长度,且采用先入先出的方式存储所述多模特征;
所述采用不同视频的样本构建负样本对,包括:
获取第一视频的视觉特征和文本特征构建的第一样本;并,
获取位于所述负样本队列中的第二视频的多模特征对应的样本作为第二样本,由所述第一样本和所述第二样本构建所述负样本对;
其中,所述预设目标函数用于使所述正样本对中两样本的特征相似度高于所述负样本对中两样本的特征相似度。
2.根据权利要求1所述的方法,其特征在于,所述对所述视频进行抽帧处理,得到视频帧集合,包括:
获取所述视频的关键帧;
确定所述视频中各帧图像与所述关键帧的相似度;
从所述视频中过滤掉所述相似度高于第一预设阈值的视频帧,并过滤掉所述相似度低于第二预设阈值的视频帧,得到剩余视频帧;
由所述剩余视频帧和所述关键帧得到所述视频帧集合。
3.根据权利要求1所述的方法,其特征在于,所述对所述视频的文本信息进行采样得到样本文本之前,所述方法还包括:
采用以下方法中的任一种或组合获取所述文本信息:
采用文本识别技术OCR从所述第一视频中提取文本信息;
获取用户接口输入的文本信息;
对所述第一视频的音频信号转换成文本信息;
从所述第一视频的标题中获取文本信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述视频的文本信息进行采样得到样本文本,包括:
若所述视频的文本信息的文本来源包括多个,则随机从至少一个文本来源中提取所述视频的文本信息,得到所述样本文本。
5.根据权利要求4所述的方法,其特征在于,所述随机从至少一个文本来源中提取所述视频的文本信息,得到所述样本文本,包括:
生成随机数;所述随机数小于所述视频的文本来源总数量;
从所述视频的多个文本来源中随机选择所述随机数个文本来源;
从选择的各文本来源中获取所述视频的文本信息,得到所述样本文本。
6.根据权利要求1所述的方法,其特征在于,采用所述负样本对和预设目标函数训练所述多模态特征提取模型,包括:
将所述第一样本输入所述多模态特征提取模型得到所述第一样本的多模态特征;
将所述第一样本的所述多模特征和所述第二样本作为所述预设目标函数的输入参数,得到损失信息;
基于所述损失信息,更新所述多模态特征提取模型。
7.根据权利要求1-6中任一所述的方法,其特征在于,预测目标函数为对比学习损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110800982.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能洗针槽
- 下一篇:一种轻质墙板及其安装方法