[发明专利]多模态特征提取模型训练方法、装置、电子设备有效
申请号: | 202110800982.2 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113486833B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 杨海涛 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06V10/25;G06N3/04;G06N3/08 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王英 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 特征 提取 模型 训练 方法 装置 电子设备 | ||
本申请公开了一种多模态特征提取模型训练方法、装置、电子设备和存储介质。用于解决模型对视频的表达能力不够全面的问题。本申请实施例中,针对每个视频,对视频进行抽帧处理得到视频帧,并获取该视频帧的文本;提取该视频帧的文本特征和视觉特征;并采用同一视频的视频帧构建正样本对,采用不同视频的视频帧构建负样本对;根据正负样本对对模型进行训练,直至训练收敛。
技术领域
本申请涉及多媒体技术领域,特别涉及一种多模态特征提取模型训练方法、装置、电子设备和存储介质。
背景技术
随着信息技术的飞速发展,包含图像、文本、声音等多个信息来源的短视频成为数据资源的主要形式。作为最接近人类日常感知的多媒体,短视频能够高效地传递信息,吸引用户注意力,有着广阔的用户粘性。对用户上传的视频进行有效的向量化描述可以为用户提供更为精准的搜索、推荐结果,有助于提升用户体验。
使用向量较为准确地描述视频的内容对大规模的推荐、搜索等业务场景而言具有十分重要的作用,而融合利用各个模态的数据成为向量表示的关键。相关技术中的视频表示学习方法,大多采用单一的特征来对模型进行训练,导致模型对视频的表达能力不够全面。
发明内容
本申请的目的是提供一种多模态特征提取模型训练方法、装置、电子设备和存储介质,用于解决模型对视频的表达能力不够全面的问题。
第一方面,本申请实施例提供了一种多模态特征提取模型训练方法,包括:
针对视频集合中每个视频,对所述视频进行抽帧处理,得到视频帧集合;
对所述视频帧集合进行采样得到样本帧,并对所述视频的文本信息进行采样得到样本文本;
提取样本帧的视觉特征并提取所述样本文本的文本特征,由所述视觉特征和所述文本特征构建所述视频的样本;
采用同一视频的两个样本构建正样本对,并采用不同视频的样本构建负样本对;
采用所述正样本对、所述负样本对和预设目标函数训练待训练的所述多模态特征提取模型,得到所述预设目标函数的损失信息,基于所述损失信息更新所述多模态特征提取模型,得到所述多模态特征提取模型;
其中,所述预设目标函数用于使所述正样本对中两样本的特征相似度高于所述负样本对中两样本的特征相似度。
在一个实施例中,所述对所述视频进行抽帧处理,得到视频帧集合,包括:
获取所述视频的关键帧;
确定所述视频中各帧图像与所述关键帧的相似度;
从所述视频中过滤掉所述相似度高于第一预设阈值的视频帧,并过滤掉所述相似度低于第二预设阈值的视频帧,得到剩余视频帧;
由所述剩余视频帧和所述关键帧得到所述视频帧集合。
在一个实施例中,所述对所述视频的文本信息进行采样得到样本文本之前,所述方法还包括:
采用以下方法中的任一种或组合获取所述文本信息:
采用文本识别技术OCR从所述第一视频中提取文本信息;
获取用户接口输入的文本信息;
对所述第一视频的音频信号转换成文本信息;
从所述第一视频的标题中获取文本信息。
在一个实施例中,所述对所述视频的文本信息进行采样得到样本文本,包括:
若所述视频的文本信息的文本来源包括多个,则随机从至少一个文本来源中提取所述视频的文本信息,得到所述样本文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110800982.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能洗针槽
- 下一篇:一种轻质墙板及其安装方法