[发明专利]多模态特征提取模型训练方法、装置、电子设备有效

申请号：	202110800982.2	申请日：	2021-07-15
公开（公告）号：	CN113486833B	公开（公告）日：	2022-10-04
发明（设计）人：	杨海涛	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/82;G06V10/25;G06N3/04;G06N3/08
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	王英
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	多模态特征提取模型训练方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种多模态特征提取模型训练方法、装置、电子设备和存储介质。用于解决模型对视频的表达能力不够全面的问题。本申请实施例中，针对每个视频，对视频进行抽帧处理得到视频帧，并获取该视频帧的文本；提取该视频帧的文本特征和视觉特征；并采用同一视频的视频帧构建正样本对，采用不同视频的视频帧构建负样本对；根据正负样本对对模型进行训练，直至训练收敛。

技术领域

本申请涉及多媒体技术领域，特别涉及一种多模态特征提取模型训练方法、装置、电子设备和存储介质。

背景技术

随着信息技术的飞速发展，包含图像、文本、声音等多个信息来源的短视频成为数据资源的主要形式。作为最接近人类日常感知的多媒体，短视频能够高效地传递信息，吸引用户注意力，有着广阔的用户粘性。对用户上传的视频进行有效的向量化描述可以为用户提供更为精准的搜索、推荐结果，有助于提升用户体验。

使用向量较为准确地描述视频的内容对大规模的推荐、搜索等业务场景而言具有十分重要的作用，而融合利用各个模态的数据成为向量表示的关键。相关技术中的视频表示学习方法，大多采用单一的特征来对模型进行训练，导致模型对视频的表达能力不够全面。

发明内容

本申请的目的是提供一种多模态特征提取模型训练方法、装置、电子设备和存储介质，用于解决模型对视频的表达能力不够全面的问题。

第一方面，本申请实施例提供了一种多模态特征提取模型训练方法，包括：

针对视频集合中每个视频，对所述视频进行抽帧处理，得到视频帧集合；

对所述视频帧集合进行采样得到样本帧，并对所述视频的文本信息进行采样得到样本文本；

提取样本帧的视觉特征并提取所述样本文本的文本特征，由所述视觉特征和所述文本特征构建所述视频的样本；

采用同一视频的两个样本构建正样本对，并采用不同视频的样本构建负样本对；