[发明专利]一种融合多模态的视频摘要提取模型的训练方法及应用在审

申请号：	202310831867.0	申请日：	2023-07-06
公开（公告）号：	CN116778392A	公开（公告）日：	2023-09-19
发明（设计）人：	李圣权;雷卓;王理程;张香伟	申请（专利权）人：	城云科技（中国）有限公司
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/80;G06V10/82;G06V10/762;G06N3/0464;G06N3/08
代理公司：	杭州汇和信专利代理有限公司 33475	代理人：	董超
地址：	310052 浙江省杭州市滨江区长***	国省代码：	浙江;33
权利要求书：	暂无信息	说明书：	暂无信息
摘要：	本发明提供一种融合多模态的视频摘要提取模型的训练方法及应用，获取多组同一视频的多帧视频图像帧以及对应该视频的文本描述作为训练样本集；训练样本集输入到视频摘要提取模型中进行训练，视频摘要提取模型中的多模态融合模块融合每一视频的多帧视频图像帧的图像特征和文本特征得到当前视频中每帧视频图像帧的融合嵌入特征；视频结构分析模块通过比对视频图像帧的融合嵌入特征的相似度后利用基于捆绑中心的聚类方法获取视频段，视频段输入到Transformer模块中得到每帧视频图像帧的帧分数，且Transformer模块的损失函数为代表性损失、重建损失以及分集损失的加权，根据帧分数和视频段选择合适的视频摘要，该模型可生成通用的或者基于文本查询的视频摘要的视频摘要。
搜索关键词：	一种融合多模态视频摘要提取模型训练方法应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于城云科技（中国）有限公司，未经城云科技（中国）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202310831867.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合多模态的视频摘要提取模型的训练方法及应用在审

专利文献下载