[发明专利]一种可交互Transformer的多模态视频密集事件描述算法在审

申请号：	202111543315.7	申请日：	2021-12-16
公开（公告）号：	CN114461851A	公开（公告）日：	2022-05-10
发明（设计）人：	陈国文;杨昊	申请（专利权）人：	苏州零样本智能科技有限公司
主分类号：	G06F16/738	分类号：	G06F16/738;G06F16/783;G06K9/62;G06N3/04;G06N3/08
代理公司：	石家庄优博创信知识产权代理事务所(普通合伙) 13150	代理人：	关勇
地址：	215000 江苏省苏州市昆山开发区***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种交互 transformer 多模态视频密集事件描述算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种可交互Transformer的多模态视频密集事件描述算法。该算法基于ActivityNetCaptions数据集完成密集视频描述任务，包括以下步骤：

（1）、通过I3D模型、VGGish模型、ASR系统分别提取视频中的视觉特征、音频特征、语音特征；

（2）、将提取到的多模态特征通过可交互Transformer的可交互注意力，使视觉特征分别与音频特征和语音特征融合，进一步编码视频特征；

（3）、将编码后的特征作用于分段提议模型，生成视频分段；

（4）、将编码后的特征在可交互Transformer解码器内通过可交互注意力与生成的词序列特征融合，作用于描述模型，生成视频语义描述；

（5）、模型的训练分两步完成：首先，基于真实的分段提议训练描述模型，冻结训练好的描述模型编码器权重，再训练分段提议模型。

2.根据权利要求1所述的一种可交互Transformer的多模态视频密集事件描述算法，其特征在于：步骤（5）中模型训练过程如下，

训练描述模块过程如下，在编码阶段，提取视觉、音频以及语音特征分别加位置编码后送入可交互Transformer中；在解码阶段，将经过词嵌入的描述序列输入解码器，使用带有Mask掩码自注意力机制提取词序列特征，词序列特征与编码器输出特征通过可交互注意力模块融合；在描述生成模块中，应用全连接层、Softmax等获得概率最大的单词，循环生成视频描述；

训练分段提议模型过程如下，利用上述训练的描述模型中编码器权重，将视觉、音频、语音信息输入到可交互Transformer模型的编码器，完成与描述模块编码器相同的计算；然后，将编码器的输出送入到分段提议生成器中，通过提议生成头获得预测提议分段的开始与结束时间及其置信度分数，最后在公共池中根据置信度分数选择出最合适的视频分段。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州零样本智能科技有限公司，未经苏州零样本智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111543315.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种运用于元宇宙场景的新型搜索引擎系统
下一篇：一种泡沫板切割装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种可交互Transformer的多模态视频密集事件描述算法在审

专利文献下载