[发明专利]一种可交互Transformer的多模态视频密集事件描述算法在审

申请号：	202111543315.7	申请日：	2021-12-16
公开（公告）号：	CN114461851A	公开（公告）日：	2022-05-10
发明（设计）人：	陈国文;杨昊	申请（专利权）人：	苏州零样本智能科技有限公司
主分类号：	G06F16/738	分类号：	G06F16/738;G06F16/783;G06K9/62;G06N3/04;G06N3/08
代理公司：	石家庄优博创信知识产权代理事务所(普通合伙) 13150	代理人：	关勇
地址：	215000 江苏省苏州市昆山开发区***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种可交互Transformer的多模态视频密集事件描述算法，属于视频算法技术领域。该方法包括以下步骤，1、提取视频中的视觉特征、音频特征、语音特征；通过多模态的特征提取，更好地利用视频中的信息；2、通过可交互Transformer内部的可交互注意力模块，将视觉特征分别与音频特征和语音特征融合，进一步编码视频特征。3、模型训练分两阶段完成；首先，基于真实的视频分段训练描述模型，然后冻结训练好的描述模型编码器权重，再训练分段提议模型。本发明充分利用了视频中的特征信息，并对多模态的特征进行了交互融合，展现了良好的密集视频描述效果。
搜索关键词：	一种交互 transformer 多模态视频密集事件描述算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州零样本智能科技有限公司，未经苏州零样本智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202111543315.7/，转载请声明来源钻瓜专利网。

专利分类

免登录下载普通用户下载升级VIP会员，免费下载

专利文献下载