[发明专利]一种统一卷积与自注意力的轻量视频分类方法在审
申请号: | 202210010323.3 | 申请日: | 2022-01-05 |
公开(公告)号: | CN114973049A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 黎昆昌;王亚立;乔宇;高鹏 | 申请(专利权)人: | 上海人工智能创新中心 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06V10/74;G06N3/04;G06N3/08 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏;朱伟军 |
地址: | 200000 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统一 卷积 注意力 视频 分类 方法 | ||
本发明公开了一种统一卷积与自注意力的轻量视频分类方法。该方法包括:获取待识别的目标视频图像;将目标视频图像视为一系列令牌利用预训练的变换器模型框架提取特征,该变换器模型框架设置为多层,每层包含多个统一变换器模块,各层的输出经由特征聚合降低分辨率,其中每个统一变换器模块包含动态位置编码器、多头关系聚合器和前馈神经网络,动态位置编码器将目标视频图像的三维位置信息动态集成到所有的令牌中,多头关系聚合器用于将每个令牌与其上下文令牌进行聚合,前馈网络用于对每个令牌进行单独信息增强;基于所提取的特征对目标视频图像进行分类。本发明提供的模型计算量更小,并取得了更高的分类准确性。
技术领域
本发明涉及视频分类技术领域,更具体地,涉及一种统一卷积与自注意力的轻量视频分类方法。
背景技术
由于视频帧间存在大量的局部冗余性以及复杂的全局依赖性,现有模型难以从高维的视频信息中学习丰富多层次的时空语义表达。目前视频理解领域包括两大主流模型,分别是三维卷积神经网络和时空视觉变换器。尽管卷积神经网络可以高效地学习局部领域的时空上下文信息,但有限的感受野使其难以捕获长时序依赖信息。视觉变换器可以有效地利用自注意力机制学习全局上下文,但它盲目地在所有层中对所有特征令牌进行相似度比较,带来了巨大的计算量冗余。
早期的工作中已有研究者证明,多头自注意力机制可以等效成卷积算子,但他们建议使用自注意力替换卷积,而非将两者进行结合。最近在图像领域,不少工作正尝试将卷积引入视觉变换器中。但这些工作主要关注图像领域的识别、检测或者分割等,而没有考虑视频理解领域的时空操作。在视频领域中,对卷积和自注意力的结合仍缺乏探索。已有研究或者简单地引入卷积对输入视频进行特征压缩;或者简单地在网络深层堆砌全局自注意力变换器,缺乏整体的统一设计,从而引入了大量计算,难以优化。
视频理解领域存在两个截然不同的挑战,一方面,因为目标在相邻帧之间的运动非常微小,视频包含大量的时空冗余。另一方面,由于大间隔帧间的目标关系是动态的,视频包含复杂的时空依赖性。而目前常用的三维卷积神经网络和时空视觉变换器这两个框架都仅专注于上述提到的挑战之一。例如,三维卷积在小的三维邻域的上下文处理每个像素,从而可以捕获详细的局部时空特征,减少了相邻帧之间的时空冗余。然而,由于感受野受限,三维卷积在学习远程依赖方面存在困难。相反,视觉变换器利用视觉令牌的自注意力学习全局依赖。然而,经分析,视觉变换器在网络的浅层会低效地编码局部时空特征。具体来说,空间注意力主要集中在相邻的令牌上(如3×3局部区域),而对同一帧内的其他令牌则没有任何学习。类似地,时间注意力通常只聚集于相邻帧中的令牌上,而忽略远处帧中的其他令牌。更重要的是,这种局部表示是从全局令牌对令牌相似度比较中学习而来的,这浪费了非常大的计算量。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种统一卷积与自注意力的轻量视频分类方法,该方法包括:
获取待识别的目标视频图像;
将目标视频图像视为一系列令牌利用预训练的变换器模型框架提取视频特征,该变换器模型框架设置为多层,每层包含多个统一变换器模块,各层的输出经由特征聚合降低分辨率,其中每个统一变换器模块包含动态位置编码器、多头关系聚合器和前馈神经网络,所述动态位置编码器将目标视频图像的三维位置信息动态集成到所有的令牌中,以利用令牌的时空顺序进行视频建模;所述多头关系聚合器用于将每个令牌与其上下文令牌进行聚合;所述前馈网络用于对每个令牌进行单独信息增强;
基于所提取的视频特征对目标视频图像进行分类。
与现有技术相比,本发明的优点在于,所提出的统一变换器能够将三维卷积和时空自注意力的优点集成在一个简洁的变换器形式中,实现了计算量和视频理解准确度之间的更佳权衡。与传统视觉变换器不同的是,本发明所提出的统一变换器中包含了新兴的关系聚合器,以通过在浅层和深层分别学习局部和全局令牌相似度来处理时空冗余和依赖关系,实现了高效轻量的视频时空表征学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海人工智能创新中心,未经上海人工智能创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210010323.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于图文特征的图像检索装置
- 下一篇:固件升级/降级方法及其存储设备