[发明专利]时序边界检测方法及时序感知器在审

申请号：	202111615241.3	申请日：	2021-12-27
公开（公告）号：	CN114494314A	公开（公告）日：	2022-05-13
发明（设计）人：	王利民;谈婧;王雨虹;武港山	申请（专利权）人：	南京大学
主分类号：	G06T7/13	分类号：	G06T7/13;G06F16/75;G06N3/02;G06N3/08
代理公司：	南京天翼专利代理有限责任公司 32112	代理人：	奚铭
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	时序边界检测方法感知
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

时序边界检测方法及时序感知器，基于变换解码器结构和注意力机制，建立通用的无类别时序动作检测模型，检测模型的编码器中引入少量隐特征查询量，通过交叉注意力机制将输入特征压缩到固定维度，并使用变换解码器对特征进行解码，实现通用无类别时序边界的稀疏检测。本发明通过特征压缩，有效解决了长视频的时序冗余问题，并将二次模型的复杂度降低到线性级别；构建边界查询量和上下文查询量这两种隐特征查询量，以相应处理视频中语义不连贯的边界区域和连贯的上下文区域，充分利用视频的语义结构；提出基于交叉注意力计算的对齐损失函数，使网络快速稳定收敛；使用变换解码器稀疏编码边界位置，避免复杂后处理，提高模型泛化性能。

技术领域

本发明属于计算机软件技术领域，涉及视频时序边界检测，为一种时序边界检测方法及时序感知器。

背景技术

由于互联网上的视频数据爆炸式地增长，视频内容理解成为计算机视觉领域的重要问题。在过往的文献中，对长视频理解的探索仍然不足。无类别时序边界检测是一种有效的弥合长视频和短视频理解之间差距的技术，其目的在于将长视频分割为一系列视频片段。无类别时序边界是由于语义不连续而自然产生的时序边界，它不由任何预先定义的语义类别所约束，现有数据集中包括子动作级、事件级和场景级等等不同粒度的无类别时序边界。对于不同粒度的无类别时序边界的检测，需要不同层次的信息来获取不同尺度下的时序结构和上下文关系。

目前，由于时序边界语义和粒度的差异，无类别时序边界检测的研究分为多个不同的任务。时序动作分割任务的目标是检测将一个动作实例分割为多个不同的子动作片段的子动作级无类别时序边界。通用时间边界检测旨在定位事件级别的无类别时序边界，即动作/主题/环境变化的时刻。电影场景分割检测场景级别的无类别时序边界，即电影场景之间的过渡，标志着高层次情节的转折。这些任务的目标视频具有相同的语义结构，其边界检测范式表现出相似的特征。以往在这些任务上的工作主要侧重于针对特定边界精心设计的特征编码，并将边界检测问题归结为一个密集预测问题。在预测过程中，这些工作采用复杂的后处理技术来消除结果中大量存在的重复预测同一个真值的假正例。这样复杂的设计和后处理模块与特定的边界类型高度相关，因此不能很好的推广到不同类型的无类别边界检测中，缺乏泛化性。

发明内容

本发明要解决的问题是：现有的无边界时序边界检测的范式具有相似的性质，但由于边界语义和粒度的差别，被分散在不同的任务中研究。现有的相关工作主要侧重于针对特定边界精心设计的特征编码，并由于密集预测范式采用了复杂的后处理技术来消除假正例，不能很好的推广到不同类型的无类别边界检测中。

本发明的技术方案为：时序边界检测方法，构建一个无类别时序边界检测网络对视频进行时序边界检测，检测网络包括骨干网络和检测模型，实现方式如下：

1)由骨干网络生成检测样例：对视频间隔采样得到视频图像序列以每一帧生成一个视频段，第i段视频段为由第i帧图像f_i的前后连续k帧组成的图像序列，由骨干网络对输入的视频段生成视频特征和连续性打分F_i和S_i分别为视频段i的RGB特征和连续性打分；

2)由检测模型基于视频特征F和连续性打分S进行无类别时序动作检测，所述检测模型包括如下配置：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111615241.3/2.html，转载请声明来源钻瓜专利网。