[发明专利]一种基于隐式引导与显式教导策略的视频显著性目标检测方法有效

申请号：	202110516620.0	申请日：	2021-05-12
公开（公告）号：	CN113343772B	公开（公告）日：	2022-06-14
发明（设计）人：	朱荣;季葛鹏;焦瑛霞;宋庶权;魏冕;牛舒羽	申请（专利权）人：	武汉大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/25;G06V10/82;G06N3/04
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	王琪
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于引导教导策略视频显著目标检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出了一种基于隐式引导与显式教导策略的视频显著性目标检测方法。本发明引入了运动信息调制器，包含了通道和空间两种顺序的注意力机制，并以一种深度协作的方式运作，可以有效增强运动信息主导的特征；通过隐式引导策略将运动信息主导(即教师)的特征传递到表观信息主导(即学生)的分支，可以有效提升检测效果；通过使用一个教师部分解码器(teacher partial decoder,T‑PD)来聚合网络的高三层中运动信息主导的特征，并生成运动信息主导的掩膜。该掩膜通过另一个完全一致的学生部分解码器(student partial decoder,S‑PD)，显式地教导网络的高三层中表观信息主导的特征的聚合。该显式教导过程可以进一步提升检测效果。

技术领域

本发明涉及视频显著性目标检测方法，特别涉及一种基于隐式引导与显式教导策略的视频显著性目标检测方法。

背景技术

视频显著性目标检测(video salient object detection，VSOD)一直是计算机视觉领域的一个长期研究课题，其目标是在给定的视频片段中分割出引人注目的、有吸引力的显著性目标。这项技术已被应用于自动驾驶汽车、动作分割和视频字幕等领域。近年来，在无约束场景的视频处理技术方向上取得了巨大的进展，但仍有很大的改进空间且尚未得到充分的探索。

运动特征(例如：运动光流和运动轨迹)和表观特征(例如：颜色和超像素分割块)都是理解无约束场景下动态显著性目标的关键线索。在使用时空卷积神经网络来学习具有判别性等表观和运动特征方面，已有一些工作，其中经常使用循环记忆神经网络和三维卷积神经网络。然而，他们受到如下问题的阻碍：对于前者，它不能同时处理空间和时间线索。此外，由于其具有可传输的时间记忆特性，只能对输入视频帧进行顺序处理，这种算法的训练与推理效率受到很大的限制。而对于后者，当时域卷积层数量较大时，其数值解空间的维度呈指数增长，导致三维卷积神经网络难以优化。此外，这类神经网络的计算成本高导致计算设备负载过大，一般比二维卷积神经网络的内存占用高出约1.5倍。

发明内容

为了克服现有技术的上述缺点与不足，本发明的目的在于提出一种简单而高效的引导与教导策略网络(Guidance and Teaching Network，GTNet)，有效地结合视频显著性目标检测的运动和表观模式，取得了更精确的检测效果。

本发明的目的在于提供一种基于隐式引导与显式教导策略的视频显著性目标检测方法，通过以下技术方案实现，包括以下步骤：

步骤1，给定光流生成器产生的一系列输入帧对应的光流图

步骤2，将和输入到构建的双流分支架构中，在第t帧中，由两个单独的深度残差网络分别生成层级为5的特征金字塔，即表观信息主导的特征和运动信息主导的特征其中表观信息主导的特征作为学生分支的输出，运动信息主导的特征作为教师分支的输出；

步骤3，使用运动信息调制器从空间维度和通道维度两个视角来增强运动信息主导的特征，并通过隐式引导策略将其转移到以表观信息主导的分支；

步骤4，通过一个教师部分解码器聚合网络的高K层中运动信息主导的特征并且在第t帧生成一个运动信息引导的掩膜其中K＜5；

步骤5，进一步的，掩膜通过另一个与教师部分解码器聚合网络完全一致的学生部分解码器，用于显式地教导网络的高K层中表观信息主导的特征的聚合；

步骤6，最后，通过学生部分解码器生成对于第t帧的最终预测图

进一步的，步骤3中通过运动信息调制器隐式地将运动信息主导的特征从教师分支传递到学生分支，即表观信息主导的特征，具体包括以下步骤；

步骤3.1，隐式引导的策略在每个特征金字塔层级k上协同工作，其中k∈{1，2，3，4，5}；

步骤3.2，对于第k级别，基于通道注意力的函数可以定义为：