[发明专利]一种基于注意力转移机制的视频显著性物体检测方法有效

专利信息
申请号: 201910347420.X 申请日: 2019-04-28
公开(公告)号: CN110097115B 公开(公告)日: 2022-11-25
发明(设计)人: 程明明;范登平;林铮;吴文海 申请(专利权)人: 南开大学;华为终端有限公司
主分类号: G06V10/46 分类号: G06V10/46;G06V10/774;G06V10/82;G06V20/40
代理公司: 天津耀达律师事务所 12223 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 注意力 转移 机制 视频 显著 物体 检测 方法
【说明书】:

一种基于注意力转移机制的视频显著性物体检测方法。注意力转移机制是人类视觉系统中特有的功能,但是,当前的方法忽视了这一重要的机制。本发明方法设计了一种新的卷积神经网络架构,它有效地利用了静态卷积网络、金字塔扩展卷积网络、长短期记忆网络和注意力转移感知模块的特点,从而充分体现了人类视觉系统中的注意力转移机制,对于真实的应用场景更具实际意义,并且能得到更好的显著性物体检测效果。相对于当前的所有视频显著性物体检测方法,本发明方法达到了国际领先水平,在主流的公开数据集的性能评测上,超越了当前最好的视频显著性物体检测方法。

技术领域

本发明属于图像处理技术领域,特别涉及到一种基于注意力转移机制的视频显著性物体检测方法。

背景技术

视频显著性物体检测(VSOD)旨在从动态的视频中提取引人注目的物体。这项任务来自于研究人类的视觉注意行为,即人类视觉系统快速定位(视觉注意力机制)场景中的重要信息这一强大能力。早期生理学研究定量证实存在这种明确的、对象之间的强相关性的显著性判断和隐含视觉注意力分配行为。由于我们生活在一个动态变化的世界中,因此视频显著性物体检测具有重要意义。并且,它有着广泛的实际应用,例如视频分割,视频提取,视频压缩,自动驾驶,机器交互等。由于存在大量的不同类型的视频数据(例如,不同的运动模式,遮挡,模糊,物体变形等)和复杂的人类视觉注意行为(即选择性注意力动态分配,注意力转移等),因此,视频显著性检测面临极大的挑战,并且引起了高度关注,具有重要的学术价值。

早期的VSOD模型基于一些简单的特征(例如,颜色,运动等),并在很大程度上依赖于图像中的经典的显著性物体检测算法(例如,中心-周边对比,背景优先等)和视觉注意力的认知理论(例如,特征整合理论,指导搜索等)。他们探讨研究了对空间域和时间域显著性特征的整合的方式,如梯度流场,测地距离,随机游走和图谱结构等。传统的VSOD模型受限于有限的特征表达能力。然而,最近基于深度学习的VSOD模型受到了更多的关注,通过在图像上应用深度神经网络,成功实现了静态图像的显著性检测。更具体地来说,王等人在IEEETIP期刊(27(1):38–49,2018)上发表题为“Video salient object detection via fullyconvolutional networks”的论文。该论文中实现了对于VSOD搭建一个完全卷积的神经网络。另一项同时期发表在BMVC上的论文题为“Deeply supervised 3d recurrent fcn forsalient object detection in videos”。该工作使用3D滤波器将空间和时间信息结合在一起来搭建条件随机场框架。随后,时空深度特征,循环神经网络等被提议用于更好地捕获空间和时间的显著性特征。总的来说,基于深度网络的VSOD模型,由于利用了神经网络来提取特征,从而拥有强大的学习能力。由于文献太多,在此就不再一一赘述。但是,这些模型忽略人类视觉注意机制中非常重要的注意力转移机制。例如:视频场景中有一只静止的黑猫和运动的白猫,一开始人的注意力会集中在运动的白猫上。过了几秒钟,当那只静止的黑猫突然和原先运动的白猫打闹起来时,人就会将注意力转移到黑猫和白猫身上。由于当前国际上现有的模型大多集中考虑运动的物体,或者是纯粹静止的物体的显著性检测技术。因此,在这样一个需要更加全面理解人的注意力转移机制的场景中,这些模型的性能将显著下降,检测效果不尽人意。

发明内容

本发明目的是解决已有的视频显著性物体检测方法中未能考虑到显著性物体转移的问题,从而提出一种基于注意力转移机制的视频显著性物体检测方法。

本发明方法称为Saliency-Shift Aware Video salient object detection(SSAV),由两个基本模块构成:金字塔扩张卷积模块(PDC)和显著性物体转移感知模块(SSLSTM)。前者使用强有力的静态图像显著性物体学习方法进行训练,后者扩展了传统的长短时记忆卷积网络(convLSTM),使其具有显著性物体转移感知机制。本发明从PDC模块获取静态特征序列作为输入并产生相应的带有动态表示和注意力转移的VSOD结果。

本发明的技术方案

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学;华为终端有限公司,未经南开大学;华为终端有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910347420.X/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top