[发明专利]一种视觉显著性检测中的自主学习方法在审

申请号：	202111012352.5	申请日：	2021-08-31
公开（公告）号：	CN113837200A	公开（公告）日：	2021-12-24
发明（设计）人：	王涵宇;王致畅;边疆;裴轶敏;章涛;潘晨	申请（专利权）人：	中国计量大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	310018 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视觉显著检测中的自主学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种视觉显著性检测中的自主学习方法，包括以下各个步骤：(1)借助两个有监督的深度SOD模型构造两个并行的视觉感知通道，形成一套双视觉信息流的显著目标检测框架；(2)比较同一时刻两个感知通道输出显著图的二值化掩膜之间的差异，判断显著目标区域的感知饱和程度；(3)若感知饱和度大，双通道输出的显著图可叠加生成一个最终显著图，该显著图的二值化掩膜被视为高可信度的目标区域；由此收集一定数量可信度高的自动标注目标区域，形成算法自主标注的训练样本集，用于步骤(1)中两个有监督的深度SOD模型的进一步自主学习更新。

技术领域

本发明涉及计算机视觉技术领域，具体地讲是一种借助视觉感知饱和机制在显著目标检测中进行自主学习的方法。

背景技术

视觉注意和视觉显著性是心理学、生物神经学、认知科学和计算机视觉的一个基础研究问题。近几十年来，已有一百多种眼动点预测FP(fixation prediction)和显著性检测SOD (salient object detection)方法被提出用于视觉注意力建模。目前性能最好的是基于深度学习框架的深度SOD模型。然而，构建深度学习模型最困难的步骤，是需要人工标注大量像素级别的训练样本图，且整个系统性能依赖于人工标注的数据。然而人工标注既费时又费钱。此外，在精细标记的数据集上训练得到的模型往往容易过度拟合且泛化能力较差。因此，无需人工干预、能够自主训练的深度SOD模型成为一个研究热点。

我们注意到，目前已发表的大多数深层SOD模型都是在单个感知通路中处理信息。比如，基于全卷积神经网络(FCN)的SOD中，不同的特征来自不同的卷积层，特征的融合总是在同一个FCN中进行；单个深度SOD模型很少出现决策层面的感知融合。虽然已有少数多感知通道或多感知分支的检测模型能够融合多感知通道结果，但它们大多数仅针对多尺度特征的提取与融合，很少揭示多通道感知系统的相互作用和相互联系。

心理学和生理学实验表明，人类的直觉和记忆能够同时产生视觉感知，并相互作用。比如，人类双眼系统形成了两个处理视觉信息的通道，除了能够形成立体视觉，应该还有其他功能。我们认为模拟人类双眼感知，建立两个并行的、稍有差别的SOD感知通道，可能会有利于显著目标检测任务。多感知通道的系统能同时产生目标感知，输出感知差异。当多个感知通路的输出非常相似，即差异非常小时，说明多通道同时检测到同样目标，感知趋于饱和；越小的多通道感知差异对应着越高的视觉感知饱和度，可作为一种多通道系统检测到的目标的可信度表示。我们可以利用这种机制，通过构造多通道算法来自动寻找图像中的可信度高的显著目标，利用高可信度目标区域做为自动标注样本，用于迭代更新深度SOD模型。

发明内容

有鉴于此，本发明通过模拟人类双目视觉，提出一种双感知通道的显著目标检测算法框架：通过比较双通道视觉感知的差异，发现可信度高的目标区域；通过高可信度目标区域构建新的训练样本集；经过自我迭代学习，使得目标检测模型持续优化。本发明的目的是通过以下技术方案来实现的：

1)借助两个不同的有监督的深度SOD模型构造两个并行的视觉感知通道，形成一套双视觉信息流的显著目标检测框架；

2)通过比较同一时刻两个感知通道输出显著图的二值化掩膜之间的差异，判断显著目标区域的感知饱和程度；若差异小则饱和度高，差异大则饱和度低。

3)当步骤2)输出的感知饱和度超过一个预设的经验阈值，则认为视觉感知接近饱和，双通道输出的显著图可叠加生成一个最终显著图，该显著图的二值化掩膜被视为高可信度的目标区域；由此收集一定数量可信度高的自动标注目标区域，就形成了算法自主标注的训练样本集，用于步骤1)中两个有监督的深度SOD模型的进一步自学习更新。若步骤2)输出的感知饱和度值小于预设的阈值，表明视觉感知欠饱和，此时检测输出的显著目标区域可信度低，不会被选择进入训练样本集。

4)当步骤1)中的SOD模型被更新后，本发明方法能够获得性能更好的显著目标检测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国计量大学，未经中国计量大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111012352.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种米粉生产用等量裁断装置
下一篇：一种基于关系图的DNN鲁棒模型加固方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种视觉显著性检测中的自主学习方法在审

专利文献下载