[发明专利]一种语义导向的半监督视频对象分割方法在审
申请号: | 201710487525.6 | 申请日: | 2017-06-23 |
公开(公告)号: | CN107301400A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T7/10;G06T7/194 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语义 导向 监督 视频 对象 分割 方法 | ||
技术领域
本发明涉及视频对象分割领域,尤其是涉及了一种语义导向的半监督视频对象分割方法。
背景技术
在如今的信息化社会中,视频能给我们提供丰富而全面的信息内容,因此其越来越受到现代交通、网络媒体以及计算机视觉等行业的重视。但是一般原始视频所含有的信息量都很大,其中部分甚至一大部分对于行业研究和实际应用的意义都不大。因此,我们需要对视频进行缩减,提取其中有用的信息。视频对象分割技术就是近几年发展起来的一种提取视频有效信息的重要基础性技术,它已经广泛运用于交通流视频监控、工业自动化监控、安防、网络多媒体交互以及视频压缩编码等实际生产生活中。然而,原有的方法易受到光线的变化或遮挡的影响,且无法实现半监督,因此实际应用效果并不好。
本发明提出了一种语义导向的半监督视频对象分割方法,先用卷积神经网络提取特征,再利用语义实例分割算法作为输入,估计待分割对象的语义,接着通过条件分类器将外观模型与语义先验相结合,最后训练构架,以确定特定图像的前景像素,在测试时间内用权重初始化卷积神经网络并进行微调和迭代。本发明能克服光线的变化或遮挡的影响,有效提取视频中的有用信息,大大减少了查看视频花费的大量时间、人力和物力;分割更加精细,准确度也有所提高。
发明内容
针对易受到光线变化或遮挡影响的问题,本发明的目的在于提供一种语义导向的半监督视频对象分割方法,先用卷积神经网络提取特征,再利用语义实例分割算法作为输入,估计待分割对象的语义,接着通过条件分类器将外观模型与语义先验相结合,最后训练构架,以确定特定图像的前景像素,在测试时间内用权重初始化卷积神经网络并进行微调和迭代。
为解决上述问题,本发明提供一种语义导向的半监督视频对象分割方法,其主要内容包括:
(一)卷积神经网络提取特征;
(二)语义选择和语义传播;
(三)通过条件分类器将外观模型与语义先验相结合;
(四)训练网络。
其中,所述的卷积神经网络提取特征,使用VGG16卷积神经网络作为骨干网;去除完全连接层和最后的池层,增加空间特征分辨率;添加跳过连接,提取超柱状体的特征,聚合来自不同层的多尺度信息;在第二、第三、第四和第五卷积层块相应的合并层之前,从它们之中提取输出特征图;然后调整特征图,使其与输入图像大小相同,并且将它们连接形成超柱状体的特性。
其中,所述的语义选择和语义传播,利用语义实例分割算法作为输入,估计待分割对象的语义;选择多任务网络级联(MNC)作为输入实例分割算法;MNC是一个多阶段网络,由三个主要部分组成:共享卷积层、区域提议网络(RPN)和感兴趣区域(ROI)-智能分类器。
进一步地,所述的语义选择,语义选择发生在视频第一帧中,根据标定的真实数据掩码选择匹配对象的掩码(处于半监督框架中,其中第一帧的真实掩码为输入);选择感兴趣区域,进行分类,将标定的真实数据与实例分段提议重叠。
进一步地,所述的语义传播,语义传播阶段发生在第一帧以后,将第一帧中估计的语义传播到之后的帧;使用第一轮前景估计对实例分割掩码进行过滤,并且选择池顶部匹配对象。
其中,所述的通过条件分类器将外观模型与语义先验相结合,使用完全卷积网络的密集标签,通常表达为每个像素的分类问题;因此,可以理解为在整个图像上滑动的全局分类器,并且根据外观模型将前景或背景标签分配给每个像素;如果将最终分类之前的语义合并,可以作为当前框架中最有可能的实例(或一组实例)的掩码。
进一步地,所述的像素,对于每个像素i,估计给定图像的前景像素的概率:p(i|I);概率可以分解为由先前加权的k个条件概率的和:
其中,K=2。
进一步地,所述的条件分类器,构建两个条件分类器,一个注重前景像素,另一个侧重于背景像素;基于实例分割输出估计先验项p(k|I);具体来说,如果像素位于实例分割掩码内,则像素依赖于前景分类器;并且如果背景分类掩码脱离实例分割掩码,则背景分类器更重要;在实验中,应用高斯滤波器将所选掩模的空间平滑作为语义先验。
进一步地,所述的条件分类器的层,条件分类器可以以端到端可训练的方式集成在网络中;该层采用两个预测图f1和f2,以及使用语义预先作为输入获得的权重图ω;其中每个输入元素与权重映射相乘,然后与另一个映射中的相应元素相加:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710487525.6/2.html,转载请声明来源钻瓜专利网。