[发明专利]基于边框标注的弱监督视频目标分割方法及装置在审
申请号: | 202211322815.2 | 申请日: | 2022-10-27 |
公开(公告)号: | CN115761574A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 胡建芳;林子杭;谭超镭;郑伟诗;王军 | 申请(专利权)人: | 之江实验室;中山大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V20/70;G06V10/82;G06N3/04;G06N3/0895;G06N3/096 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 边框 标注 监督 视频 目标 分割 方法 装置 | ||
1.基于边框标注的弱监督视频目标分割方法,其特征在于,包括下述步骤:
在图像分割数据集上训练基于PReMVOS模型的伪标注生成模型,所述伪标注生成模型的输入为原始视频及对应的边框标注,输出为伪掩模标注;
使用伪标注生成模型对视频数据和边框标注逐帧生成对应的伪掩模标注;
利用生成的伪掩模标注,使用“合作教学”算法训练视频目标分割模型,利用训练好的视频目标分割模型对视频数据进行目标分割,得到目标分割结果;所述“合作教学”算法是将两个结构相同参数不同的网络在训练阶段的每次迭代中,分别为对方筛选出较干净的数据以供对方训练,缓解噪声标注的影响。
2.根据权利要求1所述基于边框标注的弱监督视频目标分割方法,其特征在于,所述在图像分割数据集上训练基于PReMVOS模型的伪标注生成模型,是指使用PReMVOS模型中的优化refinement模块设计伪标注生成模型,并在图像分割数据集Mapillary数据集上训练,具体为:
伪标注生成模型的输入为原始图像及对应的边框标注,将原始图像和边框标注对应的二值图进行串接得到一个四通道的原始输入;在Mapillary数据集上,所述边框标注根据数据集中原有的精细掩模标注推断得到,即对每个掩模标注取刚好能完全包含该掩模的边框作为对应边框标注;所述二值图边框内的像素值为1,其余为0;
对标注的边框进行适当放大,得到一个裁剪区域,根据裁剪区域对原始输入进行裁剪得到裁剪后图像;
将裁剪后的图像输入分割网络输出目标物体对应的分割掩膜。
3.根据权利要求2所述基于边框标注的弱监督视频目标分割方法,其特征在于,所述对标注的边框进行适当放大,采用的具体方法为:
在标注边框的上下左右四个方向上分别延伸n个像素。
4.根据权利要求1所述基于边框标注的弱监督视频目标分割方法,其特征在于,所述伪标注生成模型使用的分割网络结构为Deeplab-v3+结构,使用逐像素交叉熵函数作为损失函数进行模型训练。
5.根据权利要求1所述基于边框标注的弱监督视频目标分割方法,其特征在于,所述使用伪标注生成模型对视频数据和边框标注逐帧生成对应的伪掩模标注,具体为:
使用视频图像转换工具将Youtube-VOS数据集中的视频数据转化为图像帧;
将每一图像帧及其对应的边框标注输入伪标注生成模型,得到每一帧的伪掩模标注;
对于同一帧有多个目标物体的,在生成伪掩膜标注时逐一处理每个物体得到每个物体的伪掩膜标注,若其中某两个伪掩膜标注有重叠,则认为重叠部分属于面积较小的伪掩膜标注。
6.根据权利要求5所述基于边框标注的弱监督视频目标分割方法,其特征在于,使用ffmpeg工具将视频数据转化为图像帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;中山大学,未经之江实验室;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211322815.2/1.html,转载请声明来源钻瓜专利网。