[发明专利]视频对象分割模型的训练方法、视频对象分割方法和装置在审

申请号：	202211240662.7	申请日：	2022-10-11
公开（公告）号：	CN115546695A	公开（公告）日：	2022-12-30
发明（设计）人：	王伟农;戴宇荣;陶鑫	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/82;G06N3/04;G06N3/08
代理公司：	北京铭硕知识产权代理有限公司 11286	代理人：	苏银虹;王兆赓
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频对象分割模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开关于一种视频对象分割模型的训练方法、视频对象分割方法和装置，训练方法包括：获取视频样本，其中，视频样本包括携带有目标掩膜的第一图像帧和第二图像帧；将第一图像帧及第一图像帧的目标掩膜输入记忆编码网络进行编码处理，得到第一键值对特征；将第二图像帧输入查询编码网络进行编码处理，得到第二键值对特征，其中，记忆编码网络和查询编码网络均包括用于提取键特征的多分支结构和用于提取值特征的多分支结构；基于第一键值对特征和第二键值对特征，结合解码网络，确定第二图像帧的预估目标掩膜；根据第二图像帧的目标掩膜和预估目标掩膜，调整记忆编码网络、查询编码网络、解码网络的参数，以训练得到目标视频对象分割模型。

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频对象分割模型的训练方法、视频对象分割方法和装置。

背景技术

视频对象分割(Video Object Segmentation，VOS)是视频场景理解和视频编辑的基础能力，该技术在短视频智能编辑、特效制作和短视频创作等领域具有广阔应用前景。VOS技术是指给定某视频序列初始图像帧中的目标物体掩膜mask，在后续图像帧中预测出该目标物体的像素级别的分割掩膜mask结果。随着深度学习技术的发展，深度神经网络被应用于VOS中，利用深度网络提取的高层语义特征能够从复杂场景中更准确地辨别出目标物体和背景，从而极大地提升了目标分割的效果，基于深度学习的VOS技术也因此成为主流的技术之一。

现有的基于深度学习的VOS技术，会先提取图像帧的深度特征，再利用两个并行的3×3卷积分支分别生成键特征和值特征，用于进行后续分割。但这样得到的键特征和值特征的特征表示能力较弱，对多种多样的场景不具备较好的泛化性能，进而影响视频对象分割算法的准确率。

发明内容

本公开提供一种视频对象分割模型的训练方法、视频对象分割方法和装置，以至少解决相关技术中的如何提升视频对象分割算法的准确率的问题。

根据本公开的第一方面，提供了一种视频对象分割模型的训练方法，所述视频对象分割模型包括记忆编码网络、查询编码网络和解码网络，所述训练方法包括：获取视频样本，其中，所述视频样本包括携带有目标掩膜的第一图像帧和第二图像帧；将所述第一图像帧及所述第一图像帧的目标掩膜输入所述记忆编码网络进行编码处理，得到第一键值对特征，其中，所述记忆编码网络包括第一键特征提取网络和第一值特征提取网络，所述第一键特征提取网络和所述第一值特征提取网络均为多分支结构；将所述第二图像帧输入所述查询编码网络进行编码处理，得到第二键值对特征，其中，所述查询编码网络包括第二键特征提取网络和第二值特征提取网络，所述第二键特征提取网络和所述第二值特征提取网络均为多分支结构；基于所述第一键值对特征和所述第二键值对特征，结合所述解码网络，确定所述第二图像帧的预估目标掩膜；根据所述第二图像帧的目标掩膜和所述预估目标掩膜，调整所述记忆编码网络、所述查询编码网络、所述解码网络的参数，以训练得到目标视频对象分割模型。

可选地，所述视频对象分割模型中的所述第一键特征提取网络、所述第一值特征提取网络、所述第二键特征提取网络、所述第二值特征提取网络经过训练后，分别被调整为第一目标网络、第二目标网络、第三目标网络、第四目标网络，其中，在训练得到所述目标视频对象分割模型之后，所述训练方法还包括：将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络，得到转换视频对象分割模型。

可选地，所述第一目标网络的结构为以下之一：包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络；所述第二目标网络的结构为以下之一：包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络；所述第三目标网络的结构为以下之一：包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络；所述第四目标网络的结构为以下之一：包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司，未经北京达佳互联信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211240662.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种多机械手配合托举工件时的对准控制方法及系统
下一篇：一种基于网关的消息通知系统以及消息通知方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]视频对象分割模型的训练方法、视频对象分割方法和装置在审

专利文献下载