[发明专利]视频对象分割模型的训练方法、视频对象分割方法和装置在审
申请号: | 202211240662.7 | 申请日: | 2022-10-11 |
公开(公告)号: | CN115546695A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 王伟农;戴宇荣;陶鑫 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 苏银虹;王兆赓 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 对象 分割 模型 训练 方法 装置 | ||
1.一种视频对象分割模型的训练方法,其特征在于,所述视频对象分割模型包括记忆编码网络、查询编码网络和解码网络,所述训练方法包括:
获取视频样本,其中,所述视频样本包括携带有目标掩膜的第一图像帧和第二图像帧;
将所述第一图像帧及所述第一图像帧的目标掩膜输入所述记忆编码网络进行编码处理,得到第一键值对特征,其中,所述记忆编码网络包括第一键特征提取网络和第一值特征提取网络,所述第一键特征提取网络和所述第一值特征提取网络均为多分支结构;
将所述第二图像帧输入所述查询编码网络进行编码处理,得到第二键值对特征,其中,所述查询编码网络包括第二键特征提取网络和第二值特征提取网络,所述第二键特征提取网络和所述第二值特征提取网络均为多分支结构;
基于所述第一键值对特征和所述第二键值对特征,结合所述解码网络,确定所述第二图像帧的预估目标掩膜;
根据所述第二图像帧的目标掩膜和所述预估目标掩膜,调整所述记忆编码网络、所述查询编码网络、所述解码网络的参数,以训练得到目标视频对象分割模型。
2.如权利要求1所述的训练方法,其特征在于,所述视频对象分割模型中的所述第一键特征提取网络、所述第一值特征提取网络、所述第二键特征提取网络、所述第二值特征提取网络经过训练后,分别被调整为第一目标网络、第二目标网络、第三目标网络、第四目标网络,其中,在训练得到所述目标视频对象分割模型之后,所述训练方法还包括:
将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,得到转换视频对象分割模型。
3.如权利要求2所述的训练方法,其特征在于,
所述第一目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;
所述第二目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;
所述第三目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络;
所述第四目标网络的结构为以下之一:包括至少两个单分支的并行网络、包括至少两个单分支的串行网络、包括至少三个单分支的混合网络。
4.如权利要求2所述的训练方法,其特征在于,所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络均包括至少两个卷积核尺寸不同的卷积分支和至少一个恒等映射分支。
5.如权利要求4所述的训练方法,其特征在于,所述将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络分别转换为单分支结构的第一转换网络、第二转换网络、第三转换网络、第四转换网络,包括:
将所述目标视频对象分割模型中的所述第一目标网络、所述第二目标网络、所述第三目标网络、所述第四目标网络中的任一网络,确定为当前目标网络;
将所述当前目标网络中的所述至少一个恒等映射分支均转换为以单位矩阵为卷积核的单位卷积分支;
通过用0填充卷积核的矩阵、以令卷积核尺寸增大至预设尺寸的方式,对所述当前目标网络中的各个卷积分支进行转换处理,得到所述当前目标网络中的各个卷积分支对应的转换卷积分支;
根据卷积的线性运算特性和所述当前目标网络的结构,对所述当前目标网络中的各个所述转换卷积分支的卷积核参数进行运算处理,得到单分支结构的网络,作为所述当前目标网络对应的转换网络。
6.如权利要求1所述的训练方法,其特征在于,所述基于所述第一键值对特征和所述第二键值对特征,结合所述解码网络,确定所述第二图像帧的预估目标掩膜,包括:
基于所述第一键值对特征和所述第二键值对特征,确定所述第二图像帧的目标掩膜的掩膜特征;
将所述掩膜特征输入所述解码网络进行解码处理,得到所述第二图像帧的预估目标掩膜。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211240662.7/1.html,转载请声明来源钻瓜专利网。