[发明专利]一种基于自步式弱监督学习的视频物体分割方法有效
申请号: | 201610551246.7 | 申请日: | 2016-07-13 |
公开(公告)号: | CN106204597B | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 韩军伟;杨乐;张鼎文 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06T7/10 | 分类号: | G06T7/10 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 常威威 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于自步式弱监督学习的视频物体分割方法,将自步学习算法嵌入到深度神经网络中,在弱监督学习思想的指导下,整个系统按照由易到难的顺序对目标概念进行学习,随着训练过程的进行学习得到的网络由浅显变复杂,网络处理问题的能力逐渐增强,最终得到准确的视频物体分割结果。本发明综合利用了自步学习算法和深度神经网络模型的优点,具有更高的分割准确度,并且在处理不同场景的视频数据时表现出更好的鲁棒性。 | ||
搜索关键词: | 一种 基于 步式弱 监督 学习 视频 物体 分割 方法 | ||
【主权项】:
1.一种基于自步式弱监督学习的视频物体分割方法,其特征在于如下步骤:步骤1:构建深度神经网络并进行预训练:将Nian Liu等人在2015年的工作Predicting eye fixations using convolutional neural networks[C],Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:362‑370中提出的深度神经网络最后一层的Loss参数修改为“HingeLoss”,并设置norm参数为“L2”,得到修改过的深度神经网络;再利用MSRA 10K数据集对修改过的深度神经网络进行训练,得到预训练的神经网络;步骤2:构建训练数据集,包括所有帧视频图像、初始权重矩阵集合和每帧视频图像的初始分割采样:所述的初始权重矩阵为大小与视频图像尺寸相同、元素全为1的矩阵,权重矩阵的个数与视频图像帧数相同;所述的每帧视频图像的初始分割采样的计算方法如下:步骤a:利用Yong Jae Lee等人在2011年的工作Key‑segments for video object segmentation[C],International Conference on Computer Vision,IEEE,2011:1995‑2002中提出的Object‑like Regions in Video方法对每帧视频图像提取分割采样,再使用Discovering Key‑Segments Across Frames方法对每帧视频图像选择10个分割采样,得到每帧视频图像的分割采样集合{p1,…,pk,…,p10},1≤k≤10;步骤b:利用公式
计算每个分割采样pk的显著性得分sk;其中,SA为利用步骤1得到的预训练神经网络对视频图像进行测试得到的显著图,测试时设置参数Loss=“SigmoidCrossEntropyLoss”;m为视频图像的行数,n为视频图像的列数,uk表示分割采样pk中前景物体像素点的数目,(i,j)表示像素位置为i行j列;步骤c:利用公式
计算得到每帧视频图像的初始分割采样op;其中,阈值Ts的取值范围为(0,1);步骤3:进行网络训练得到优化后的神经网络:步骤a:以训练数据集和上一次训练得到的神经网络为输入,在Caffe平台上对网络参数进行训练,得到优化后的神经网络;其中,第一次训练时,“上一次训练得到的神经网络”为步骤1中预训练的神经网络;步骤b:利用公式H(i,j)=max{0,1‑F′(i,j)×F(i,j)}计算分割结果中所有像素点的铰链损失值H(i,j),将铰链损失值小于阈值T的像素点的权值记为0,将铰链损失值大于等于阈值T的像素点的权值记为1,得到每个分割结果所对应的权重矩阵;所有分割结果的权重矩阵构成权重矩阵集合;其中,F′为利用本次训练得到的优化后的神经网络对每帧视频图像进行测试得到的分割结果,F为利用上次训练得到的优化后的神经网络对每帧视频图像进行测试得到的分割结果,第一次训练时,F为步骤2得到的初始分割采样;所述的分割结果为利用神经网络对视频图像进行测试,测试时设置参数Loss=“HingeLoss”,并将测试结果中小于0的值置为0,大于0的值置为255而得到;所述的阈值T为:将所有像素点的铰链损失值按照由小到大的顺序排列,T的取值为前P%处像素点的损失值,其中,P的初始值为80,每训练一次,其值增加4,直至100,不再变化;步骤c:利用公式
计算分割结果的显著性得分s′;其中,SA′为利用本次训练得到的神经网络对每帧视频图像进行测试得到的显著图,测试时设置参数Loss=“SigmoidCrossEntropyLoss”;u表示分割结果F′中前景物体像素点的数目;步骤d:选择显著性得分s′高的前N%帧的视频图像及其分割结果和步骤b得到的权重矩阵集合构成新的训练数据集,重复步骤a‑c,直至相邻两次视频语义物体分割结果的平均交并比
大于阈值TIOU,得到最终优化后的神经网络;其中,N的初始值为80,每训练一次,其值增加4,直至100,不再变化;交并比IOU的计算公式为IOU=(F∩F′)/(F∪F′),平均交并比
即为所有交并比的平均值;阈值TIOU的取值范围为(0,1);步骤4:视频分割:步骤a:利用步骤3得到的最终优化后的神经网络和Nian Liu等人在2015年的工作Predicting eye fixations using convolutional neural networks[C],Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:362‑370中提出的测试方法,对所有帧视频图像进行测试,测试时设置参数Loss=“SigmoidCrossEntropyLoss”,得到测试显著图;步骤b:利用Carsten Rother等人在2004年的工作“GrabCut”—Interactive foreground extraction using iterated graph cuts[C],ACM transactions on graphics(TOG),ACM,2004,23(3):309‑314中提出的GrabCut方法对步骤a得到的测试显著图进行修正,得到最终视频物体分割结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610551246.7/,转载请声明来源钻瓜专利网。