[发明专利]一种基于非监督学习的运动估计方法有效
申请号: | 201611011646.5 | 申请日: | 2016-11-17 |
公开(公告)号: | CN106709933B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 成卫青;高博岩;黄卫东 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06T7/207 | 分类号: | G06T7/207 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李湘群 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 运动 估计 方法 | ||
本发明公开了一种基于非监督学习的运动估计的方法,该方法解决了基于监督学习的深度卷积神经网络在进行运动估计训练时对数据的高要求问题,尤其是需要对大量训练数据进行真值标注的问题。该方法使用非监督学习的方法对卷积神经网络进行训练,采用该方法进行训练降低了对于训练数据中真值的要求,建立了一种非一般性结构的深度卷积神经网络。此外,采用一种从粗糙到精细的计算模型使完成训练的网络模型能针对运动幅度较大的运动区域进行计算。
技术领域
本发明涉及一种基于非监督学习的运动估计方法,属于计算机视觉技术领域。
背景技术
当AlexNet神经网络模型在ImageNet竞赛中取得前所未有的成绩之后,深度卷积神经网络受到广泛的关注,尤其在计算机视觉领域,卷积神经网络的应用,使计算机视觉领域的很多问题得到了解决,也使得计算机视觉的研究领域得到了扩展。但这一切进步与发展,都得益于卷积神经网络的深层次结构,以及大量参数和良好的训练数据。
目前对于运动估计大部分算法很少采用深度神经网络这一项新技术,由于深度神经网络适合点对点的学习,或者找到输入数据和目标数据间的关系。而在涉及到寻找不同输入数据间的不同和相关关系时,深度神经网络的表现便变得差强人意。FlowNet运用监督学习的方法训练了深度卷积神经网络,但是FlowNet中的神经网络包含了多个卷积层,这使得训练神经网络需要大量的包含真值的数据。现阶段并不存在能提供有大量真值的标准训练数据库来训练深度卷积神经网络。为了达到训练目的,FlowNet使用了一个能提供真值的开源动画数据库Sintel,和自己设计的数据库Flyingchair以及对这些数据库中的数据做了相应的数据增长技术(包括加入高斯噪声,适度旋转)来达到训练数据数量要求。而其中的数据增长技术的使用主要是为了应对过拟合问题。
深度神经网络中,训练数据及训练方法是关键。使用适当的训练方法可以降低对训练数据的要求,选择合适的训练方法还可以提高神经网络的准确度。在本发明中本发明使用非监督学习,课程学习的方法,以及特殊的网络结构来实现基于深度神经网络的运动估计。
发明内容
本发明目的在于解决上述现有技术的不足,提出了一种基于非监督学习的运动估计的方法,该方法是以非监督学习用于训练卷积神经网络,从而在数据缺少真值的情况下,使卷积神经网络能够找到相邻两帧图像之间的运动区域。
本发明解决其技术问题所采取的技术方案是:一种基于非监督学习的运动估计的方法,该方法包括如下步骤:
步骤1:从UCF101视频数据库中选取数据,并对图像进行标准化;
步骤2:搭建一种非普遍形式的卷积神经网络;
步骤3:以非监督学习的方法训练卷积神经网络;
步骤4:以从粗糙到细化的方法逐步完成运动区域的计算。
进一步,在本发明步骤1中,具体包括如下步骤:
步骤1-1:随机从UCF101视频数据库中选取相邻两帧的图像共50000对,作为训练数据集的第一部分;
步骤1-2:随机从UCF101视频数据库中选50000对图像,每对图像中间隔一帧,作为训练数据集的第二部分;
步骤1-3:随机从UCF101视频数据库中选50000对图像,每对图像中间隔两帧,作为训练数据集的第三部分;
步骤1-4:计算以上150000对图像的RGB平均值,和RGB方差,并把所有图像归一化;
进一步,在本发明步骤2中,具体包括如下步骤:
步骤2-1:引入VGG深度神经网络的前两层,包括此神经网络的结构和已经训练好的参数,搭建一种包含有两个输入层的非一般性神经网络,作为总神经网络的第一部分。此部分会将输入的两个图片分别处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611011646.5/2.html,转载请声明来源钻瓜专利网。