[发明专利]基于深度学习的时间维视频超分辨率方法在审
申请号: | 201710341864.3 | 申请日: | 2017-05-16 |
公开(公告)号: | CN107133919A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 董伟生;巨丹;石光明;谢雪梅;吴金建;李甫 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06T3/40 | 分类号: | G06T3/40;H04N19/587;G06N3/08;G06N3/04 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 王品华,朱红星 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 时间 视频 分辨率 方法 | ||
技术领域
本发明属于图像处理领域,具体涉及一种时间维视频超分辨方法,可用于场景插值、动画制作、实现低帧率视频的时间域插帧。
背景技术
视频图像不仅包含了被观测目标的空间信息,而且包含了被观测目标在时间上的运动信息,具备“空时合一”的性质。由于视频图像可以把反映物体性质的空间信息和时间信息维系在一起,因此极大的提高了人类认知客观世界的能力,在遥感、军事、农业、医学、生物化学等领域都被证明有着巨大的应用价值。
利用视频成像设备获取精密的视频图像成本很高,而且受到传感器和光学器件制造工艺的限制,为了提高成像视频的分辨率,通常需要对视频进行压缩,以牺牲视频的时间分辨率为代价,这显然难以满足科学研究和大规模实际应用的需求。所以利用信号处理技术从压缩后的视频图像中重建出高分辨率的视频图像成为获取视频图像的一个重要途径。
Kang S J等人在“Dual Motion Estimation for Frame Rate Up-Conversion”中提出了一种采用运动估计和运动补偿的方法实现视频图像插帧重构的算法。该视频图像插帧重构问题是一个病态逆问题,其利用视频图图像的时间信息并结合视频图像的空间信息来实现视频图像插帧重构,但是该算法由于没有充分利用视频图像中存在的较强的相邻帧间的结构相似性,使得重构的视频图像稳定性和精度难以满足科学研究和大规模实际应用的要求。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于深度学习的时间维视频超分辨率方法,以提高重构视频图像的稳定性和精度,满足大规模实际应用的要求。
本发明的技术方案是这样实现的:
将经过下采样的视频图像集和原始视频图像集分别作为神经网络的输入训练样本和输出训练样本,通过神经网络训练拟合下采样视频图像和原始视频图像之间的非线性映射关系,并以这种关系为指导进行测试样本的插帧重构,从而达到利用神经网络进行视频时间域插帧的目的,其具体步骤包括如下:
(1)将彩色视频图像集S={S1,S2,...,Si,...,SN}转换为灰度视频图像集,即原始视频图像集X={X1,X2,...,Xi,...,XN},并利用下采样矩阵F对原始视频图像集X进行直接下采样,得到下采样视频图像集Y={Y1,Y2,...,Yi,...,YN},其中,表示第i个原始视频图像样本,表示第i个下采样视频图像样本,1≤i≤N,N表示原始视频图像集中图像样本的数量,M表示原始视频图像块的大小,Lh表示原始视频图像集每个样本中图像块的数量,Ll表示下采样视频图像集每个样本中图像块的数量,且Lh=r×Ll,r表示原始视频图像集对下采样视频图像集的放大倍数;
(2)构建神经网络模型,并利用下采样视频图像集Y和原始视频图像集X训练神经网络参数:
(2a)确定神经网络输入层节点数、输出层节点数、隐藏层数和隐藏层节点数量,随机初始化各层的连接权值W(t)和偏置b(t),给定学习速率η,选定激活函数为:其中,g表示神经网络节点的输入值,t=1,2,···,n,n表示神经网络的总层数;
(2b)随机输入下采样视频图像集中的一个下采样视频图像Yi作为输入训练样本,同时输入对应的原始视频图像集中的一个原始视频图像Xi作为输出训练样本,使用选定的激活函数计算神经网络每一层的激活值,计算得到:
第1层即输入层的激活值为:a(1)=Yi,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710341864.3/2.html,转载请声明来源钻瓜专利网。