[发明专利]一种基于神经网络的视频编码方法及系统有效
| 申请号: | 202010305191.8 | 申请日: | 2020-04-17 |
| 公开(公告)号: | CN111464815B | 公开(公告)日: | 2021-04-23 |
| 发明(设计)人: | 刘东;林建平;李厚强;吴枫 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | H04N19/70 | 分类号: | H04N19/70;H04N19/51;G06N3/08;G06N3/04 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 神经网络 视频 编码 方法 系统 | ||
本发明公开了一种基于神经网络的视频编码方法及系统,方法包括:获取用于训练神经网络的视频数据,构建一个含有多参考帧的神经网络,基于视频数据对含有多参考帧的神经网络进行训练,得到训练好的神经网络,基于训练好的神经网络对视频进行编码。本发明能够基于神经网络,利用多参考帧,有效提升面向低延时场景时,视频编码的性能。
技术领域
本发明涉及视频编码技术领域,尤其涉及一种基于神经网络的视频编码方法及系统。
背景技术
目前,互联网上大部分的视频都被压缩成H.264或H.265的格式。新的视频编码标准如H.266和AV1正在制定中。尽管新的标准相比H.265在同样的视觉质量下节省了50%的码率,但是这种性能提升也带来了编码复杂度的成倍增加。事实上,所有的传统编码标准都使用了同样的框架。该框架使用了基于运动补偿的预测、基于块的变换和基于人工设计的熵编码器。经过三十多年的不断发展,该框架在压缩效率不断增长的同时,系统复杂度变得越来越高,单个技术的性能变得越来越小,已在一定程度上趋于饱和。
近年来,一系列研究工作试图构建新的基于深度神经网络的视频编码框架。这些工作可以根据不同的应用场景分为两大类。第一类是面向点播应用的随机切入场景。例如,一种基于内插的视频编码方案,该方案包括结合了运动信息编码和图像合成的内插模型以及用于残差编码的自编码器,该方案在PSNR(Peak Signal to Noise Ratio,峰值信噪比)指标下高码率端的编码性能已经超过H.265。第二类面向的是直播应用的低延时场景。例如,一种端到端深度学习视频编码模型,该模型联合优化了运动估计、运动编码、运动补偿、和残差编码等模块,该模型在MS-SSIM指标下的编码性能与H.265相当。但是,这些已有的模型要么面向的是随机切入场景,要么只使用了前面的一个重建帧当作参考帧,无法充分利用视频帧之间的时域相关性。在面向低延时场景时,视频编码的性能较低。
因此,如何进一步有效地提升基于神经网络的视频编码的性能,是一项亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于神经网络的视频编码方法,能够基于神经网络,利用多参考帧,有效提升面向低延时场景时,视频编码的性能。
本发明提供了一种基于神经网络的视频编码方法,包括:
获取用于训练神经网络的视频数据;
构建一个含有多参考帧的神经网络;
基于所述视频数据对所述含有多参考帧的神经网络进行训练,得到训练好的神经网络;
基于所述训练好的神经网络对视频进行编码。
优选地,所述构建一个含有多参考帧的神经网络,包括:
构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;
构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;
构建用于对原始运动场残差进行编码的运动差编码模块,以及用于对原始运动场残差进行解码的运动差解码模块;
构建用于获得重建运动场的运动重建模块;
构建用于获得当前帧的预测的运动补偿模块;
构建用于对原始残差进行编码的残差编码模块,以及用于对原始残差进行解码的残差解码模块;
构建用于获得重建帧的帧重建模块。
优选地,所述构建一个含有多参考帧的神经网络,包括:
构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块;
构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010305191.8/2.html,转载请声明来源钻瓜专利网。





