[发明专利]一种基于深度神经网络的会议视频重建方法和系统在审
申请号: | 202110389613.9 | 申请日: | 2021-04-13 |
公开(公告)号: | CN113099161A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京中科深智科技有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15;H04N19/167;H04N19/91;G06K9/62;G06K9/46;G06K9/32;G06K9/00;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 会议 视频 重建 方法 系统 | ||
本发明公开了一种基于深度神经网络的会议视频重建方法和系统,其中方法包括:识别会议视频帧中的感兴趣区域和非感兴趣区域,并改变对感兴趣区域和非感兴趣区域内容传输的比特率分配;利用深度神经网络将感兴趣区域中的运动信息编码为关键点位移;将关键点位移编码信息和非感兴趣区域的编码信息分别按照预分配的比特率传输给视频解码器;视频解码器对关联当前帧的关键点位移编码信息进行解码,并以解码信息扭曲初始帧F0中的对应关键点得到当前帧的重建帧;将各重建帧按时间轴融合,得到重建后的会议视频。本发明确保了超低比特率下感兴趣区域的视频实时重建,进而提升了超低比特率下的视频会议体验。
技术领域
本发明涉及视频重建及压缩技术领域,具体涉及一种基于深度神经网络的会议视频重建方法和系统。
背景技术
应用高度压缩数字视频编解码标准(如H.264、HEVC等)的视频编解码器已经优化和调整了几十年,这些视频编解码器应用到视频会议中,能够重建出质量较高的视频画面,并且在带宽足够的前提下,能够确保视频会议的实时性,给用户带来了极佳的视频会议体验。但当带宽极其有限时,例如遇到网络拥塞或者无线网络覆盖不佳时,这些视频编解码器在非常低的比特率下便无法提供让人满意的性能,由此产生的视频质量变得不可接受,大大降低了视频会议体验。
发明内容
本发明以在超低比特率下仍然能够提供较佳的视频质量为目的,提供了一种基于深度神经网络的会议视频重建方法。
为达此目的,本发明采用以下技术方案:
提供一种基于深度神经网络的会议视频重建方法,所述方法的具体步骤包括:
1)识别会议视频帧中的感兴趣区域和非感兴趣区域,并为对所述感兴趣区域和所述非感兴趣区域分配相对应的传输比特率;
2)利用深度神经网络将所述感兴趣区域中的运动信息编码为关键点位移;
3)将关键点位移编码信息和非感兴趣区域的编码信息分别按照预分配的比特率传输给视频解码器;
4)所述视频解码器对关联当前帧的所述关键点位移编码信息进行解码,并以解码信息扭曲初始帧F0中的对应关键点得到当前帧的重建帧;
5)将各所述重建帧按时间轴融合,得到重建后的会议视频。
作为本发明的一种优选方案,所述步骤2)中,将所述感兴趣区域中的运动信息以熵编码方式编码为关键点位移。
作为本发明的一种优选方案,视频帧中的关键点通过预先训练的U-Net神经网络预测而得。
作为本发明的一种优选方案,步骤4)中,生成所述重建帧的方法步骤具体包括:
4.1)对初始帧的编码信息进行解码,得到重建后的初始帧F0以及所述初始帧F0上的若干个关键点K0,并对当前帧的关键点位移编码信息进行解码;
4.2)以解码到的当前帧的关键点位移去扭曲所述初始帧F0上对应的每个所述关键点K0,得到当前帧的重建帧Ft。
作为本发明的一种优选方案,作为视频帧重建参考帧的所述初始帧为会议视频的首帧图像或重建的当前重建帧Ft的上一重建帧Ft-1。
作为本发明的一种优选方案,采用BPG格式编解码器对所述初始帧进行视频编解码。
本发明还提供了一种基于深度神经网络的会议视频重建系统,所述系统包括:
区域识别模块,用于自动识别会议视频帧中的感兴趣区域和非感兴趣区域;
比特率分配模块,用于为所述感兴趣区域和所述非感兴趣区域的内容传输分配对应的比特率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科深智科技有限公司,未经北京中科深智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110389613.9/2.html,转载请声明来源钻瓜专利网。