[发明专利]基于深度学习和显著性感知的压缩视频流再编码方法有效

专利信息
申请号: 202010394906.1 申请日: 2020-05-11
公开(公告)号: CN111726633B 公开(公告)日: 2021-03-26
发明(设计)人: 李永军;李莎莎;杜浩浩;邓浩;陈立家;曹雪;王赞;陈竞;李鹏飞 申请(专利权)人: 河南大学
主分类号: H04N19/61 分类号: H04N19/61;H04N19/625;H04N19/177;H04N19/124
代理公司: 郑州联科专利事务所(普通合伙) 41104 代理人: 王聚才
地址: 475001*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 显著 性感 压缩 视频 编码 方法
【权利要求书】:

1.基于深度学习和显著性感知的压缩视频流再编码方法,其特征在于,包括以下步骤:

步骤1、构建和训练压缩域视频图像显著性检测深度学习模型,具体采用以下方法:

步骤1.1、对用于训练的压缩域视频图像的离散余弦变换DCT残差系数和对应的视频图像显著性映射图进行批归一化;

步骤1.2、将Resnext网络作为特征提取网络,利用特征提取网络的损失函数loss来构建压缩域视频图像显著性检测深度学习模型CDVNet;具体的:特征提取网络的损失函数loss为

其中,G(i,j)=1表示第i行第j列残差DCT宏块所对应的图像位置是显著的,G(i,j)=0表示第i行第j列残差DCT宏块所对应的图像位置是非显著的;S(i,j)表示预测出第i行第j列的残差DCT系数是显著性值的概率;其中α=0.5,γ=2,;进一步的,α取0.5用于平衡正负样本本身的比例不均;γ取2用于调节简单样本权重降低的速率;

步骤1.3、将批归一化的压缩域视频图像的DCT残差系数和对应的视频图像显著性映射图送入压缩域视频图像显著性检测深度学习模型CDVNet,并利用随机优化算法Adam对压缩域视频图像显著性检测深度学习模型CDVNet进行训练,训练批次的大小为Batch=64,动量为Momentum=0.9,学习率初始设定为lr=0.001;训练批次Epoch=200,最终得到训练好的压缩域视频图像显著性检测深度学习模型CDVNet;

步骤2、将待再编码的压缩视频图像X输入步骤1训练好的压缩域视频图像显著性检测深度学习模型CDVNet;

步骤3、利用压缩域视频图像显著性检测深度学习模型CDVNet对待再编码的压缩视频图像X部分解码;具体的,

对待再编码的压缩视频图像X进行部分解码,得到

该待再编码的压缩视频图像X的每帧图像的预测残差DCT系数;

视频帧图像的高H和宽W;

量化参数QP、量化参数的个数lQP

待再编码的压缩视频图像X的图像组(GOP)组数G 、每一组GOP的视频帧数F 、每一帧包含的编码单元CU的个数K 、以及视频图像的总帧数R;

步骤4、对步骤3中部分解码后的待再编码的压缩视频图像X进行局部显著性特征提取;具体的,包括以下步骤:

步骤4.1、将部分解码后的待再编码的压缩视频图像X的视频帧图像的帧序号r初始化为1;

步骤4.2、计算步骤4.1中视频帧图像中第r帧中每一个宏块预测残差DCT系数量化后的范数,得到RDCN特征图,具体采用以下方法:

其中,RDCN为预测残差DCT系数范数,表示第i行第j列预测残差宏块里的第m行第n列离散余弦变换系数,宏块的大小是M×N,这里取M=N=8;

步骤4.3、对步骤4.2得到视频帧图像中第r帧的RDCN特征图进行最大最小值归一化;

步骤4.4、使用3×3的高斯滤波器对步骤4.3得到的最大最小值归一化的RDCN特征图进行卷积以实现空域滤波;

步骤4.5、对步骤4.4空域滤波后的特征图利用前r帧进行运动中值滤波,得到视频帧图像中第r帧的局部显著性特征图SRDCN;具体的,采用以下方法:

其中,Med[·]表示空域滤波后的前r帧特征值的中间值,是视频帧图像中第r-t帧的第i行第j列个宏块空域滤波后的RDCN特征值,t∈{1,2,…r-2};

步骤5:利用基于压缩域视频图像显著性检测深度学习模型CDVNet对压缩视频图像X进行高层显著性特征提取,包括以下步骤:

步骤5.1、对压缩视频图像X的DCT残差系数进行归一化,使得归一化后的数据围绕0值分布;

步骤5.2、把步骤5.1归一化的DCT残差系数输入到步骤1训练好的压缩域视频图像显著性检测深度学习模型CDVNet,得到该压缩视频图像X的视频帧图像的第r帧的全局显著性特征图GSFI;

步骤6、视频帧图像中第r帧的局部显著性特征图SRDCN和全局显著性特征图GSFI的融合与增强,包括以下步骤:

步骤6.1、按照下述公式对步骤4.5得到的视频帧图像中第r帧的局部显著性特征图SRDCN和步骤5.2得到的视频帧图像的第r帧的全局显著性特征图GSFI进行融合,得到视频帧图像的第r帧的融合显著性映射图Sfuse

Sfuse=Norm(α·GSFI+β·SRDCN+γ·SRDCN⊙GSFI);

其中,Norm(·)表示归一化到[0,1]区间,⊙表示点乘,α=QP/(3·lQP),β=2·(1-(QP-3)/(3·lQP)),这里QP和lQP是压缩视频图像部分解码得到的量化参数和量化参数的个数;

步骤6.2、按照下述公式通过基于高斯模型的中心显著图对视频帧图像的第r帧的融合显著性映射图Sfuse进行显著性增强和非显著性抑制,得到融合后特征值所对应图像中的位置Scentral

其中,xi和yi表示宏块所对应图像中的位置,表示视频帧每行宏块的个数,表示视频帧每列宏块的个数;其中xc和yc表示Sfuse前10个最大值的坐标的均值处,且

其中,Sfuse(xi,yi)为融合后的显著性特征值,Sfuse(x1,y1)≥Sfuse(x2,y2)≥…≥Sfuse(xN,yN);

步骤6.3、通过下述公式将步骤6.1得到的视频帧图像的第r帧的融合显著性映射图Sfuse和步骤6.2得到的增强的显著性特征图的位置相结合,得到视频帧图像第r帧的最终显著性图Sr

Sr=Sfuse⊙Scentral

步骤6.4、将第r帧视频帧图像的视频帧序列号r加1,判断加1后的视频帧序列号是否等于视频帧的总数R;若是,执行步骤7,否则,执行步骤4.1;

步骤7、构建感兴趣区域的R-λ模型,包括以下步骤:

步骤7.1、分别将步骤3得到的压缩视频图像X的GOP组序号g、每组GOP的视频帧序号f和每帧的编码单元CU的序号k初始化为1;

步骤7.2、结合步骤6.3得到的视频帧图像的第r帧的最终显著性图Sr,按照下述公式对步骤3部分解码得到的压缩视频图像X的GOP组重新分配目标比特数TG

其中,TG为第g组GOP分配的目标比特数,Ru为每帧的目标码率,fps为视频帧率,δ为偏移量,默认为0.75,Υ为ROI比率,NGSFI为GOP组中显著宏块的个数,在0.75与1.75之间变化;

步骤7.3、根据下述公式得到第f帧的目标比特数TF

其中,TF为当前帧的比特数,RGOPcoded是当前GOP已经消耗的目标比特数,ωi是根据目标比特、编码结构和编码帧的特性而调整的帧级比特分配权重,Notcoded为未编码的图像数;

步骤7.4、按照下述公式得到第k个编码单元CU的目标比特TCU

其中,PCU为RDCN归一化后得到宏块的特征值在每帧中所占的概率值;

步骤7.5、根据R-λ模型的计算第k个编码单元CU的量化参数QP值和λ值,具体采用以下方法:

λ=α×bppβ

其中,α和β是和序列内容特性相关的参数,初始值为3.2005和-1.367,α和β会根据内容的自适应不断进行更新,C1=4.2005,C2=13.7122;

步骤7.6、将编码单元的序列号k加1,判断加一后编码单元序列号k是否等于编码单元的总数K;若是,执行步骤7.7,否则,执行步骤7.4;

步骤7.7、将视频帧的序列号f加1,判断加1后帧序列号f是否等于GOP 组中视频帧数F;若是,执行步骤7.8,否则,执行步骤7.3;

步骤7.8、将GOP组数g加1,判断加1后GOP组序列号g是否等于GOP的总组数G;若是,执行步骤8,否则,执行步骤7.1;

步骤8、使用HEVC编码技术,结合每一编码单元更新后的量化参数进行视频图像再编码。

2.根据权利要求1所述的基于深度学习和显著性感知的压缩视频流再编码方法,其特征在于:步骤8中所述的HEVC编码技术采用2013年确立的国际标准“H.265”。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010394906.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top