[发明专利]一种基于深度学习的无参考视频质量评价方法在审
申请号: | 202110534076.2 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113411566A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 周晓飞;费晓波;张继勇;颜成钢 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | H04N17/00 | 分类号: | H04N17/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 参考 视频 质量 评价 方法 | ||
1.一种基于深度学习的无参考视频质量评价方法,其特征在于包括如下步骤:
步骤(1).提取内容感知特征;
步骤(2).融合时域特征;
步骤(3).视频质量预测;
步骤(4).对内容感知特性提取网络、融合时域特征的双向GRU网络、视频质量预测模型以端到端的方式联合训练。
2.根据权利要求1所述的一种基于深度学习的无参考视频质量评价方法,其特征在于步骤(1)提取内容感知特征,具体实现如下:
1-1.利用预训练的卷积神经网络构建内容感知特征提取网络;所述的预训练卷积神经网络是利用ResNet网络在ImageNet上预先训练得到的图像分类模型构建成的网络,能够提取到既对内容感知又对失真敏感的特征;所述的内容感知特征提取网络包括一个预训练好的ResNet网络模型,1个空间全局平均池化层和1个全局标准差池化层;
1-2.内容感知特征提取网络的输入,将一个视频的所有帧作为ResNet的输入,提取每一帧的特征,输出T个深层语义特征图Mt,具体如下:
Mt=ResNet(It) (1)
其中,t是下标,t=1,2,3,...,T,T为视频的总帧数;It表示视频第t帧的图像;Mt表示视频第t帧所对应的深层语义特征图;
1-3.利用空间全局平均池化操作丢弃冗余信息;更进一步地利用全局标准差池化操作来保存变化信息,分别得到特征向量ftmean和ftstd,最后将两者结合起来作为内容感知特征ft,具体操作如下:
其中,GPmean()表示空间全局池化操作,GPstd()表示全局标准差操作,ftmean和ftstd是分别是经过空间全局池化和全局标准差操作得到的特征向量,表示将两个向量作拼接,ft表示最终得到的内容感知特征。
3.根据权利要求2所述的一种基于深度学习的无参考视频质量评价方法,其特征在于步骤(2)所述的融合时域特征,具体方法如下:
采用双向GRU网络模块,融合时域特征于内容感知特征当中;该融合时域特征的双向GRU网络模块包括一个全连接层和一对GRU网络;
首先,由于得到的内容感知特征向量维度太高,会给训练模型增加难度,所以将内容感知特征向量输入到全连接层中,对特征向量进行降维操作,得到新的特征向量xt,具体如下:
xt=Wfxft+bfx (5)
其中,bfx、Wfx分别表示单个FC层中的参数偏差和权重,ft是内容感知特征;
其次考虑到前后视频帧的内容及质量对当前帧的质量具有影响,即所谓的时间依赖性;将新的特征向量分别以正序和倒序的顺序输入到GRU网络中,输出具有时空信息的特征向量ht和ht′,并将两者结合起来成为一个新的时空特征向量Ht,具体如下
ht=GRU(xt,ht-1) (6)
其中,是对特征xt在第0维执行倒序操作得到的,即的第一帧的特征向量是xt的最后一帧的特征向量,表示上一个隐藏状态,表示当前隐藏状态,表示将两个向量作拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110534076.2/1.html,转载请声明来源钻瓜专利网。