[发明专利]一种提取视频关键帧的轻量化方法有效
申请号: | 202110755764.1 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113691863B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 张烨;陈威慧;王博;闫芳彭 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | H04N21/44 | 分类号: | H04N21/44;H04N21/234;G06V10/40;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 视频 关键 量化 方法 | ||
1.一种提取视频关键帧的轻量化方法,包括如下步骤:
步骤一,视频预处理;
对输入的视频进行帧化处理,并对每一张RGB视频帧进行图像增强、去噪等预处理,以作为步骤二中LRDN模型的输入;
步骤二,特征提取;
基于轻量化思想,提出了一种LRDN模型用于提取视频帧序列的空间特征;该网络的特点有:(1)为了提取图像中不同层次的信息,网络中采用了特征融合模块,通过将低层次与高层次的卷积核卷积得到的特征进行融合,使得网络可以提取出图像中更多的潜在信息,以此得到的图像分类结果将更为精准;(2)为了降低模型的参数数量与计算量,去除冗余信息,网络中采用了由特征压缩单元与下采样组成的过渡模块,以此提高模型的运行效率;(3)为了规避网络在训练时出现梯度消失或模型退化等问题,网络中采用了残差连接以及密集连接,通过跳跃连接,增强了网络中的特征复用,加强了特征在网络中的流通,提高了网络的可训练性;
LRDN模型以预处理后的RGB视频帧为输入,通过浅层特征提取模块以及深层特征提取模块完成对输入视频帧的特征提取;
(一)浅层特征提取;
网络中输入的图像用Fin表示,通过1层标准卷积和1层改进的深度可分离卷积将图像中的浅层特征提取出来;先通过一层标准卷积把输入的特征进行收缩,其中标准卷积层所用的卷积核大小为3×3,步长为2,输出特征图个数为4k;其中超参数k为网络增长率,在密集连接网络中经过串联操作后每一层的特征通道数都是按k的数值大小增加的,这也是k被称为增长率的原因所在;该层卷积操作提取到的特征F-1将用于下一层卷积层更进一步地提取浅层特征;F-1可以通过式(1)得到:
F-1=HB(Fin) (1)
其中,HB(·)表示第一层卷积层所对应的标准卷积操作;
得到第一层浅层特征F-1之后,将该特征通过1层改进的深度可分离卷积得到浅层特征F0;与标准卷积相比,深度可分离卷积能够大幅度降低模型的参数量和计算量、减少计算所需的内存,但此操作又会使得模型损失少许的精度,为此,对传统深度可分离卷积进行了改进,用以提取第二层浅层特征F0;其中,对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征;因为深度卷积的计算特性决定了它本身没有改变通道数的能力,上一层给它多少通道,它就只能输出多少通道;所以如果上一层给的通道数很少,那么深度卷积也只能在低维空间提取特征,由此导致特征提取效果欠佳;而在每个深度卷积之前都配备一层逐点卷积,专门用以升维,则不管输入通道数是多还是少,经过第一个逐点卷积升维之后,深度卷积都将在相对的更高的维度进行特征提取;第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征;因为ReLU函数在高维空间能够有效地增加非线性特征,而在低维空间时则会破坏特征,即ReLU会对通道数低的张量造成较大的信息损耗;ReLU会将负值置零,通道数较低时会有相对高的概率使得某一维度的张量值全为0,这等同于减小了张量的维度,而且这一过程无法恢复;张量维度的减小即意味着特征描述容量的下降,导致其效果不如线性变换;由于第二个逐点卷积的主要作用就是降维,由此可知降维之后就不宜再使用ReLU;
用于1×1卷积“扩张”层的扩张系数为6,深度卷积的卷积核大小为3×3,步长为1,输出特征图个数为64,则F0作为深层特征提取、融合阶段的输入,可以通过式(2)得到:
F0=HS(F-1) (2)
其中,HS(·)表示第二层卷积层所对应的深度可分离卷积操作;
(二)深层特征提取;
对于LRDN模型,深层特征提取模块是该网络模型的核心部分,由LRDB组成,而LRDB包含一个密集块、一个过渡块以及一个残差连接;
LRDN中的密集块由24层卷积层密集连接而成,且每一层的非线性组合函数为BN+ReLU+1×1Conv+BN+ReLU+3×3Conv的组合;其中,1×1Conv在这里的作用是固定输出通道数,将输出的特征图个数降低为4k,达到降维的目的,从而提升计算效率;当网络中的十几个1×1Conv+3×3Conv的复合卷积相连接时,串联后的特征通道数会增加到上千,如果不增加1×1Conv来降维,那么后续3×3Conv所需的参数量会急剧增加;此外,因LRDB中包含有残差连接,故在密集块中采用了预激活设计,即激活函数在前、卷积层在后的BN-ReLU-Conv的顺序;
假设LRDN中第一个LRDB的第一层输出为x1,则其特征处理表达如下:
其中,为第一层1×1Conv的卷积核;为第一层3×3Conv的卷积核;σ表示非线性激活函数ReLU函数;[·]表示特征融合函数;浅层特征F0为第一个LRDB的输入;
第二层的输出x2为:
其中,为第二层1×1Conv的卷积核;为第二层3×3Conv的卷积核;
以此类推,最后一层的输出为:
由于LRDB中每层卷积提取到的特征都属于不同层次的特征,而在视频帧图像的识别过程中如果能够充分地利用从低层次图像中提取到的特征,则可使得高层次图像包含的信息更全面,识别结果更精准,因此在LRDB中将每层复合卷积后得到的特征通过拼接操作进行特征融合,即有:
其中,表示第一个密集块的输出;[x1,...,x24,F0]表示对x1,...,x24,F0特征通过拼接操作进行特征融合;由于每层复合卷积输出的特征图个数均为k,且浅层特征F0的特征图个数为64,所以经过特征融合后的特征图个数为(64+24k);
由于(64+24k)个特征图中包含有一定量的冗余信息,因此为了消除冗余信息以获取更精细的特征,同时为了降低网络训练的计算复杂度,将这(64+24k)个特征图通过一个结构由卷积核数量为4k、大小为1×1的卷积以及尺寸为2×2的平均池化组成的过渡块,使得(64+24k)个特征图转换为4k个特征图,获得融合后更精细的特征;对于过渡块,其作用主要是对来自密集块的输入进行下采样操作,降低特征图大小;
假设复合函数HT为代表BN,ReLU,1×1Conv及2×2Avg.Pooling顺序组合的非线性转化函数,则有:
其中表示由连接第一个LRDB的过渡块处理后得到的特征;
为了更好地获取学习低层次图像与高层次图像之间的映射关系以及更进一步提升网络的性能,LRDB在浅层特征F0与深层特征之间加入了残差连接,具体处理过程如下:
其中,F1表示第一个LRDB的输出;HP(·)表示平均池化函数;
为了解决特征图的尺寸不一致的问题,在式(8)的逐元素求和时在跳跃连接中施加了进一步的下采样操作,因此HP(·)是平均池化函数而不是传统残差网络中使用的恒等映射;此外,因为HP(·)是非线性函数,因此不会导致有关图像原始状态的信息丢失的问题,如此,下一个LRDB的输入是包含原始数据的降采样版本;
如法炮制得到LRDN中后续第i个LRDB的输出Fi,i∈[2,n-1];因为LRDN将对提取到的深层特征Fn进行全局平均池化处理,用以网络模型后续部分的行为动作分类,所以对LRDN中的最后一个LRDB做出了调整,在得到第n个密集块的输出后,利用1×1Conv对之前的特征进行压缩、整理,然后在深层特征Fn-1与压缩后的特征之间加入了残差连接,具体处理如下:
其中,Fn表示第n个LRDB融合后的深层特征;W1×1表示1×1卷积核;b表示偏置;
在得到深层特征Fn后,采用全局平均池化和全连接层聚合输出特征图,以减少参数数量和计算量;
步骤三,视频关键帧提取;
首先,利用步骤一获得的每一帧视频帧图像xj的深度特征τ(xj),利用递归的方式对相应的帧进行重要性预测,有:
Aj=fimp[ε(X,j-1),τ(xj)] (10)
其中,Aj表示第j张视频帧的重要性预测值,该值越大,表明该帧的重要性越大;fimp(·)表示预测函数;ε(X,j-1)表示从第0帧到第(j-1)帧的总特征,即表示对前(j-1)张视频帧特征的加和操作;
随后,为了更好地预测每一张视频帧的重要性,在关键帧提取模块中引入如式(12)所示的损失函数,以进行当前帧与下一帧之间的差异性比较,从而更高效地摒除冗余帧,保留有用帧,提高模型的鲁棒性;
L(X,y)=LCE(X,y)+μLν(V),μ≥0 (12)
其中,LCE(X,y)表示预测值和真实值之间的标准交叉熵损失函数;μ为平衡参数,其能够平衡所选择的视频帧数量,进一步优化关键帧的选择;
表示基于熵的正则化项,其能有效防止过拟合的出现;
最后,通过设定判断阈值去判断当前帧是属于关键帧还是冗余帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110755764.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐水洗防蚊纯棉织物及其制备方法
- 下一篇:多层基板