[发明专利]一种基于特征增强的视频分类算法在审
| 申请号: | 202010006568.X | 申请日: | 2020-01-03 |
| 公开(公告)号: | CN111209433A | 公开(公告)日: | 2020-05-29 |
| 发明(设计)人: | 张梦超;李永 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/75 | 分类号: | G06F16/75;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 增强 视频 分类 算法 | ||
一种基于特征增强的视频分类算法涉及视频处理技术领域,方法包括:首先将待分类视频分为K段,在每段中随机选择帧或者等距离选择帧;通过预先训练好的CNN模型来提取每一帧的图像特征,将每一帧特征输入特征融合层的池化模块,池化模块将提取的特征聚合成整个视频的压缩表示;根据每一段中的视频表示输入到特征增强层,特征增强层能够增加重要特征的权重,并减少非重要特征的权重,然后通过聚合函数从K个片段中相同类别得分得到某个类别的最终分数。本发明能够有效的提高分类效率,通过分为K段采样,解决了视频相邻帧相似度高的问题,通过特征增强层选择更重要的特征有效的提高了分类准确率。
技术领域
本发明属于视频信息内容发掘技术,更具体的是,设计一种基于注意力的特征增强的视频分类。
背景技术
近年来,得益于深度学习强大的特征提取能力,视频内容的识别和分析取得了突
破性进展。视频内容识别的核心在于视频特征的提取,视频特征是视频本身所具有的物理性质,能够从不同的角度反映视频内容。
目前主流的视频分类的方法有三大类:基于LSTM的方法,基于3D卷积的方法和基于双流的方法。基于LSTM的方法将视频的每一帧用卷积网络提取出每一帧的特征,然后将每一个特征作为一个时间点,依次输入到LSTM中。由于LSTM并不限制序列的长度,所以这种方法可以处理任意长度的视频。但同时,因为LSTM本身有梯度消失和爆炸的问题,往往难以训练出令人满意的效果。而且,由于LSTM需要一帧一帧得进行输入,所以速度也比不上其他的方法。
基于3D卷积的方法将原始的2D卷积核扩展到3D。类似于2D卷积在空间维度的作用方式,它可以在时间维度自底向上地提取特征。基于3D卷积的方法往往能得到不错的分类精度。但是,由于卷积核由2D扩展到了3D,其参数量也成倍得增加了,所以网络的速度也会相应下降。
基于双流网络的方法会将网络分成两支。其中一支使用2D卷积网络来对稀疏采样的图片帧进行分类,另一支会提取采样点周围帧的光流场信息,然后使用一个光流网络来对其进行分类。两支网络的结果会进行融合从而得到最终的类标。基于双流的方法可以很好地利用已有的2D卷积网络来进行预训练,同时光流又可以建模运动信息,所以精度往往也很高。但是由于光流的提取过程很慢,所以整体上制约了这一方法的速度。
发明内容
本发明的目的在于克服现有技术的不足,将视频分为K段,缩短每次处理的时间序列,通过对每段特征的融合,再增加重要的特征从而提高分类的准确率与效率。
为实现上述发明目的,本发明一种基于特征增强机制的视频分类方法,其特征在于,包括以下步骤:
将待分类视频分为K(3)段;在每段中每隔n帧采样一帧。
获取每段视频中的空间特征:将每段中所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征,通过卷积神经网络CNN提取输入视频的空间特征。
通过LSTM循环神经网络融合每段中的时间特征和空间。
然后在每段中取对应的LSTM网络每个时刻取的输出输入到一个全连接层降维到1024维,可以起到降维,保留有用信息等作用。
将全连接层的输出作为特征增强层的输入,在每段的特征增强模块中采用一种注意力机制来增加相关重要的权重。
将特征增强层输入到分类模块,分类模块将得到的表示作为输入,并输出预定义标签集的分数,得到每段视频的分类结果。
融合K段中的K个结果,最终得到整个视频的分类结果。
其中,所述LSTM循环神经网络部分包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010006568.X/2.html,转载请声明来源钻瓜专利网。





