[发明专利]一种基于特征增强的视频分类算法在审

申请号：	202010006568.X	申请日：	2020-01-03
公开（公告）号：	CN111209433A	公开（公告）日：	2020-05-29
发明（设计）人：	张梦超;李永	申请（专利权）人：	北京工业大学
主分类号：	G06F16/75	分类号：	G06F16/75;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特征增强视频分类算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视频分类方法，其特征在于，包括：

将待分类视频分为K段；

将所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征；

在K段中根据上一步输出结果，进行特征融合，获得每一段的综合特征，

根据特征融合的结果进行特征增强，增加对分类重要的特征权重，同时减少不重要的特征权重；

根据特征增强后的结果输入到分类模块，得到每段的类别；

再通过特征融合函数融合K段的分类结果，最终得到分类结果。

2.根据权利要求1所述的方法，其特征在于：

将视频分为K段及采样的方法为：将其分为3段，在每段中随机采样15到20帧左右，或者每隔1s取一次。

3.根据权利要求1所述的方法，其特征在于：

在采样后的帧通过预先训练的CNN图像特征提取模型，采用Inception网络模型，并将Inception网络的降采样层的输出作为每一帧图像的特征，然后再将其输入到循环神经网络中，采取LSTM作为循环神经网络的处理单元，最后一个时刻的输出即特征融合后的结果，过程如下：

3.1通过卷积神经网络CNN提取输入视频的空间特征；

设输入视频为X＝{x₁，x₂，…,x_n}，N表示每段输入视频的总帧数，通过Inception网络模型提取，输入视频的空间特征为V＝{v₁，v₂，…,v_n}，v_i表示第i帧视频图像的特征向量，i＝1,2,…,n；

3.2更新当前时刻LSTM网络状态；

h_t＝O_tC_t

其中，f_t、i_t、O_t分别表示LSTM网络的遗忘门、输入门和输出门的计算结果，h_t-1和C_t-1分别表示上一时刻隐藏单元状态和记忆单元状态，h_t和C_t分别表示当前时刻隐藏单元状态和记忆单元状态，σ(·)是sigmoid函数，表达式为U_t、U_i、U_c，A_f、A_f、A_c，b_i、b_f、b_c分别为待学习参数；计算每个时刻对应的输出类别进行梯度更新，所有参数采用随机初始化方法。