[发明专利]一种基于特征增强的视频分类算法在审
| 申请号: | 202010006568.X | 申请日: | 2020-01-03 |
| 公开(公告)号: | CN111209433A | 公开(公告)日: | 2020-05-29 |
| 发明(设计)人: | 张梦超;李永 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/75 | 分类号: | G06F16/75;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 特征 增强 视频 分类 算法 | ||
1.一种视频分类方法,其特征在于,包括:
将待分类视频分为K段;
将所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征;
在K段中根据上一步输出结果,进行特征融合,获得每一段的综合特征,
根据特征融合的结果进行特征增强,增加对分类重要的特征权重,同时减少不重要的特征权重;
根据特征增强后的结果输入到分类模块,得到每段的类别;
再通过特征融合函数融合K段的分类结果,最终得到分类结果。
2.根据权利要求1所述的方法,其特征在于:
将视频分为K段及采样的方法为:将其分为3段,在每段中随机采样15到20帧左右,或者每隔1s取一次。
3.根据权利要求1所述的方法,其特征在于:
在采样后的帧通过预先训练的CNN图像特征提取模型,采用Inception网络模型,并将Inception网络的降采样层的输出作为每一帧图像的特征,然后再将其输入到循环神经网络中,采取LSTM作为循环神经网络的处理单元,最后一个时刻的输出即特征融合后的结果,过程如下:
3.1通过卷积神经网络CNN提取输入视频的空间特征;
设输入视频为X={x1,x2,…,xn},N表示每段输入视频的总帧数,通过Inception网络模型提取,输入视频的空间特征为V={v1,v2,…,vn},vi表示第i帧视频图像的特征向量,i=1,2,…,n;
3.2更新当前时刻LSTM网络状态;
ht=OtCt
其中,ft、it、Ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和Ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和Ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,表达式为Ut、Ui、Uc,Af、Af、Ac,bi、bf、bc分别为待学习参数;计算每个时刻对应的输出类别进行梯度更新,所有参数采用随机初始化方法。
4.根据权利要求1所述的方法,其特征在于:
在每段中对应的LSTM网络每个时刻取平均作为特征增强层的输入,
在每段的特征增强模块中采用一种注意力机制来增加相关重要的权重,先初始化一个权重矩阵W,b;
Y=σ(WX+b)☉X
其中,X是输入特征向量,σ是逐个元素的sigmoid激活函数,⊙表示逐个元素相乘;W和b是可训练的参数;向量σ(WX+b)代表应用于输入特征X的个体维度的一组学习门;
其中,所述分类模块采用SoftMax函数分类器,它将多个神经元的输出,映射到(0,1)区间内,看成概率来理解,从而来进行多分类,具体如下:
其中,i表示k的某个分类,gi表示该分类的值;
所述每段结果融合共识部分采用均匀平均法来表示,即对每段n个结果的分数求和取平均就是最后的结果集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010006568.X/1.html,转载请声明来源钻瓜专利网。





