[发明专利]一种基于CNN和LSTM的暴恐视频检测方法有效

申请号：	201610168334.9	申请日：	2016-03-23
公开（公告）号：	CN105844239B	公开（公告）日：	2019-03-29
发明（设计）人：	苏菲;宋一凡;赵志诚	申请（专利权）人：	北京邮电大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62
代理公司：	北京永创新实专利事务所 11121	代理人：	姜荣丽
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于CNN和LSTM的暴恐视频检测方法，属于模式识别、视频检测、深度学习技术领域。所述检测方法首先对待检测视频进行关键帧采样，并提取关键帧特征；然后进行视频层面的表达与判别，包括CNN语义模块的VLAD特征表达与SVM判别、CNN场景模块的场景VLAD特征表达与SVM判别，以及LSTM时序模块的LSTM判别；最后进行结果融合。本发明利用了CNN在图像特征提取和LSTM在时序序列表达方面的优势，并充分考虑暴恐视频在场景方面的特色，实际测试中检测指标mAP值达到98.0％，接近人工作业水准。在运行速度方面，仅采用单机GPU加速的方式，每秒钟便可以处理76.4秒的网络视频，适于阻断暴恐视频在大型视频网站上的传播，有利于维护社会稳定和国家长治久安。
搜索关键词：	一种基于 cnn lstm 视频检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于CNN和LSTM的暴恐视频检测方法，其特征在于：具体包括如下步骤：第一步，对待检测视频进行关键帧采样，并提取关键帧特征；第二步，利用提取到的关键帧特征，进行视频层面的表达与判别；包括CNN语义模块的VLAD特征表达与SVM判别、CNN场景模块的场景VLAD特征表达与SVM判别，以及LSTM时序模块的LSTM判别；所述的CNN语义模块的语义VLAD特征表达与SVM判别，输入特征为三种CNN语义特征SPP，FC6，FC7；首先采用主成分分析的方法，分别将三种特征降至128维、256维和256维；随后，应用VLAD方法，对降维后的D维特征向量，向预先通过K‑均值聚类得到的聚类中心集合C＝{c1,c2,...,cK}进行差分累积投影；令V＝{v1,v2,...,vN}表示一个包含N个已降维特征向量的集合，则与聚类中心ck相关的差分累积向量diffk表示为：其中，i＝1,2…,N；k＝1,2,…,K；NN(vi)表示已降维特征向量vi在聚类中心集合C中的欧氏距离的最近邻；对每个差分累积向量diffj分别进行l2范数归一化，1≤j≤K，再将K个差分累积向量级联，便得到了最终的K×D维VLAD特征表达；此处聚类中心数目K被设定为256，则SPP，FC6，FC7对应VLAD特征表达后的维度分别为32,768维，65,536维和65,536维；最后，训练线性SVM分类器完成视频涉恐置信度的判定；第三步，结果融合：采用基于校验集mAP值的层次融合策略，即对于一个待识别视频，分别计算CNN语义模块、CNN场景模块和LSTM时序模块的判决得分，再以各模块在校验集上的mAP值作为权重进行加权融合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610168334.9/，转载请声明来源钻瓜专利网。

上一篇：平衡车使用者的识别方法及装置
下一篇：指纹识别模组、终端及指纹识别芯片封装方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于CNN和LSTM的暴恐视频检测方法有效

专利文献下载