[发明专利]一种基于混合池化策略的深度卷积特征的动作识别方法有效

申请号：	201611229368.0	申请日：	2016-12-27
公开（公告）号：	CN106650674B	公开（公告）日：	2019-09-10
发明（设计）人：	胡海峰;肖翔	申请（专利权）人：	广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	528300 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混合策略深度卷积特征动作识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于混合池化策略的深度卷积特征的动作识别方法。

背景技术

科技的发展使得摄像设备得到了普及，数量巨大的视频数据也随之产生。同时，针对视频的应用也应运而生：智能视频监控、视频数据分类、高级人机交互等。在这些应用中，针对人的动作进行理解是最核心的关注点，也是人们研究的核心内容。

由于人体动作识别有很大的潜在价值，所以此课题作为一个研究热点已经持续了至少十年时间，很多种方法都被提出，例如：基于密集轨迹(DT)的方法、基于时空兴趣点的方法以及基于卷积神经网络(CNN)的方法等。其中，基于CNN的方法研究的人数最多，这种方法能够取得目前最好的结果。然而，大多数深层CNN网络都将单张卷积图看成一个整体来用，而卷积图中的局部信息往往被忽略，所以，我们的动作识别研究将会针对基于深度卷积特征多通道金字塔池化的动作识别方法以提取深度特征中的局部信息。

基于卷积神经网络的方法的主要思想是：首先，对视频采用多层的卷积层、池化层和全连接层，提取视频的描述子特征；接下来将这些特征放入分类器中进行分类，以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Annane等人提出了一种双流卷积网络用于动作识别，包括空间流和时间流网络，空间流用于提取视频帧的表观特征，时间流用于提取视频连续帧的运动特征，将二者进行融合，以此提升识别效果。Wang等人将深度卷积特征和人工特征进行融合，学习到深度特征和人工特征这两种不同类型特征的优势。以上方法都取得了较好的效果，但是现存的基于深度网络的研究通常将单张深度特征图作为一个整体来使用而忽略了深度特征中的局部信息，而这种线索对于提高基于深度网络的识别准确率是有帮助的。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于混合池化策略的深度卷积特征的动作识别方法。该方法将视频数据集的视频作为输入，进行视频特征提取和识别，最后输出视频的分类结果，该方法具有简单易实现，识别效果好的特点。

为了达到上述目的，本发明采用的技术方案是：

一种基于混合池化策略的深度卷积特征的动作识别方法，包括以下步骤：

(1)输入待识别的视频，对输入视频的每一帧，利用空间流深度网络模型得到每帧的表观特征；同时对输入视频的每连续10帧，利用时间流深度网络模型得到运动特征。其中空间流深度网络和时间流深度网络模型均包括5个卷积层，3个池化层，以及3个全连接层；

(2)对空间流深度网络模型和时间流深度网络模型得到的最后一层卷积层输出的深度卷积图采用时间滤波器池化方法得到对应的特征表示，采用不同长度间隔的时间序列，以获取视频的全局和局部运动，并采用主成分分析方法对特征进行降维，得到第一描述子特征；

同时，对空间流深度网络模型和时间流深度网络模型得到的最后一层卷积层输出的深度卷积图采用时空金字塔池化方法得到对应的特征表示，采用4层的时空金字塔结构来获取深度特征图中的局部信息，并对于目标和几何变形具有鲁棒性；同样的也采用主成分分析进行特征降维，得到第二描述子特征；

(4)对步骤(2)提取的第一、二描述子特征级联起来，形成该视频最终的向量表示；采用支持向量机(SVM)进行特征分类，最终输出分类结果，获取视频的动作识别结果，在UCF50人体行为数据集上实现了90.8％的准确率。

本发明基于深度卷积神经网络方法，并且通过探索深度特征图中的局部信息和运动信息，提出了一种新的基于混合池化策略的深度卷积特征，它能够有效地获取特征图在不同尺度下的局部信息和运动信息，显著提高了动作识别的准确率。

优选的，步骤(1)中，空间流和时间流深度网络模型将视频每帧作为输入，对原始图像做多层的卷积和池化操作，得到每层的输出都是多个深度卷积图，形成更具抽象的图像特征。

优选的，步骤(2)中，选取空间流网络和时间流网络的最后一层卷积层输出的卷积图来进行时间滤波器池化的操作，具体是对特征图采用4种不同时间间隔的滤波器(1,4,8,16)来分析深度特征在时间域的运动，其中时间间隔1对应的是整个视频范围内的时间运动也即全局运动，而时间间隔16对应的是最大尺度下的局部时间运动。对于每个不同的时间间隔，深度特征在整个视频时间范围内都会被分割成多个时间片，对每个时间片内的特征我们同时采用最大池化和求和池化方法获取该时间片内最具代表性的特征，并将这两种池化结果串联起来表示在该时间片内的运动。然后对整个时间滤波器池化后得到的视频特征进行PCA降维。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学，未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611229368.0/2.html，转载请声明来源钻瓜专利网。

上一篇：城市制图方法及装置
下一篇：一种基于嵌入式系统的实时人脸检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于混合池化策略的深度卷积特征的动作识别方法有效

专利文献下载