[发明专利]一种基于注意机制的卷积递归神经网络的动作识别方法有效
申请号: | 201710337015.0 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107273800B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 葛宏伟;宇文浩;闫泽航 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意 机制 卷积 递归 神经网络 动作 识别 方法 | ||
本发明属于计算机视觉动作识别领域,提出了一种基于注意机制的的卷积递归神经网络的动作识别方法,用以解决在动作识别中无法有效的提取显著性区域的问题,提高了分类的准确性。本方法首先利用卷积神经网络自动地对动作视频进行特征提取;然后利用空间转换网络在特征图的基础上实现了注意机制,利用注意机制操作提取特征图中的显著区域,生成目标特征图;最后将目标特征图输入卷积递归神经网络中,产生最后的动作识别结果。实验证明所提方法在UCF‑11和HMDB‑51等基准动作视频测试集上取得了很好的效果,提高了动作识别的准确性。
技术领域
本发明属于计算机视觉动作识别领域,涉及一种基于注意机制的卷积递归神经网络的动作识别方法。
背景技术
随着互联网的发展,视频已经成为了今天大数据中不可缺少的一部分,这促进了在视频分类方面的研究,产生了大量新颖的技术。视频与图像相比较来说拥有更为丰富且前后相关联的大量信息,这就需要能够建立好的模型去捕获其中包含的特征。当前,视频内容的理解已经成为视频处理中需要解决的问题。而深度学习的方法颠覆了传统算法在语音识别、图像分类、文本理解等众多领域的设计思路,渐渐形成了一种从训练数据出发,经过一个端到端(end-to-end)的模型,最后输出结果的新模式。这不仅让视频分类变得更加简单,而且可以大大提高了分类的准确率。这是由于深度学习能够产生更好的特征表示,而这些特征表示是通过各层之间的相互合作来实现的。在视频分类中,深度学习模型可以分为两类:基于卷积神经网络的模型和基于递归神经网络的模型。
基于卷积神经网络的模型是鉴于卷积神经网络(CNN)在图像中的成功提出来的。当前有很多的工作将CNN模型应用于视频领域中,学习视频中隐藏的时空模式。(Ji S,YangM,Yu K.3D convolutional neural networks for human action recognition[J].IEEETransactions on Pattern AnalysisMachine Intelligence,2013,35(1):221-231.)将传统的CNN的2D结构拓展到3D结构上,利用3DCNN学习视频中的时空特征,捕获多个相邻帧中编码的运动信息。(Karpathy A,Toderici G,Shetty S,et al.Large-Scale VideoClassification with Convolutional Neural Networks[C]//IEEE Conference onComputer Vision and Pattern Recognition.IEEE Computer Society,2014:1725-1732)研究了几种能够拓展CNN模型时间连通性的方法,如单帧融合、早期融合、晚期融合,同时提出了CNN的混合分辨率的架构,由低分辨率的上下文和高分辨率的流组成。这种架构可以加快训练的速度。(Annane D,Chevrolet J C,Chevret S,et al.Two-Stream ConvolutionalNetworks for ActionRecognition in Videos[J].Advances in Neural InformationProcessing Systems,2014,1(4):568-576)提出了一个双流方法,以原始的RGB帧和光流图像分别作为两个CNN的输入,利用这两个CNN模型分别提取视频中的空间特征和时间特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710337015.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种室内定位方法及定位系统
- 下一篇:一种视频多目标跟踪检测异常点的方法