[发明专利]一种基于双流神经网络的人体图像动作识别方法在审
申请号: | 201711038331.4 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107862376A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 吴昊宣;吴贺俊 | 申请(专利权)人: | 中山大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/00 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双流 神经网络 人体 图像 动作 识别 方法 | ||
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种基于双流神经网络的人体图像动作识别方法。
背景技术
图像识别一直是计算机视觉中的热门研究领域,而其中的RGB人体图像动作识别,由于容易过拟合、可用于训练模型的代表性数据集较少等原因,一直是研究的重点课题。
由于单个RGB图像的识别准确率一直难以提升,因此[1]提出了一种新的神经网络模型来进行识别。该模型由两个神经网络组成,第一个为空间神经网络,输入数据为传统的单个RGB图像,第二个为时间神经网络,输入数据为与第一个网络RGB图像对应的光流图,光流图是由两张相邻时刻的RGB图像合成得到,通过计算两张图之间像素点的变化,可以得到一张含有变化信息的光流图,因此光流图可以用来记录时间信息,从而被用于时间神经网络。因此[1]通过两个网络,可以同时得到时间与空间信息,在最后将两者融合并做出最终预测,从而可以更准确地对RGB图像进行识别。接下来在[2]中,对于网络的融合进行了改进。在传统的双流神经网络[1]中,两个神经网络的融合是在最后的输出层,而[2]提出一种新模型,在两个网络的处理过程中就进行融合,经过实验这一方法确实会有更高的准确率。在上述两个模型的处理过程中,对于网络的输入始终仅限于某张图片及其对应的光流图,但并没有考虑更长时间范围内的输入,为了解决这一问题,[3]提出了一种新的模型训练方法,在此方法中,训练网络时的输入不再是单个的RGB图片及其对应的光流图,而是将整个视频切分成帧,设一共有n帧,即n张RGB图片,那么将整个视频分成3段,每段含n/3张图片,从每段中提取一张图片,然后将3段的提取内容结合在一起,再输入到网络中训练模型。由于是从整体的视频帧里提取数据,因此特征会带有全局性,能更好地用于动作识别。
对于传统的双流神经网络,缺点在于虽然模型考虑了时间特征,但此特征仅限于一小段时间以内,但很多人体动作,比如双杠,撑杆跳等,均是由一系列复杂的动作组合而成,如果仅考虑一小段时间,那么可能会仅识别到如挥手,抬腿等基本动作,而错过了真正的动作。而在之后的网络层中间融合的模型也依然没解决该问题。对于[3]提出的算法——时间分割网络(TSN),为全局信息提供了一种新的提取方法,但它的局限性在于,将视频切分后,仅从每一段提取一张图片,得到的信息太过单薄,对于复杂动作而言,可能仍然无法得到足够的时间信息,用来识别当前动作。
[1]Simonyan,Karen,and Andrew Zisserman."Two-stream convolutional networks for action recognition in videos."Advances in neural information processing systems.2014.
[2]Feichtenhofer,Christoph,Axel Pinz,and Andrew Zisserman."Convolutional two-stream network fusion for video action recognition."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016.
[3]Wang,Limin,et al."Temporal segment networks:Towards good practices for deep action recognition."European Conference on Computer Vision.Springer International Publishing,2016.
发明内容
本发明针对现有技术无法提取足够的时间信息来进行动作识别的技术缺陷,提供了一种基于双流神经网络的人体图像动作识别方法,该方法能够提取不同粒度的时间段的信息,因此相比传统模型,可以更好地处理长时间的复杂动作,对于RGB人体动作识别整体而言,本发明提供的方法能够更好地提高识别准确率。
为实现以上发明目的,采用的技术方案是:
一种基于双流神经网络的人体图像动作识别方法,包括以下步骤:
S1.构建时间神经网络和空间神经网络;
S2.为时间神经网络和空间神经网络准备足够多的训练视频,然后从训练视频中提取信息对时间神经网络、空间神经网络进行训练,提取信息的步骤如下:
S21.设对视频帧分段的次数为k,k的初始值为1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711038331.4/2.html,转载请声明来源钻瓜专利网。