[发明专利]一种基于时间非对称三维卷积神经网络的动作识别方法在审
申请号: | 202011388145.5 | 申请日: | 2020-12-01 |
公开(公告)号: | CN112329739A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 李晓强;吴成杰;韩佳玥 | 申请(专利权)人: | 上海大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京化育知识产权代理有限公司 11833 | 代理人: | 涂琪顺 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时间 对称 三维 卷积 神经网络 动作 识别 方法 | ||
本发明公开了一种基于时间非对称三维卷积神经网络的动作识别方法,包括如下步骤:选择合适的大规模动作识别数据集;构建时间非对称三维卷积神经网络;训练时间非对称三维卷积神经网络;获取面向应用的动作识别数据;微调卷积神经网络以适用面向应用的动作识别数据集;评估面向应用的动作识别效果。本发明提出的动作识别方法仅采用单个时间非对称三维卷积神经网络用于特征提取,仅需要三通道视频图像输入,输入简单,免去了复杂输入的预处理时间,具有结构简单和识别速度快的优点,采用的时间非对称三维卷积神经网络由时间非对称三维层和其它若干层组合而成,是三维卷积神经网络的内部结构改良,具有易于实现的优点。
技术领域
本发明涉及一种卷积神经网络的动作识别方法,特别涉及一种基于时间非对称三维卷积神经网络的动作识别方法。
背景技术
动作识别是视频理解领域的基础任务,不仅可以支撑视频理解领域的各种研究和应用,其本身也具有广大的应用前景。良好的动作识别方法可以在视频监控、视频检索等应用中发挥巨大作用。
于华等人提出了基于融合改进的时间和空间网络的动作识别方法。该方法分为两个阶段,在特征提取阶段,采用了两个网络,空间网络和时间网络。其中,空间网络采用将空间仿射变换结构与卷积神经网络相结合的方式,时间网络结合改进的多帧稠密光流算法,采用与空间网络相同的方式。在分类识别阶段,采用加权求和的方式对时空特征进行融合,并采用softmax分类器进行分类。张瑞等人提出了基于多通道三维卷积神经网络的动作识别方法。它采用视频图像的灰度、x方向梯度、y方向梯度、x方向光流、y方向光流做多通道处理,通过三维卷积神经网络提取特征并进行分类识别。
目前基于卷积神经网络的动作识别方法常采用多网络或者多通道结构,网络结构复杂,输入数据需要较长时间进行预处理,虽然准确率有一定优势,但针对应用场景存在识别时间长、计算复杂、难以实现等问题。
发明内容
本发明的目的在于提供一种基于时间非对称三维卷积神经网络的动作识别方法,本发明基于时间非对称三维卷积神经网络对视频剪辑提取时空特征,以识别出视频剪辑的动作类别,可满足应用场景的准确率和性能要求,可以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于时间非对称三维卷积神经网络的动作识别方法,包括如下步骤:
第一步,选择合适的大规模动作识别数据集;
第二步,构建时间非对称三维卷积神经网络;
第三步,训练时间非对称三维卷积神经网络;
第四步,获取面向应用的动作识别数据集;
第五步,微调卷积神经网络以适用面向应用的动作识别数据集;
第六步,评估面向应用的动作识别效果。
进一步地,第一步的数据集采用公开的大规模动作识别数据集。
进一步地,第二步的时间非对称三维卷积神经网络,由时间非对称三维卷积层、池化层、全连接层组成。
进一步地,第三步的时间非对称三维卷积神经网络的训练采用了交叉熵损失函数和随机梯度下降方法,并采用周期性学习率技术控制学习率,学习率的最大值为0.1,最小值为0.001,训练时每批次有32个样本,总共训练100个周期。
进一步地,第五步中将512×400的全连接层替换为512×101的全连接层。
进一步地,第六步在评估时对每个视频剪辑采用与训练时相似的方法产生20个16帧片段,短边缩放至固定的128,长宽均112的窗口固定在中间进行剪裁,也不进行水平翻转操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011388145.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种点云彩色化算法
- 下一篇:一种基于鱼塘养殖用的多功能诱虫灯