[发明专利]一种基于时间非对称三维卷积神经网络的动作识别方法在审

申请号：	202011388145.5	申请日：	2020-12-01
公开（公告）号：	CN112329739A	公开（公告）日：	2021-02-05
发明（设计）人：	李晓强;吴成杰;韩佳玥	申请（专利权）人：	上海大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京化育知识产权代理有限公司 11833	代理人：	涂琪顺
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时间对称三维卷积神经网络动作识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于时间非对称三维卷积神经网络的动作识别方法，包括如下步骤：选择合适的大规模动作识别数据集；构建时间非对称三维卷积神经网络；训练时间非对称三维卷积神经网络；获取面向应用的动作识别数据；微调卷积神经网络以适用面向应用的动作识别数据集；评估面向应用的动作识别效果。本发明提出的动作识别方法仅采用单个时间非对称三维卷积神经网络用于特征提取，仅需要三通道视频图像输入，输入简单，免去了复杂输入的预处理时间，具有结构简单和识别速度快的优点，采用的时间非对称三维卷积神经网络由时间非对称三维层和其它若干层组合而成，是三维卷积神经网络的内部结构改良，具有易于实现的优点。

技术领域

本发明涉及一种卷积神经网络的动作识别方法，特别涉及一种基于时间非对称三维卷积神经网络的动作识别方法。

背景技术

动作识别是视频理解领域的基础任务，不仅可以支撑视频理解领域的各种研究和应用，其本身也具有广大的应用前景。良好的动作识别方法可以在视频监控、视频检索等应用中发挥巨大作用。

于华等人提出了基于融合改进的时间和空间网络的动作识别方法。该方法分为两个阶段，在特征提取阶段，采用了两个网络，空间网络和时间网络。其中，空间网络采用将空间仿射变换结构与卷积神经网络相结合的方式，时间网络结合改进的多帧稠密光流算法，采用与空间网络相同的方式。在分类识别阶段，采用加权求和的方式对时空特征进行融合，并采用softmax分类器进行分类。张瑞等人提出了基于多通道三维卷积神经网络的动作识别方法。它采用视频图像的灰度、x方向梯度、y方向梯度、x方向光流、y方向光流做多通道处理，通过三维卷积神经网络提取特征并进行分类识别。

目前基于卷积神经网络的动作识别方法常采用多网络或者多通道结构，网络结构复杂，输入数据需要较长时间进行预处理，虽然准确率有一定优势，但针对应用场景存在识别时间长、计算复杂、难以实现等问题。

发明内容

本发明的目的在于提供一种基于时间非对称三维卷积神经网络的动作识别方法，本发明基于时间非对称三维卷积神经网络对视频剪辑提取时空特征，以识别出视频剪辑的动作类别，可满足应用场景的准确率和性能要求，可以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于时间非对称三维卷积神经网络的动作识别方法，包括如下步骤：

第一步，选择合适的大规模动作识别数据集；

第二步，构建时间非对称三维卷积神经网络；

第三步，训练时间非对称三维卷积神经网络；

第四步，获取面向应用的动作识别数据集；

第五步，微调卷积神经网络以适用面向应用的动作识别数据集；

第六步，评估面向应用的动作识别效果。

进一步地，第一步的数据集采用公开的大规模动作识别数据集。

进一步地，第二步的时间非对称三维卷积神经网络，由时间非对称三维卷积层、池化层、全连接层组成。

进一步地，第三步的时间非对称三维卷积神经网络的训练采用了交叉熵损失函数和随机梯度下降方法，并采用周期性学习率技术控制学习率，学习率的最大值为0.1，最小值为0.001，训练时每批次有32个样本，总共训练100个周期。

进一步地，第五步中将512×400的全连接层替换为512×101的全连接层。

进一步地，第六步在评估时对每个视频剪辑采用与训练时相似的方法产生20个16帧片段，短边缩放至固定的128，长宽均112的窗口固定在中间进行剪裁，也不进行水平翻转操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011388145.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于时间非对称三维卷积神经网络的动作识别方法在审

专利文献下载