[发明专利]基于3D卷积神经网络的动作识别方法和装置有效
申请号: | 201711097227.2 | 申请日: | 2017-11-09 |
公开(公告)号: | CN107766839B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 季向阳;吴嘉林;杨武魁;王谷 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 11277 北京林达刘知识产权代理事务所(普通合伙) | 代理人: | 刘新宇 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 动作 识别 方法 装置 | ||
本公开涉及一种基于神经网络的动作识别方法和装置,所述方法包括:将待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果;将所述待识别视频输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果;根据所述待识别视频的动作实例检测结果和所述待识别视频的动作类别判别结果,确定所述待识别视频的动作类别。利用两个三维神经网络模型得到的不同的识别结果进行结合,可以提高三维神经网络模型的识别效率,减小单个三维神经网络模型的计算量。
技术领域
本公开涉及神经网络技术领域,尤其涉及一种基于神经网络的动作识别方法和装置。
背景技术
动作定位一般分为两种,一种是仅在空间中定位,另一种是时空同时定位。在较长且有多个动作执行人同时做动作的视频中,不同的动作实例之间相互影响,重叠。由于神经网络得到的是关于类别的泛化表达,所以传统基于神经网络的定位方法难以区分这些相互交叠动作。
在传统的动作定位方法中,一种典型的二维加时间的动作定位框架是在每一帧中检测在移动的人,再在不同的帧间将这些检测出来的人连接在一起,形成一个动作实例。这些算法在检测人的时候仅能够考虑到一帧中的外表特征和动作特征,就导致了神经网络的时间感受域大大减小,动作幅度小的动作与背景难以分开。另外,在评判每一个检测人的检测框时候,由于算法逐帧进行,所以检测框都必须单独通过网络。这导致了计算消耗大大增加。另外,多个动作实例使得在回归出来的得分图中的响应是交叠在一起的,导致普通的三维动作定位的方法难以对多个动作实例进行定位。
发明内容
有鉴于此,本公开提出了一种基于神经网络的动作识别方法和装置,用以提高基于神经网络的动作识别方法的准确率和检测效率。
根据本公开的另一方面,提供了一种基于神经网络的动作识别方法,所述方法包括:
将待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;
根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果;
将所述待识别视频输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果;
根据所述待识别视频的动作实例检测结果和动作类别判别结果,确定所述待识别视频的动作类别。
在一种可能的实现方式中,所述待识别视频的动作提取结果,包括;
所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率,以及
所述待识别视频中的动作起始帧和动作结束帧。
在一种可能的实现方式中,根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果,包括:
根据所述待识别视频中每帧图像的第一概率,以及所述待识别视频中的动作起始帧和动作结束帧,计算每帧图像中的动作检测框;
根据所述动作检测框计算每帧图像间的检测框匹配值;
根据所述检测框匹配值,确定所述待识别视频的动作实例检测框。
在一种可能的实现方式中,所述待识别视频的动作类别判别结果,包括:
每帧图像上的像素所对应的动作类别概率。
在一种可能的实现方式中,根据所述待识别视频的动作实例检测结果和动作类别判别结果,确定所述待识别视频的动作类别,包括:
在每帧图像上的像素所对应的动作类别概率中,确定所述动作实例检测框中的像素所对应的动作类别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711097227.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:烹饪器具
- 下一篇:食物料理机和食物料理方法