[发明专利]基于级联神经网络的视频动作识别及定位方法有效
| 申请号: | 201811077637.5 | 申请日: | 2018-09-15 |
| 公开(公告)号: | CN109325435B | 公开(公告)日: | 2022-04-19 |
| 发明(设计)人: | 周圆;李鸿儒;杨建兴;毛爱玲;李绰 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/82;G06V10/774;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 级联 神经网络 视频 动作 识别 定位 方法 | ||
本发明公开了一种基于级联神经网络的视频动作识别及定位方,步骤(1)、生成候选区间并扩展,把候选区间分为三类;步骤(2)、将扩展后的候选区间中的彩色图像进行结构化;步骤(3)、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F;步骤(4)、得到全局时域特征向量和全局空域特征向量ft′,fs′;步骤(5)、将全局时域特征向量和全局空域特征向量ft′,fs′输入动作分类器、完整性分类器和候选区间坐标调整器中,计算损失函数并优化网络参数;步骤(6)、得到最终预测结果即以取整后的loc+Δloci帧为中心、宽度为取整后的size+Δsizei帧的范围的第m类动作。与现有技术相比,本发明能够精准判断原始视频中从开始到结束的区间内是第几类动作。
技术领域
本发明涉及机器视觉领域视频理解,特别是涉及一种视频动作识别及定位算法。
背景技术
动作识别及定位是视频理解技术中基础的一环,它能够有效地去除视频中大量的冗余信息,自动理解视频含义并进行分类,从而减轻人工审核视频的负担。目前,某些动作识别及定位算法可以一定程度上完成动作识别的任务,但是依赖于人对包含大量冗余信息的视频进行裁剪,去除无用的背景信息,无法直接对原始视频数据进行处理;此外,现有算法无法准确定位有意义动作在原始视频中的位置,无法有效减轻人的负担。
随着深度神经网络技术的发展,许多网络模型被应用于多种图像及视频任务,展现了深度神经网络强大的特征提取能力。
发明内容
为了解决现有技术难以直接处理原始视频并精准定位有意义动作的问题,本发明提出一种基于深度神经网络的视频动作识别及定位方法,通过神经网络自动完成原始视频中有意义动作的识别及定位,以实现视频语义的自动理解。
本发明的一种基于级联神经网络的视频动作识别及定位方法,该方法包括以下步骤:
步骤1、用基于聚类算法的视频候选区间生成算法生成大量候选区间,并将原候选区间扩展至原来的两倍长度,同时把候选区间分为三类:第一类,候选区间与训练数据集中包含动作的视频片段重叠度IoU大于0.7,第二类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.3,大于0.01,第三类,候选区间与训练数据集中包含动作的视频片段重叠度IoU小于0.01;
步骤2、将扩展后的候选区间中的彩色图像进行结构化处理,本步骤的具体处理包括:将连续六帧图像作为一个视频单元,使用TVL1光流算法计算相邻两帧RGB图像之间的像素流动,生成十张光流图;将这十张光流图与从每个视频单元中随机选出的一张RGB图像作为一个视频单元时/空域特征提取网络的输入;
步骤3、利用视频单元时/空域特征提取网络进行视频单元级别的时/空域特征的提取,获得二维特征图F,本步骤的具体处理包括:所述视频单元时/空域特征提取网络包含时域GoogLeNet和空域GoogLeNet,时域GoogLeNet和空域GoogLeNet对输入层接受的数据维度参数进行了调整,其中时域GoogLeNet的输入层固定接受维度为n×10×w×h的矩阵,空域GoogLeNet的输入层固定接受维度为n×3×w×h的矩阵,其中,n为一批训练样本中图片的张数,w为图片宽度的像素数,h为图片高度的像素数,3和10代表通道数目;时域GoogLeNet和空域GoogLeNet的输出分别为时域特征图Ft和空域特征图Fs,两种特征图共同作为步骤4中全局时空特征提取网络的输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811077637.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多特征的概率主题模型的图像场景分类方法
- 下一篇:人脸识别系统及服务器





