[发明专利]基于深度学习的视频行为识别方法有效
| 申请号: | 202110937838.3 | 申请日: | 2021-08-16 |
| 公开(公告)号: | CN113627368B | 公开(公告)日: | 2023-06-30 |
| 发明(设计)人: | 黄鹤;余佳诺;曹洪龙 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/82;G06V10/766;G06N3/0464;G06N3/047;G06N3/08;G06V10/764 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 殷海霞 |
| 地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 视频 行为 识别 方法 | ||
本发明公开了一种基于深度学习的视频行为识别方法,包括:S1.给定一个彩色输入视频,首先将其划分为T个等时长的片段,其中T为正整数,从每个片段中随机采样一帧,以获得具有T帧的输入序列;S2.将处理后的帧图像输入到深度学习模型中,得到经过深度学习模型处理后的特征;S3.将处理后的特征经过归一化并对时间维度求平均,得到对视频行为的分类;其中,所述深度学习模型为差分增强网络,所述差分增强网络的基础网络为ResNet50,所述ResNet50内嵌入差分增强模块。本发明的有益效果:基于深度学习的视频行为识别系统通过差分增强模块可以得到较高的检测准确率,从而表现出超越其它相关系统的准确性。
技术领域
本发明涉及深度学习领域,具体涉及一种基于深度学习的视频行为识别方法。
背景技术
近年来,随着云计算和物联网的快速发展以及网络去中心化的普及,任何组织和机构甚至个人都可以轻松地将视频上传到网络中,而对视频进行高效准确地理解有助于人们更好地利用视频中含有的信息。视频行为识别是视频理解领域中的一个基本问题。基于深度学习的视频行为识别方法已经被证明比传统手工提取特征的方法更加高效准确,因此研究实现基于深度学习的视频行为识别符合当下的研究趋势,并在近年来逐渐发展成为计算机视觉领域的一项基础研究课题。
视频行为识别,顾名思义,指的是对视频中的行为进行识别。不同于图片,视频中的大多数行为通常是时间相关的,它不仅包含每帧内的空间信息,还包含持续帧之间的时间信息。因此,视频行为识别研究的重点在于有效合理地提取视频中的空间信息和时间信息。
现有的基于深度学习的视频行为识别方法主要分成两类:基于双流架构的方法和基于3D卷积神经网络的方法。双流架构的主要思想是:输入RGB帧的空间流进行空间建模,输入光流的时间流进行时间建模,之后将这两流信息融合并送入分类器进行识别。与单流结构相比,由于综合了帧图像和光流,双流结构的性能提升明显。但是,光流的计算代价相当高昂,且光流只表示相邻帧之间的运动特征。此外,双流结构的时间流大多采用的是2D卷积网络,缺乏对长期时间的建模能力。
3D卷积神经网络的设计思想是采用3D卷积核替代2D卷积神经网络中的卷积核,实现对时空信息的有效提取。3D卷积神经网络方法的一个优点是:随着网络结构的堆叠,3D卷积神经网络可以提取到长期的时间信息。此外,3D卷积神经网络可以直接从RGB输入中提取时空信息,这避免了计算代价高昂的光流提取过程。但是,3D卷积网络也存在着计算成本高、运算速度慢的缺点。3D卷积神经网络和双流网络是相辅相成的,但两者结合的计算成本过于高昂,难以在实际中得到广泛应用。因此,由于2D卷积神经网络轻量高效的特性,近些年的一些方法尝试在2D卷积神经网络的基础上加入时间处理方法来实现对时空信息的有效提取,但其中一些方法不具备可移植性。
传统技术存在以下技术问题:
基于双流网络的模型缺乏长期时间建模能力且光流提取的时间和空间成本都比较高;基于3D卷积神经网络的模型计算成本高、运行速度慢;部分基于2D卷积神经网络的模型缺乏对时间信息的有效提取。
发明内容
本发明要解决的技术问题是提供一种基于深度学习的视频行为识别方法,设计一种差分增强网络结构模型(TDEN),这一模型以ResNet50为基础,引入利用了时间差信息的注意力机制,解决2D卷积网络无法有效提取时间信息,识别准确率低的问题;设计一种差分增强模块通过时空和通道两方面对运动信息进行增强;设计的模块是一种即插即用型的模块,可以在各种主流2D卷积框架上使用;采用端到端的回归方式,并简化系统模型,有效减少网络参数量及计算量。
为了解决上述技术问题,本发明提供了一种基于深度学习的视频行为识别方法,包括:
S1.给定一个彩色输入视频,首先将其划分为T个等时长的片段,其中T为正整数,从每个片段中随机采样一帧,以获得具有T帧的输入序列;
S2.将处理后的帧图像输入到深度学习模型中,得到经过深度学习模型处理后的特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110937838.3/2.html,转载请声明来源钻瓜专利网。





