[发明专利]基于深度学习的视频行为识别方法有效
| 申请号: | 202110937838.3 | 申请日: | 2021-08-16 |
| 公开(公告)号: | CN113627368B | 公开(公告)日: | 2023-06-30 |
| 发明(设计)人: | 黄鹤;余佳诺;曹洪龙 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/82;G06V10/766;G06N3/0464;G06N3/047;G06N3/08;G06V10/764 |
| 代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 殷海霞 |
| 地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 视频 行为 识别 方法 | ||
1.一种基于深度学习的视频行为识别方法,其特征在于,包括:
S1.给定一个彩色输入视频,首先将其划分为T个等时长的片段,其中T为正整数,从每个片段中随机采样一帧,以获得具有T帧的输入序列;
S2.将处理后的帧图像输入到深度学习模型中,得到经过深度学习模型处理后的特征;
S3.将处理后的特征经过归一化并对时间维度求平均,得到对视频行为的分类;
其中,所述深度学习模型为差分增强网络,所述差分增强网络的基础网络为ResNet50,所述ResNet50内嵌入差分增强模块,所述差分增强模块是通过残差块的形式实现的,ResNet50的res2至res5使用的是残差块,差分增强模块分别嵌入到ResNet50的res2到res5中,且差分增强模块嵌入在ResNet50的res2至res5的第一个卷积操作前,所述残差块的残差函数为xn+1=xn+CS(xn,Wn),其中CS(xn,Wn)是差分增强部分;所述差分增强模块的方法步骤为:先对xn沿时间维求差得到差分特征,再对差分特征分别做空间注意力激活和通道注意力激活,然后将做完注意力激活的差分特征和xn做点乘以实现对xn中运动信息的增强。
2.如权利要求1所述的基于深度学习的视频行为识别方法,其特征在于,所述差分增强模块利用时间差信息,从时空和通道两个维度实现了对运动信息的增强,而且,所述差分增强模块被嵌入到了2D卷积神经网络中,从而使得所述深度学习模型具有时空信息提取能力。
3.如权利要求1所述的基于深度学习的视频行为识别方法,其特征在于,所述ResNet50具体生成方法如下:使用一个7×7的卷积层提取图像特征,由大小为[NT,3,224,224]的帧图像得到大小为[NT,64,112,112]的特征图;再通过一个下采样的最大池化层得到大小为[NT,64,56,56]的特征图,然后将得到的特征图依次通过conv2至conv5得到大小为[NT,64,7,7]的特征图,最后将得到的特征图经过平均池化再馈送到全连接层得到NT×CLS的特征,其中CLS代表视频行为的分类数,N是输入视频数量,T是每个视频的采样帧数。
4.如权利要求1所述的基于深度学习的视频行为识别方法,其特征在于,步骤S3中对输入特征进行softmax归一化操作,softmax定义为:
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到4任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到4任一项所述方法的步骤。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到4任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110937838.3/1.html,转载请声明来源钻瓜专利网。





