[发明专利]基于时空重要性和3D CNN的视频中行为识别方法有效
申请号: | 201910365711.1 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110110651B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 王晓芳;臧升睿;任洁;郑亚雯 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/774;G06V30/19;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 赵玉凤 |
地址: | 250399 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时空 重要性 cnn 视频 行为 识别 方法 | ||
1.基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:包括以下步骤:
S01)、构建一个行为识别模型,用于判别输入视频中正在发生的行为类别,行为识别模型包括视频分割模块、3D CNN模块、空域重要位置选择模块、时域重要片段选择模块和类别判定模块,视频分割模块将输入的行为视频在时域进行分割得到多个视频片段;3D CNN对分割后的每个视频片段进行特征提取与分类,从其中一个卷积层输出片段特征图,从softmax层输出片段的类别分值;空域重要位置选择模块根据每个片段特征图计算其空域位置的重要性,再利用位置重要性对特征图中各个位置的局部特征进行空域选择,得到片段特征;时域重要片段选择模块根据视频每个片段特征计算其重要性,再依据片段重要性对视频各个片段的类别分值进行时域选择,得到视频的类别分值;类别判定模块将分值最大的类别判定为当前视频中行为的类别;
S02)、利用大量已知类别的行为视频作为样本构建训练数据集,并将其中每个视频的空域尺寸缩放到固定大小;
S03)、基于步骤S02构建的训练数据集,采用分阶段的方式对步骤S01中的行为识别模型进行训练,使其具有自动选择时域重要片段和空域重要位置的信息进行行为识别的能力;
S04)、将待识别的行为视频的空域尺寸缩放到固定大小,再输入到训练后的行为识别模型,模型输出视频中行为的类别;
步骤S01)中,空域重要位置选择模块包括全连接层、softmax层和特征加权求和子模块,全连接层根据3D CNN输出的片段特征图中每个空域位置局部特征计算该位置的重要性,第l个片段特征图中第k个空域位置局部特征xl,k输入到全连接层,全连接层输出该位置的重要性为wp为权重向量,bp为偏置,(xl,k)T表示xl,k的转置;softmax层对特征图中所有空域位置的重要性进行归一化,归一化后的值为K为位置总数;特征加权求和子模块以归一化的重要性为权值对特征图中所有空域位置的局部特征加权求和,得到经空域重要性选择的片段特征,第l个片段特征为
2.根据权利要求1所述的基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:步骤S01中,视频分割模块在时域按照相等的间隔将整个视频分割成给定数目的子视频,对每一个子视频,利用随机的方法确定一个时域位置,再从该位置开始向前或者向后截取一定数目的连续帧构成视频片段,所有子视频的片段按照时间顺序组成一个片段序列。
3.根据权利要求1所述的基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:步骤S01)中,时域重要片段选择模块包括一个全连接层、两个softmax层和一个类别分值加权求和子模块,全连接层神经元个数为行为类别数C,全连接层根据空域重要位置选择模块输出的片段特征计算每个片段对所有行为类别的重要性,第l个片段特征输入到全连接层,全连接层输出该片段对所有行为类别的重要性为是第l个片段对第c个类别的重要性,1≤c≤C,Ws为权重矩阵,bs为偏置向量;第一个softmax层对所有片段的重要性进行归一化,归一化后的值为L为片段总数;类别分值加权求和子模块以归一化的重要性为权值对视频所有片段的同一类别分值加权求和,得到经时域重要性选择的视频类别分值,视频第c个类别的分值为sl,c为第l个片段对第c个类别的分值;第二个softmax层将视频所有类别分值进行归一化,sc′归一化后的值为
4.根据权利要求1所述的基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:步骤S03中,训练参数包括3D CNN的参数、空域重要位置选择模块中的全连接层参数、时域重要片段选择模块中的全连接层参数。
5.根据权利要求4所述的基于时空重要性和3D CNN的视频中行为识别方法,其特征在于:模型训练包括以下步骤:
S31)、初始化模型的训练参数;
S32)、将模型中的空域重要位置选择模块和时域重要片段选择模块的参数设置为不可训练,将空域位置重要性和片段重要性固定为等概率分布,利用训练数据集对模型中3DCNN的参数进行训练;
S33)、将模型的所有训练参数设置为可训练,取消空域位置重要性和片段重要性的等概率分布设置,设置模型中3D CNN的学习速率远小于空域重要位置选择模块和时域重要片段选择模块的学习速率,利用训练数据集对模型的所有训练参数进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910365711.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:行人中的人脸识别方法
- 下一篇:一种目标检测方法、电子设备及存储介质