[发明专利]一种基于知识蒸馏的弱监督视频时序行为定位方法有效
申请号: | 202110887042.1 | 申请日: | 2021-08-03 |
公开(公告)号: | CN113591731B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 葛永新;陈忠明;李自强;俞佳若;徐玲;黄晟;洪明坚;王洪星;杨梦宁;张小洪;杨丹 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/774 |
代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 王海凤 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 蒸馏 监督 视频 时序 行为 定位 方法 | ||
1.一种基于知识蒸馏的弱监督视频时序行为定位方法,其特征在于:包括如下步骤:
S100:选取公开的已剪切视频数据集A1,该已剪切视频数据集A1包括多个已剪切视频,该已剪切视频数据集A1包含C个行为类别;
S200:预设最大迭代次数,构建已剪切视频分类器模型,该已剪切视频分类器模型由特征提取模块、嵌入模块、判别模块和片段注意力模块构成;
S210:利用特征提取模块提取A1中每个已剪切视频的视频特征,得到视频特征集
其中,B代表批次训练的样本数量,D0代表每一帧视频提取的特征维度,T代表视频采样后的时间长度,R代表实数域;
S220:利用嵌入模块计算视频特征集F中每个视频的嵌入特征,得到嵌入特征集Fem,计算表达式如下:
Fem=Conv1d1(ReLU(F)) (2-1)
其中,D1代表每一帧视频提取的特征维度;
S230:将嵌入特征集Fem作为判别模块的输入,计算每个已剪切视频中包含的每个视频片段的类激活序列Pcls,计算表达式如下:
Pcls=Conv1d2(ReLU(FC(Fem))) (2-2)
其中,Pcls∈RB×T×C,C代表总的行为类别数量;
将嵌入特征集Fem作为片段注意力模块的输入,计算每个已剪切视频中包含的每个视频片段对分类决策的重要程度W0,计算表达式如下:
W0=Conv1d3(ReLU(Softmax(FC(Fem)))) (2-3)
其中,W0∈RB×T×1;
S240:利用每个已剪切视频中每个视频片段相对应的Pcls和W0计算该视频片段的哈达玛积并再求和,作为该已剪切视频对所有行为类别的分类概率Pscore,计算表达式如下:
Pscore=∑(Pcls⊙W0) (2-4)
其中,Pscore∈RB×C;
S250:通过Pscore计算交叉熵损失,并利用梯度下降法更新已剪切视频分类器模型中各个模块的相关参数;
S260:当训练达到最大迭代次数时得到训练好的特征提取模块、训练好的判别模块、训练好的嵌入模块和训练好的片段注意力模块,并执行S300,否则返回S210;
S300:选择公开的未剪切视频数据集A2,该未剪切视频数据集A2包含多个未剪切视频,该未剪切视频数据集A2包含C个行为类别,随机选择其中一部分视频作为训练集;
S310:建立教师学生网络模型并预设训练最大迭代次数,该教师学生网络模型包括背景干扰抑制模块和特征时序对齐模块;
S320:从A2中选择一个行为类别为a的未剪切视频Va,利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频Va进行视频特征提取并计算该未剪切视频Va的视频嵌入特征X;
S330:从A1中随机选择一个行为类别为a的已剪切视频TVa和一个行为类别为k的已剪切视频TVk,a和k相同;
S340:利用步骤S260中训练好的特征提取模块和训练好的嵌入模块分别对TVa和TVk进行特征提取并计算相对应的嵌入特征,并对得到的嵌入特征进行池化操作,得到TVa的池化后嵌入特征f′ta和TVk的池化后嵌入特征f′tk;
S350:将步骤S320得到的Va的视频特征X作为背景干扰抑制模块的输入,计算Va的前景注意力的稀疏损失和Va的进行背景干扰抑制后的特征fu∈RT×2D;
S360:利用fu计算Va的增强特征fen∈RT×2D;
S370:利用Va的增强特征fen计算视频特征X的时序对齐相似损失和交叉熵损失
S380:计算Va的总损失并利用梯度下降法更新教师学生网络模型中各个模块的相关参数,总损失的计算表达式如下:
其中,α、β是超参数,表示该损失所占的比重;
S390:当训练达到最大迭代次数时得到训练好的教师学生网络模型,并执行S400;否则返回步骤S320;
S400:对任一未剪切待预测视频s,预设交并比阈值t和概率阈值P;
S410:利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对s进行视频特征提取并计算s的视频嵌入特征X′;
S420:利用步骤S390中训练好的教室学生网络模型对X′进行背景干扰抑制处理和特征时序对齐处理;
S430:将通过背景干扰抑制处理和特征时序对齐处理后的视频嵌入特征X′,利用步骤S260中训练好的判别模块和训练好的片段注意力模块计算得到s的视频片段的类激活序列Pcls和分类概率Pscore;
S440:将s的每个视频片段的分类概率Pscore与预设分类概率阈值P进行比较,筛除低于分类概率阈值P的视频片段对应的类激活序列,得到剩余行为类别组成的类激活序列P′cls;
S450:通过线性插值方式计算新类激活序列A,计算表达式如下:
A=interp1d(nframes,P′cls) (4-1)
其中interp1d表示插值函数,nframes表示视频原有的帧数,P′cls,A∈Rt×C′,t为经上采样后的视频帧数,C′为筛除后剩余行为类别构成的类别空间,P′cls表示剩余行为类别组成的类激活序列;
S460:设A中行为类别为c的激活序列记为Ac,Ac中包含N个行为实例,计算Ac的算术平均值和算术平均值偏移量
S470:利用和进行多阈值划分以及膨胀操作,得到行为类别为c的行为实例的初始定位框{(si,ei,c,pi)}i,i∈N;
其中,si,ei分别为预测第i个行为实例的开始边界和结束边界,c表示该行为实例所属类别,pi表示该行为实例的预测分数;
S480:计算{(si,ei,c,pi)}i的置信度qi,得到{(si,ei,c,pi)}i的正式定位框{(si,ei,c,qi)}i,i∈N;
S490:重复S460-S480,计算A中所有行为类别中的所有行为实例的正式定位框,得到定位框集合{(sm,em,Cm,qm)}m,m∈M;其中,M属于整数域;
S500:预设交并比阈值t,使用非极大值抑制法处理定位框集合{(sm,em,Cm,qm)}m得到该未剪切待预测视频s最终的时序定位结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110887042.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种火锅蘸料自动调配系统
- 下一篇:一种防爆型户外便携式储能电源