[发明专利]一种基于知识蒸馏的弱监督视频时序行为定位方法有效

申请号：	202110887042.1	申请日：	2021-08-03
公开（公告）号：	CN113591731B	公开（公告）日：	2023-09-05
发明（设计）人：	葛永新;陈忠明;李自强;俞佳若;徐玲;黄晟;洪明坚;王洪星;杨梦宁;张小洪;杨丹	申请（专利权）人：	重庆大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/764;G06V10/774
代理公司：	重庆晟轩知识产权代理事务所(普通合伙) 50238	代理人：	王海凤
地址：	400044 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于知识蒸馏监督视频时序行为定位方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于知识蒸馏的弱监督视频时序行为定位方法，其特征在于：包括如下步骤：

S100：选取公开的已剪切视频数据集A₁，该已剪切视频数据集A₁包括多个已剪切视频，该已剪切视频数据集A₁包含C个行为类别；

S200：预设最大迭代次数，构建已剪切视频分类器模型，该已剪切视频分类器模型由特征提取模块、嵌入模块、判别模块和片段注意力模块构成；

S210：利用特征提取模块提取A₁中每个已剪切视频的视频特征，得到视频特征集

其中，B代表批次训练的样本数量，D₀代表每一帧视频提取的特征维度，T代表视频采样后的时间长度，R代表实数域；

S220：利用嵌入模块计算视频特征集F中每个视频的嵌入特征，得到嵌入特征集F_em，计算表达式如下：

F_em＝Conv1d₁(ReLU(F)) (2-1)

其中，D₁代表每一帧视频提取的特征维度；

S230：将嵌入特征集F_em作为判别模块的输入，计算每个已剪切视频中包含的每个视频片段的类激活序列P_cls，计算表达式如下：

P_cls＝Conv1d₂(ReLU(FC(F_em))) (2-2)

其中，P_cls∈R^B×T×C，C代表总的行为类别数量；

将嵌入特征集F_em作为片段注意力模块的输入，计算每个已剪切视频中包含的每个视频片段对分类决策的重要程度W₀，计算表达式如下：

W₀＝Conv1d₃(ReLU(Softmax(FC(F_em)))) (2-3)

其中，W₀∈R^B×T×1；

S240：利用每个已剪切视频中每个视频片段相对应的P_cls和W₀计算该视频片段的哈达玛积并再求和，作为该已剪切视频对所有行为类别的分类概率P_score，计算表达式如下：

P_score＝∑(P_cls⊙W₀) (2-4)

其中，P_score∈R^B×C；

S250：通过P_score计算交叉熵损失，并利用梯度下降法更新已剪切视频分类器模型中各个模块的相关参数；

S260：当训练达到最大迭代次数时得到训练好的特征提取模块、训练好的判别模块、训练好的嵌入模块和训练好的片段注意力模块，并执行S300，否则返回S210；

S300：选择公开的未剪切视频数据集A₂，该未剪切视频数据集A₂包含多个未剪切视频，该未剪切视频数据集A₂包含C个行为类别，随机选择其中一部分视频作为训练集；

S310：建立教师学生网络模型并预设训练最大迭代次数，该教师学生网络模型包括背景干扰抑制模块和特征时序对齐模块；

S320：从A₂中选择一个行为类别为a的未剪切视频V_a，利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对未剪切视频V_a进行视频特征提取并计算该未剪切视频V_a的视频嵌入特征X；

S330：从A₁中随机选择一个行为类别为a的已剪切视频TV_a和一个行为类别为k的已剪切视频TV_k，a和k相同；

S340：利用步骤S260中训练好的特征提取模块和训练好的嵌入模块分别对TV_a和TV_k进行特征提取并计算相对应的嵌入特征，并对得到的嵌入特征进行池化操作，得到TV_a的池化后嵌入特征f′_ta和TV_k的池化后嵌入特征f′_tk；

S350：将步骤S320得到的V_a的视频特征X作为背景干扰抑制模块的输入，计算V_a的前景注意力的稀疏损失和V_a的进行背景干扰抑制后的特征f_u∈R^T×2D；

S360：利用f_u计算V_a的增强特征f_en∈R^T×2D；

S370：利用V_a的增强特征f_en计算视频特征X的时序对齐相似损失和交叉熵损失

S380：计算V_a的总损失并利用梯度下降法更新教师学生网络模型中各个模块的相关参数，总损失的计算表达式如下：

其中，α、β是超参数，表示该损失所占的比重；

S390：当训练达到最大迭代次数时得到训练好的教师学生网络模型，并执行S400；否则返回步骤S320；

S400：对任一未剪切待预测视频s，预设交并比阈值t和概率阈值P；

S410：利用步骤S260中训练好的特征提取模块和训练好的嵌入模块对s进行视频特征提取并计算s的视频嵌入特征X′；

S420：利用步骤S390中训练好的教室学生网络模型对X′进行背景干扰抑制处理和特征时序对齐处理；

S430：将通过背景干扰抑制处理和特征时序对齐处理后的视频嵌入特征X′，利用步骤S260中训练好的判别模块和训练好的片段注意力模块计算得到s的视频片段的类激活序列P_cls和分类概率P_score；

S440：将s的每个视频片段的分类概率P_score与预设分类概率阈值P进行比较，筛除低于分类概率阈值P的视频片段对应的类激活序列，得到剩余行为类别组成的类激活序列P′_cls；

S450：通过线性插值方式计算新类激活序列A，计算表达式如下：

A＝interp1d(n_frames，P′_cls) (4-1)

其中interp1d表示插值函数，n_frames表示视频原有的帧数，P′_cls，A∈R^t×C′，t为经上采样后的视频帧数，C′为筛除后剩余行为类别构成的类别空间，P′_cls表示剩余行为类别组成的类激活序列；

S460：设A中行为类别为c的激活序列记为A_c，A_c中包含N个行为实例，计算A_c的算术平均值和算术平均值偏移量

S470：利用和进行多阈值划分以及膨胀操作，得到行为类别为c的行为实例的初始定位框{(s_i，e_i，c，p_i)}_i，i∈N；

其中，s_i，e_i分别为预测第i个行为实例的开始边界和结束边界，c表示该行为实例所属类别，p_i表示该行为实例的预测分数；

S480：计算{(s_i，e_i，c，p_i)}_i的置信度q_i，得到{(s_i，e_i，c，p_i)}_i的正式定位框{(s_i，e_i，c，q_i)}_i，i∈N；

S490：重复S460-S480，计算A中所有行为类别中的所有行为实例的正式定位框，得到定位框集合{(s_m，e_m，C_m，q_m)}_m，m∈M；其中，M属于整数域；

S500：预设交并比阈值t，使用非极大值抑制法处理定位框集合{(s_m，e_m，C_m，q_m)}_m得到该未剪切待预测视频s最终的时序定位结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110887042.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于知识蒸馏的弱监督视频时序行为定位方法有效

专利文献下载