[发明专利]基于不确定性引导训练的弱监督时域动作定位方法及系统有效
申请号: | 202110227890.X | 申请日: | 2021-03-01 |
公开(公告)号: | CN112927266B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 张天柱;张勇东;杨文飞;吴枫 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06T7/269;G06T5/00;G06F16/75;G06F16/78;G06F16/783 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 任岩 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不确定性 引导 训练 监督 时域 动作 定位 方法 系统 | ||
1.一种基于不确定性引导训练的弱监督时域动作定位方法,包括:
对输入的视频进行特征提取,得到视频特征;
对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征;
对所述与目标任务适应的RGB特征和光流特征进行处理,得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征;以及
将所述聚合的视频级特征进行处理后得到视频级分类结果,完成动作定位;
所述定位方法还包括:根据所述视频级分类结果获取基础损失,并对所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失;
其中,根据所述视频级分类结果获取基础损失,包括:
根据分类结果获得视频级别分类损失;
引入注意力权重约束损失;以及
基于视频级分类损失和注意力权重约束损失,获得基础损失;
其中,对所述RGB特征和光流特征进行协同训练并得到协同训练模型网络的最终训练损失,包括:
将RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;以及
对所述二值伪标签进行降噪,并获得RGB模型网络和光流模型网络的最终训练损失,具体是 :
基于伪标签不确定性,获得噪声鲁棒损失;
所述伪标签不确定性表示为基于该不确定性,定义噪声鲁棒损失为:
根据噪声鲁棒损失,获得对应模型网络的伪标签损失;以及
将伪标签损失和基础损失结合,得到协同训练网络最终训练损失。
2.根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法,所述对输入的视频进行特征提取,得到视频特征,包括:
将输入的视频分为多个视频片段;
提取每个所述视频片段中的特征;以及
将该视频的所有片段的特征拼接在一起,作为该视频的特征。
3.根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法,所述对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征,包括:
根据所述视频特征获取与目标任务适应的RGB特征;以及
根据所述视频特征获取与目标任务适应的光流特征。
4.根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法,所述将所述RGB特征和光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签,包括给定输入XR和XF,将其输入对应的教师网络来产生注意力权重伪标签ΛRT和ΛFT,之后通过一个二值化函数G来将他们转化为二值伪标签:
其中,λi为第i个片段的注意力权重。
5.根据权利要求1所述的基于不确定性引导训练的弱监督时域动作定位方法,所述训练损失,包括:
其中t为当前迭代次数,w(t)为训练中逐渐调整的伪标签损失权重,定义如下:
为RGB和光流模型网络的基础损失,表达如下:
其中,Lcls为视频级别分类损失,表达如下:
Latt为注意力权重约束损失,表达为:
其中,yi为视频真实类别标签,为视频分类结果,N为视频片段数。
6.一种基于不确定性引导训练的弱监督时域动作定位系统,用于执行权利要求1-5任一项所述的基于不确定性引导训练的弱监督时域动作定位方法,所述基于不确定性引导训练的弱监督时域动作定位系统,包括:
基础单元,用于对输入的视频进行处理得到目标任务适应的RGB特征和光流特征,进而得到视频级分类结果并计算基础损失,所述基础单元,包括:
视频特征提取模块,用于对输入的视频进行特征提取,得到视频特征;
卷积层,用于对所述视频特征进行处理,得到目标任务适应的RGB特征和光流特征;
注意力模块,用于对所述与目标任务适应的RGB特征和光流特征进行处理,得到对应的注意力权重后加权所述视频特征获得聚合的视频级特征;以及
分类器,用于将所述聚合的视频级特征进行处理后得到视频级分类结果,并计算基础损失;以及
协同训练单元,用于根据所述RGB特征和光流特征进行协同训练并得到训练损失;所述协同训练单元包括:
RGB模型网络,用于将所述RGB特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;
光流模型网络,用于将所述光流特征处理为注意力权重伪标签后进行二值化处理获得二值伪标签;
不确定性预测分支,加于所述RGB模型网络和光流模型网络上,用于输出伪标签不确定性并获得噪声鲁棒损失;
基于噪声鲁棒损失,能够得到RGB和光流网络的伪标签损失,与上述基础损失结合后,得到协同训练单元网络最终训练损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110227890.X/1.html,转载请声明来源钻瓜专利网。