[发明专利]一种基于对抗学习的弱监督时序行为定位方法在审
申请号: | 202210589976.1 | 申请日: | 2022-05-26 |
公开(公告)号: | CN114842402A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 葛永新;李自强;徐玲;洪明坚;杨梦宁;黄晟;王洪星;张小洪;杨丹 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 孔玲珑 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 学习 监督 时序 行为 定位 方法 | ||
1.一种基于对抗学习的弱监督时序行为定位方法,其特征在于:包括如下步骤:
S100:从公开数据集中选取N个未裁剪视频数据相对应的视频级类别标签为C表示行为类别数量;
S200:将每个未剪切视频分解为不重复的帧片段,所有的帧片段总数量为T且帧片段包含RGB模态和光流模态,然后使用预训练I3D模型提取每个帧片段的原始特征,所有帧片段的原始特征总数为X,其中X包括RGB模态特征和光流模态特征其中,D表示所提取特征的通道数目;
使用TEN网络模型,TEN网络模型包括基础支流和时序连续性支流两部分;
S300:利用原始特征总数X计算时序连续性支流的输入特征数据Xt;
S400:计算基础支流的类激活序列分数和类时序注意力分数,以及时序连续性支流的类激活序列分数和类时序注意力分数;
S410:计算基础支流的类激活序列分数,具体步骤如下:
S411:采用时序卷积层Φr对RGB模态特征Xr进行特征编码,得到新RGB特征编码采用时序卷积层Φf对光流模态特征Xf进行特征编码,得到新光流特征编码具体表达式如下:
其中,和分别表示RGB模态和光流模态两个模态下编码的新特征,和分别表示RGB模态和光流模态两个模态的可学习参数,E表示新编码特征的通道数;
S412:通过分类器方法计算基础支流的类激活序列分数,计算表达式如下:
其中,和分别表示RGB模态和光流模态下的类激活序列分数,和是全连接层的权重参数,和分别表示RGB模态和光流模态对应的偏置项;
S413:根据RGB模态和光流模态下的类激活序列分数,计算得到基础支流的类激活序列分数
S420:采用时序注意力机制计算基础支流的类时序注意力分数,具体表达式如下:
其中,和表示RGB模态和光流模态两个模态下对应的类时序注意力分数,σ(·)表示sigmoid激活函数,和表示全连接层权重参数,和分别表示RGB模态和光流模态对应的偏置项;
S421:根据RGB模态和光流模态下的类时序注意力分数,计算得到基础支流的类时序注意力分数其中,i表示第i个帧片段特征;
S430:计算基础支流的交叉熵损失,该部分的交叉熵损失包括行为分数损失和背景分数具体步骤如下:
S431:通过将未剪切视频的类激活序列分数和类时序注意力分数进行聚合,计算未剪切视频的行为分数Pfg和背景分数Pbg,表达式如下:
其中,τ表示softmax激活函数,和均表示归一化因子,ai表示第i帧片段的行为分数,(1-ai)表示第i帧片段的背景分数;
S432:根据未剪切视频的行为分数Pfg和背景分数Pbg计算行为分数损失和背景分数表达式如下:
其中,C+1表示为背景类别标签,表示给定的真实训练类别标签;
S440:采用时序卷积层和分类器方法计算得到时序连续性支流的类激活序列分数采用时序注意力机制计算得到时序连续性支流的类时序注意力分数
S500:使用平均绝对值误差L1函数将基础支流的类时序注意力分数和时序连续性支流的类时序注意力分数进行一致性约束,计算表达式如下:
其中,G(·)表示时序维度上的高斯平滑滤波函数;
使用KL散度函数进行知识蒸馏对基础支流的类激活序列分数和时序连续性支流的类激活序列分数进行一致性约束,计算表达式如下:
其中,τ(·)表示sigmoid激活函数,表示c类别上的时序连续性支流的类激活序列分数;
S600:将和进行合并得到TEN网络模型的总损失函数Lall,表达式如下:
其中,λ和β表示控制各项损失权重平衡的超参数,表示行为损失,表示背景损失;
S700:利用S600得到的总损失函数对TEN网络模型进行训练,使用梯度反传对TEN网络模型参数进行更新,当训练达到最大迭代次数时停止训练,得到训练好的TEN网络模型;
S800:将待预测未剪切视频数据输入到训练好的TEN网络模型中,得到待预测未剪切视频的类激活序列分数和类时序注意力分数
S810:预设类激活序列分数阈值ρcls,利用softmax对yO进行归一化处理得到概率分数当时,则进行下一步;
S820:将和aO进行融合得到最终用于定位的分数序列SL,此时SL即为对待预测未剪切视频的行为定位,表达式如下:
其中,c表示待预测未剪辑视频的预测类别,ε表示超参数且被设置为0.5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210589976.1/1.html,转载请声明来源钻瓜专利网。