[发明专利]一种基于对抗学习的弱监督时序行为定位方法在审
申请号: | 202210589976.1 | 申请日: | 2022-05-26 |
公开(公告)号: | CN114842402A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 葛永新;李自强;徐玲;洪明坚;杨梦宁;黄晟;王洪星;张小洪;杨丹 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 孔玲珑 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 学习 监督 时序 行为 定位 方法 | ||
本发明涉及一种基于对抗学习的弱监督时序行为定位方法,包括如下步骤:从公开数据集中选取未裁剪视频数据,将每个未剪切视频分解为不重复的帧片段,然后提取每个帧片段的原始特征;利用原始特征总数X计算时序连续性支流的输入特征数据Xt;计算基础支流的和时序连续性支流的类激活序列分数及类时序注意力分数;将整体模型的类时序注意力分数和类时序注意力分数进行一致性约束;计算TEN网络模型的总损失函数同时对TEN网络模型进行训练,然后得到训练好的TEN网络模型;将待预测未剪切视频数据输入到训练好的TEN网络模型中,得到对待预测未剪切视频的行为定位。通过使用本方法可以对任意待预测视频中的时序行为进行精确定位。
技术领域
本发明涉及时序行为定位领域,特别涉及一种基于对抗学习的弱监督时序行为定位方法。
背景技术
现有时序行为定位的目的在于对未剪辑视频中的行为实例,进行定位和其所属类别识别。由于其可以广泛运用到视频摘要、安全监控、高亮检测等领域,因此引起了计算机视觉社区大量研究人员的极大兴趣。对此任务,在帧级别上使用开始和结束时间戳作为监督信息的全监督方法已取得显著的研究进展。然而,随着各种网站上视频数目的快速增长,对大量的未剪辑视频中的行为实例进行人工的精确时间标注十分耗时且成本较高,难以在实际中应用。因此,引入更简便的视频级类别标签作为监督信息,使用弱监督方法进行时序行为定位近期得到了广泛关注。此类方法在减少时间戳标注成本的同时,也取得了较好的定位和识别效果。
不同于全监督定位方法,现有大多数弱监督时序行为定位方法采用一种“通过分类进行定位”的范式,即在视频级分类标签的监督训练下,分类器预测出视频每帧的类别分数,然后对每一帧的类分数应用阈值划分以此实现对行为实例的定位。由于缺少帧级别的类别标签的训练引导,分类器就容易倾向于整个视频中存在判别性信息的帧,以此提高其对视频级行为分类的性能。因此,在弱监督时序定位方法中,未剪辑视频中含有类特有信息的背景帧不可避免地会被分类器误识别为前景帧(行为帧),从而影响对背景与行为帧的区分;同时,由于分类器对类特有的背景帧的偏好关注,也相应地降低了模型对行为的建模能力。
为缓解背景内容对模型分类的干扰,研究者们也提出了一些经典的方法。由于不同视频数据间存在明显差异,因此Lee等人认为背景帧是动态的、不一致的。为此,其通过选取最低分数的K个帧作为伪背景帧,并抑制伪背景帧的特征值来建模背景的不确定性,使模型忽略背景内容且关注前景行为信息。为进一步区分类特定背景(难背景)和行为,ACSNet引入了一个辅助类别来对类特定背景帧进行建模。此外,CoLA利用丰富的时间上下文关系对难背景和简单行为片段进行挖掘选择,并对两者的特征进行对比损失约束,以引导识别模型更好地进行行为建模。上述工作都是通过主动建模背景片段,来进一步提高模型对背景与行为实例间差异的识别,从而实现精确定位。然而,这些方法在很大程度上依赖于对类特有的背景(难背景)帧进行人工假设地伪注释,但通过先验方式进行帧的伪标签标注不可避免地会导致错误标注。
以往工作是通过在帧级别上进行伪标签标注而建模背景内容。然而,背景内容的表征是出现在整个未剪辑视频中的。因而未剪辑视频中的每个片段帧都存在被视为背景内容的倾向。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:目前面对未剪辑视频中的时序行为无法进行精确定位。
为解决上述技术问题,本发明采用如下技术方案:一种基于对抗学习的弱监督时序行为定位方法,包括如下步骤:
S100:从公开数据集中选取N个未裁剪视频数据相对应的视频级类别标签为C表示行为类别数量;
S200:将每个未剪切视频分解为不重复的帧片段,所有的帧片段总数量为T且帧片段包含RGB模态和光流模态,然后使用预训练I3D模型提取每个帧片段的原始特征,所有帧片段的原始特征总数为X,其中X包括RGB模态特征和光流模态特征其中,D表示所提取特征的通道数目;
使用TEN网络模型,TEN网络模型包括基础支流和时序连续性支流两部分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210589976.1/2.html,转载请声明来源钻瓜专利网。