[发明专利]视频时空特征学习、抽取方法、装置、设备及存储介质在审
申请号: | 202110150537.6 | 申请日: | 2021-02-04 |
公开(公告)号: | CN112507990A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 范清 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 孔默 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 时空 特征 学习 抽取 方法 装置 设备 存储 介质 | ||
本申请提供一种视频时空特征学习、抽取方法、装置、设备及存储介质,包括:获取样本视频数据集;根据预设策略对数据集中的每个样本视频进行处理,构建每个样本视频的对比样例对,对比样例对中的两个样例均是正样例;将每个对比样例对按照预设迭代策略输入预设的视频自监督对比学习孪生网络架构进行学习迭代,得到学习模型,该模型用于测试数据的视频时空特征表示的抽取。采用均是正样例的对比样例对及孪生网络架构模型学习,能从无标签数据中自动学习有鉴别力的特征,无需构建大量负样例,不需较大batch size,提高其应用广泛度。
技术领域
本申请涉及视频处理技术领域,具体而言,涉及一种视频时空特征学习、抽取方法、装置、设备及存储介质。
背景技术
图像和视频是视觉理解最重要的信息来源,这些信息帮助机器理解现实世界中物体之间以及物体与环境之间是如何相互作用的。如何学习一个良好的视觉表征,对于解决与之相关的大量下游视觉感知任务(比如图像分类、视频动作识别和视频对象检测等)是至关重要的。因此,几十年以来,很多计算机视觉研究都集中在如何学习一个“完美”的视觉特征上,从早期的SIFT特征、HOG特征到如今的深度特征。然而,学习视觉表征通常需要大量的标注数据。比如,在图像理解领域,在ImageNet大规模图像数据集上监督式的预训练一个深度网络用来提取深度特征,然后迁移到下游的分类或回归任务,已被证明是行之有效的范式。遗憾的是,由于大规模视频数据集的缺乏,这种范式无法直接应用到视频领域。理论上来讲,相比于图像,视频表征学习需要更多的训练数据,因为视频比图像具有更高维的输入,并且视频特征提取网络通常比2D的图像特征提取网络具有更多的参数。同时,视频的收集和标注比图像更昂贵,因为它们需要额外的时序标注信息。此外,在比如罕见异常事件检测中,目前甚至没有可用的标注数据。因此,在不依赖特定领域标注数据的情况下获得良好的视频特征表示,对于缺乏大规模标注数据的视觉感知任务具有重要意义。
近年来,自监督对比学习技术的进步为无监督特征表示提供了潜在的解决方案。基于自监督对比学习的特征提取方法首先对每个训练样本进行增强并构建正负样例对(来自同一张图像的两个样本互为正例,来自不同图像的两个样本互为负例),之后设计合适的对比损失函数,通过学习使高维特征空间中的正样例距离更近,负样例距离更远,以自动从未标注的数据中学习到有效的特征表示。然而,目前基于自监督学习的视频特征提取技术通常需要构造大量的负样例,而且训练过程需要使用很大的batch size(batch size是指一个批次训练所选取的样本数)来保证目标函数的收敛,这些问题限制了其广泛应用。
发明内容
本申请实施例的目的在于提供一种视频时空特征学习、抽取方法、装置、设备及存储介质,以解决现有技术中,基于自监督学习的视频特征提取技术需要构造大量的负样例,而且训练过程需要使用很大的batch size来保证目标函数的收敛,限制了其广泛应用的问题。
为了解决上述问题,本申请的实施例通过如下方式实现:
本申请实施例提供一种视频时空特征学习方法,包括:
获取样本视频数据集;
根据预设策略对数据集中的每个样本视频进行处理,构建每个样本视频的对比样例对,对比样例对中的两个样例均是正样例;
将每个对比样例对按照预设迭代策略输入预设的视频自监督对比学习孪生网络架构进行学习迭代,得到最终的学习模型,所述学习模型用于测试数据的视频时空特征表示的抽取。
在上述实现过程中,采用均是正样例的对比样例对作为输入进行学习训练、且采用孪生网络架构的模型进行学习训练得到最终的学习模型的方案,能够从无标签数据中自动学习有鉴别力的特征,使得学习训练过程无需构建大量负样例,不需要较大的batchsize,提高了其应用的广泛度,实用性高,且由于都是采用正样例,正样例都是从样本视频中提取的数据,提升了视频时空特征抽取效果的准确性,进一步可以明显提升视频特征编码相关的视频动作识别或动作检测任务的准确性。
进一步地,根据预设策略对数据集中的每个样本视频进行处理,构建每个样本视频的对比样例对包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110150537.6/2.html,转载请声明来源钻瓜专利网。