[发明专利]应用于半监督环境中以在图像帧序列中执行实例跟踪的机器学习框架在审
申请号: | 202210015526.1 | 申请日: | 2022-01-07 |
公开(公告)号: | CN114792331A | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 刘思飞;Y·付;U·伊克巴尔;莎琳妮·德·梅洛;J·考茨 | 申请(专利权)人: | 辉达公司 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06N20/00;G06N3/08;G06N3/04;G06K9/62;G06V10/764;G06V10/774;G06V10/74;G06V10/82 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用于 监督 环境 图像 序列 执行 实例 跟踪 机器 学习 框架 | ||
公开了应用于半监督环境中以在图像帧序列中执行实例跟踪的机器学习框架,具体提供了一种用于在视频帧序列内跟踪实例的方法和系统。所述方法包括以下步骤:通过骨干网络处理图像帧以生成一组特征图,由一个或更多个预测头处理该组特征图,并分析与视频帧序列中的两个或更多个图像帧中的一组实例相对应的嵌入特征,以在不同图像帧中的实例之间建立一对一的相关性。一个或更多个预测头包括嵌入头,该嵌入头被配置为生成与在图像帧中识别出的对象的一个或更多个实例相对应的一组嵌入特征。所述方法还可以包括:使用一组带注释的图像帧和/或多个未标记的视频帧序列来训练一个或更多个预测头。
本申请要求于2021年1月8日提交的美国临时申请第63/135,478号的权益,其全部内容通过引用并入本文。
背景技术
实例分割是指分析视频中的图像或帧以便为图像中的各种对象分配标签。例如,可以分析图像以对图像中的背景对象和前景对象进行分类,使得每个像素属于与背景或前景相关联的一组像素。此外,可以用单独的分类来标记图像的前景中的单独对象,例如以区分图像中的不同人或将人和汽车单独标记为图像中不同对象的单独实例。已经对跨视频的多个帧跟踪多个实例的分割掩模进行了深入研究,但仍然面临两个基本挑战:(1)需要大规模的逐帧注释;(2)目前使用的两阶段方法的复杂性。
应对这一挑战的许多现有方法利用依赖于全监督学习技术的机器学习算法。为了训练这些算法,需要一组训练数据,其包括视频中完整注释的图像帧集。因为视频的注释,尤其是以每帧的方式,需要大量的手工劳动,因此全监督学习技术成为一个具有挑战性的问题。
还开发了自监督方法来从大型未标记视频集中学习像素级视频对应关系。学习到的对应关系可用于在每像素的基础上跟踪任何细粒度的属性(例如,分割掩模、关键点和/或纹理);然而,这些方法是语义无关的,这意味着这些方法不会区分不同对象的实例。换句话说,可以对视频进行处理以创建每一帧的分割图,但并没有从一帧到下一帧跟踪每一帧中的不同对象,也没有任何尝试建立一帧中对象的实例和另一帧中同一对象的实例之间的对应关系,即使该对象的外观或姿态可能会随时间发生变化。
这些技术中的每一种都受到某些限制。因此,需要改进用于跨视频帧序列跟踪实例的自动化技术。
发明内容
本公开的实施例涉及用于在视频帧序列内跟踪实例的方法和系统。机器学习框架是用一组带注释的图像帧和/或一组未标记的视频帧序列以半监督方式定义和训练的。可以预测并利用视频帧序列中每个实例的嵌入特征来跨视频帧序列跟踪唯一实例。
根据本公开的第一方面,提供一种方法,其包括以下步骤:由骨干网络处理图像帧以生成一组特征图,由一个或更多个预测头处理该组特征图,以及分析与所述视频帧序列中的两个或更多个图像帧中的一组实例相对应的所述嵌入特征,以在不同的图像帧中的实例之间建立一对一的相关性。所述一个或更多个预测头包括嵌入头,所述嵌入头被配置为生成与在所述图像帧中识别出的对象的一个或更多个实例相对应的一组嵌入特征。所述方法还包括:使用一组带注释的图像帧和/或多个未标记的视频帧序列来训练所述一个或更多个预测头。
在第一方面的实施例中,一个或更多个预测头还包括:分类头,其被配置为预测图像中多个对象类中的每个对象类的零个或更多个实例的位置;以及掩模头,其被配置为预测图像中每个实例的像素级分割掩模。
在第一方面的实施例中,所述嵌入头包括关键点嵌入头,所述关键点嵌入头包括编码器-解码器结构,其中所述编码器-解码器结构包括编码器和解码器,所述编码器包括卷积层,所述解码器包括解卷积层。
在第一方面的实施例中,一个或更多个预测头包括分类头和形状回归头,所述形状回归头被配置为基于多个关键点估计每个实例的姿态估计。
在第一方面的实施例中,骨干网络包括特征金字塔网络,并且其中该组特征图包括不同空间分辨率的多个特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210015526.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于将加压气体的罐紧固到框架上的装置
- 下一篇:一种有机废液的除臭回收方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序