[发明专利]一种基于密集语义对比的自监督视觉模型预训练方法在审

申请号：	202110988818.9	申请日：	2021-08-26
公开（公告）号：	CN113989582A	公开（公告）日：	2022-01-28
发明（设计）人：	王伟平;李晓倪;周宇	申请（专利权）人：	中国科学院信息工程研究所
主分类号：	G06V10/774	分类号：	G06V10/774;G06V10/764;G06V10/762;G06N3/08;G06N3/04
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	司立彬
地址：	100093 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于密集语义对比监督视觉模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于密集语义对比的自监督视觉模型预训练方法，其步骤包括：1)对于样本图像x_i，利用数据增强方法a、b分别对样本图像x_i增强后进行特征提取和映射，得到样本图像x_i中每一个像素点p_i的特征，即像素级特征以及实例级特征2)基于和进行对比学习，得到实例判别损失L_ins；基于和进行对比学习，得到像素判别损失L_pix；3)根据像素点p_i对应的正样本集计算邻居判别损失L_nei；4)对像素级特征集合v^a、v^b分别执行聚类，分别获得K个聚类集群；然后对每个集群进行对比学习，计算聚类对比损失L_KM；5)根据损失函数L＝L_ins+L_pix+L_sem对自监督视觉模型进行端到端的训练。

技术领域

本发明涉及计算机软件技术领域，具体涉及一种基于密集语义对比的自监督视觉模型预训练方法。

背景技术

随着大规模有标注数据集的使用，有监督学习的计算机视觉任务取得很高的性能，但是有标注的数据集需要大量的人工标注成本，而且经过有标注数据预训练得到的模型不够通用，再加上现实中我们面临的更多的是无标注数据，因此各种无监督方法应运而生。而自监督学习实际上是无监督学习的一个变种，是数据能够提供监督信息的一种无监督学习方式。自监督学习通过解决自定义的代理任务，进行模型的预训练，将训练好的模型进行迁移或是微调以解决特定的下游任务，如分类、检测和分割等。

从粒度上来说，目前已有的自监督学习方法可分为两个大类，一个是实例级别的学习方法，另一个是像素级别的学习方法。基于实例级别的学习方法，根据实现的方式，又可以大致分为实例判别和实例级别的语义挖掘。

实例判别的方法将每一个样本都当作单独的一类，通过对比学习，将正样本拉近(或同时将负样本推远)，从而学习特定于实例的判别性表示。着眼于实例级别的语义关系，现有的语义挖掘方法按照实现方式又可以分为两类：一类是查询邻居，另一类是深度聚类。查询邻居的方法通过发现样本锚定的邻居，以此来推理潜在的类别决策边界。深度聚类方法又可分为交替迭代和代理任务。交替迭代的方法是指对特征进行迭代聚类，并使用后续的聚类分配结果来更新深度网络；代理任务是指使用代理任务作为监督信号，同时学习标签分配和特征更新。

为了探索更适合于下游密集预测任务的复杂多前景图像预训练方法，像素级别的自监督学习从更密集的角度出发，实现像素判别。这类方法将每个像素都当作一个单独的类别，并学习像素的判别表示，显著缩小了预训练的模型和下游密集预测任务之间的差距。

1,实例判别：

实例判别的方法，把所有的样本都当作单独的一类，忽略了样本之间潜在的语义关系。换言之，这类方法将每个图像视为单独的一个类别，忽略了两个图像包含相同语义类别的前景目标的信息。

2,基于实例的语义挖掘：

目前已有的语义挖掘方法都是基于实例级别的，所以当两个图像里分别有两个不同的目标时，这类方法会简单地因为二者的整体相似度不高，而把这两个图像聚为两类，忽略了图像中不同前景目标之间的语义关系。

3,像素判别：

基于像素判别的方法，把每一个像素都当作单独的一类，彼此推远。由于每个像素的任何非线性类内变化都没有被建模，所以这类方法缺乏像素级别的语义类别判别能力。因此，这类方法仅限于单个像素水平上的中、低级别的视觉理解，在缩小预训练模型与下游密集预测任务的差距时遇到了瓶颈。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所，未经中国科学院信息工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110988818.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于密集语义对比的自监督视觉模型预训练方法在审

专利文献下载