[发明专利]一种基于密集语义对比的自监督视觉模型预训练方法在审
| 申请号: | 202110988818.9 | 申请日: | 2021-08-26 |
| 公开(公告)号: | CN113989582A | 公开(公告)日: | 2022-01-28 |
| 发明(设计)人: | 王伟平;李晓倪;周宇 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06V10/762;G06N3/08;G06N3/04 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 密集 语义 对比 监督 视觉 模型 训练 方法 | ||
本发明公开了一种基于密集语义对比的自监督视觉模型预训练方法,其步骤包括:1)对于样本图像xi,利用数据增强方法a、b分别对样本图像xi增强后进行特征提取和映射,得到样本图像xi中每一个像素点pi的特征,即像素级特征以及实例级特征2)基于和进行对比学习,得到实例判别损失Lins;基于和进行对比学习,得到像素判别损失Lpix;3)根据像素点pi对应的正样本集计算邻居判别损失Lnei;4)对像素级特征集合va、vb分别执行聚类,分别获得K个聚类集群;然后对每个集群进行对比学习,计算聚类对比损失LKM;5)根据损失函数L=Lins+Lpix+Lsem对自监督视觉模型进行端到端的训练。
技术领域
本发明涉及计算机软件技术领域,具体涉及一种基于密集语义对比的自监督视觉模型预 训练方法。
背景技术
随着大规模有标注数据集的使用,有监督学习的计算机视觉任务取得很高的性能,但是 有标注的数据集需要大量的人工标注成本,而且经过有标注数据预训练得到的模型不够通用, 再加上现实中我们面临的更多的是无标注数据,因此各种无监督方法应运而生。而自监督学 习实际上是无监督学习的一个变种,是数据能够提供监督信息的一种无监督学习方式。自监 督学习通过解决自定义的代理任务,进行模型的预训练,将训练好的模型进行迁移或是微调 以解决特定的下游任务,如分类、检测和分割等。
从粒度上来说,目前已有的自监督学习方法可分为两个大类,一个是实例级别的学习方 法,另一个是像素级别的学习方法。基于实例级别的学习方法,根据实现的方式,又可以大 致分为实例判别和实例级别的语义挖掘。
实例判别的方法将每一个样本都当作单独的一类,通过对比学习,将正样本拉近(或同 时将负样本推远),从而学习特定于实例的判别性表示。着眼于实例级别的语义关系,现有 的语义挖掘方法按照实现方式又可以分为两类:一类是查询邻居,另一类是深度聚类。查询 邻居的方法通过发现样本锚定的邻居,以此来推理潜在的类别决策边界。深度聚类方法又可 分为交替迭代和代理任务。交替迭代的方法是指对特征进行迭代聚类,并使用后续的聚类分 配结果来更新深度网络;代理任务是指使用代理任务作为监督信号,同时学习标签分配和特 征更新。
为了探索更适合于下游密集预测任务的复杂多前景图像预训练方法,像素级别的自监督 学习从更密集的角度出发,实现像素判别。这类方法将每个像素都当作一个单独的类别,并 学习像素的判别表示,显著缩小了预训练的模型和下游密集预测任务之间的差距。
1,实例判别:
实例判别的方法,把所有的样本都当作单独的一类,忽略了样本之间潜在的语义关系。 换言之,这类方法将每个图像视为单独的一个类别,忽略了两个图像包含相同语义类别的前 景目标的信息。
2,基于实例的语义挖掘:
目前已有的语义挖掘方法都是基于实例级别的,所以当两个图像里分别有两个不同的目 标时,这类方法会简单地因为二者的整体相似度不高,而把这两个图像聚为两类,忽略了图 像中不同前景目标之间的语义关系。
3,像素判别:
基于像素判别的方法,把每一个像素都当作单独的一类,彼此推远。由于每个像素的任 何非线性类内变化都没有被建模,所以这类方法缺乏像素级别的语义类别判别能力。因此, 这类方法仅限于单个像素水平上的中、低级别的视觉理解,在缩小预训练模型与下游密集预 测任务的差距时遇到了瓶颈。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110988818.9/2.html,转载请声明来源钻瓜专利网。





