[发明专利]基于对比掩码图像建模的图像分析方法与系统有效
申请号: | 202310063063.0 | 申请日: | 2023-01-18 |
公开(公告)号: | CN115797751B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 张越一;占语承;孙晓艳 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/764;G06V10/26;G06V20/70;G06N3/045;G06N3/09 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对比 掩码 图像 建模 分析 方法 系统 | ||
本发明公开了一种基于对比掩码图像建模的图像分析方法与系统,它们是一一对应的方案,方案中将对比学习和掩码图像建模结合,相比于现有的实例级的对比学习方法,本发明对图像的内部结构建模,以获得对细粒度任务友好的表示;相比现有的掩码图像建模方法,本发明在自注意力机制的引导下选择遮盖区域以及特征预测,而不是重建被随机遮盖的像素或小图像块,因此训练更加高效。因此,通过本发明提供的对比掩码图像建模方法进行网络训练后,能够有效的提取图像的表征,从而在图像分析任务中获得更好的效果;通过实验表明本发明在图像分类、目标检测、语义分割等图像分析任务中获得了优于各项现有技术的效果。
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于对比掩码图像建模的图像分析方法与系统。
背景技术
对比学习和掩码图像建模作为极具影响力的两种自监督学习方法,被广泛应用在了视觉transformer的自监督训练中。
基于对比学习的方法(Xinlei Chen, Saining Xie, and Kaiming He. Anempirical study of training self-supervised Vision Transformers. In ICCV,2021.)通过实例判别任务来进行训练,以此得到具有分辨力的全局图像特征。具体来说,该方法使用噪声对比估计来解决实例级的非参数分类问题,即每个图像样本被视为一个不同的类,然后吸引正样本,同时排斥负样本。其中正样本是原始图片经过数据增强后生成的新视图,而负样本则为其他图片。但该方式忽略了对图像内部结构的探索,不能很好地提取局部细粒度的表征。
基于掩码图像建模的方法(Hangbo Bao, Li Dong, and Furu Wei. BEiT: BERTpretraining of image transformers. arXiv:2106.08254, 2021. Accessed inJune2021.)则是先随机遮盖图像的一部分,然后利用视觉transformer模型预测或重建出遮盖部分的每个像素或图像小块。这种训练方式没有考虑到图像信息稀疏度高、信息分布不平衡的特点,导致训练效率不高,影响了提取的特征的有效性。
由于现有对比学习和掩码图像建模方案所存在的种种问题,因此,通过以上方案训练后的网络,难以在图像分析任务中有效地提取图像的表征,从而制约了图像分析任务的效果。
发明内容
本发明的目的是提供一种基于对比掩码图像建模的图像分析方法与系统,在进行图像分析过程中可以有效提取图像的表征,从而提升图像分析任务的效果。
本发明的目的是通过以下技术方案实现的:
一种基于对比掩码图像建模的图像分析方法,包括:
构建视觉网络,其包含结构相同的第一子网络与第二子网络;
基于对比掩码图像建模的方法训练所述视觉网络:将每一输入图像通过两种不同的数据增强方法进行处理,获得第一增强图像与第二增强图像,并对每一增强图像分别以图像块的形式进行分割;将分割后的第二增强图像输入至所述第二子网络,由第二子网络中的第二编码网络进行编码处理,并结合编码处理获得的信息选出一个矩形区域,利用矩形区域对所述第一增强图像中相应位置区域进行遮盖,将遮盖后的第一增强图像输入至第一子网络,由所述第一子网络中的第一编码网络进行编码处理;利用第一编码网络输出的包含遮盖区域的编码结果生成第一图像块特征与第一全局特征;利用第二编码网络输出的编码结果生成第二图像块特征与第二全局特征;将同一输入图像对应的同类型特征作为一个正样本对,其他输入图像对应的特征作为负样本,建立两个对比损失,结合两个对比损失训练所述视觉网络;
取出训练后的第一子网络中的第一编码网络,并迁移至图像分析网络;将待分析图像输入至所述图像分析网络后通过所述训练后的第一编码网络进行编码,再利用编码结果进行图像分析。
一种基于对比掩码图像建模的图像分析系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310063063.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序