[发明专利]一种针对底层视觉任务的预训练方法在审
申请号: | 202310268248.5 | 申请日: | 2023-03-20 |
公开(公告)号: | CN116343005A | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 刘翼豪;何静雯;董超;顾津锦;孔祥涛;乔宇 | 申请(专利权)人: | 上海人工智能创新中心 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06N3/088;G06N3/0464 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏 |
地址: | 200232 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 底层 视觉 任务 训练 方法 | ||
本发明公开了一种针对底层视觉任务的预训练方法。该方法包括:构建图像退化自动编码器,该图像退化自动编码器包括编码器、解码器和退化表征器,其中编码器以退化图像作为输入,生成隐式图像表征;退化表征器用于生成包含退化信息的退化向量并传递至解码器以调制解码器的中间特征;解码器基于所述隐式图像表征,产生具有不同退化类型的输出图像;利用设定的损失函数预训练所述图像退化自动编码器;针对下游任务,对预训练的所述图像退化自动编码器进行微调,并且在微调过程中,将所述解码器替换为单个卷积层。本发明解决了现有预训练方案合理性不足、通用性差的问题,大幅提升了模型在高成本下游任务中的性能。
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种针对底层视觉任务的预训练方法。
背景技术
自监督预训练在高层视觉(high-levelvision)中取得了极大成功,例如分类、分割、检测任务等。然而,在底层视觉(low-levelvision)中,预训练仍然是一个定义不明确、不完善的问题,例如对于预训练的初衷、底层视觉预训练的核心问题、预训练的效果、底层视觉的预训练范式等,已有研究还无法给出明确的答案。
在现有技术中,涉及底层视觉的预训练方案包括IPT、EDT和HAT等,但这些方案只考虑了图像超分辨率、高斯去噪、简单模型去雨这三个下游任务,并且这些任务都是低成本任务。具体而言,IPT在ImageNet数据集上采用多任务恢复(SR+去噪+去雨)作为预训练任务,然后针对每个特定任务分别在特定的数据集上进行微调。HAT使用单任务进行预训练,并发现在ImageNet数据集上对X4超分进行预训练会带来轻微的提升(约0.1dB)。EDT提出了一种多相关任务的预训练方法,该方法在部分ImageNet(200k)数据集上训练多个高度相关的任务,例如X2、X3、X4超分。每个子任务都在较小的数据集(例如,DF2K)上进行微调。从这些方案的结果来看,在高斯去噪任务上观察到非常微小的改善(0.1dB),但这三种预训练方法都没有在下游任务上取得显著的改进,却耗费了大量的计算资源。
综上,现有技术主要存在以下缺陷:
(1)只考虑对低成本任务进行下游微调,但这类任务制造训练图像对没有限制,因此,完全可以通过收集更多干净/高分辨率的图像以及加大模型,就可以获得更好的性能。并且在相同或不同的数据集上进行两阶段的预训练和微调是多余的。更重要的是,低成本任务不会出现严重的过拟合问题,因此可能不需要预训练。
(2)现有针对底层视觉的预训练方案,其预训练任务和下游微调任务的优化目标相同。这意味着在预训练阶段学习到的表征只能有利于预训练中涉及的任务,对于新的下游任务,需要重新进行相应的预训练。因此,这些任务特定的预训练的应用范围非常有限。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种针对底层视觉任务的预训练方法。该方法包括以下步骤:
构建图像退化自动编码器,该图像退化自动编码器包括编码器、解码器和退化表征器,其中编码器以退化图像作为输入,生成隐式图像表征;退化表征器用于生成包含退化信息的退化向量并将其传递至解码器以调制解码器的中间特征;解码器基于所述隐式图像表征,产生具有不同退化类型的输出图像;
利用设定的损失函数预训练所述图像退化自动编码器;
针对下游任务,对预训练的所述图像退化自动编码器进行微调,并且在微调过程中,将所述解码器替换为单个卷积层。
与现有技术相比,本发明的优点在于,提供了一种不依赖于下游任务的底层视觉预训练新范式,在该范式下,首先破坏图像,然后进行隐式的图像重建和退化生成,这个过程需要理解自然图像的表征和退化信息,这对于通用的底层视觉任务是至关重要的。本发明可以解决现有预训练方案合理性不足、通用性差的问题,大幅提升模型在高成本下游任务中的性能。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海人工智能创新中心,未经上海人工智能创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310268248.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地下高压储气系统
- 下一篇:导管调节机构及导管驱动装置