[发明专利]一种构建基于ViT模型的密集预测任务适配器的方法在审

申请号：	202210365639.4	申请日：	2022-04-08
公开（公告）号：	CN114781499A	公开（公告）日：	2022-07-22
发明（设计）人：	陈喆;段雨辰;王文海;何军军;路通;代季峰;乔宇	申请（专利权）人：	上海人工智能创新中心
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	北京市诚辉律师事务所 11430	代理人：	耿慧敏;朱伟军
地址：	200000 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种构建基于 vit 模型密集预测任务适配器方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种构建基于ViT模型的密集预测任务适配器的方法。该方法包括：获取预训练ViT模型，该ViT模型包含用于将图像切分为不重叠的图像块的多个ViT分块；在ViT模型外部增设适配器，该适配器包含先验模块以及多个交替串联的注入器和特征提取器，所述先验模块用于获得输入图像的空间先验特征，所述注入器和特征提取器成对出现，将ViT模型按照层数分为层数相同的N块，每一个ViT分块配备一对注入器和特征提取器；加载ViT模型的预训练权重，并在密集预测任务上利用所述适配器微调该ViT模型的参数。本发明通过在ViT模型之外额外增加一个适配器网络，使其能够快速适配下游的密集预测任务。

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种构建基于ViT模型的密集预测任务适配器的方法。

背景技术

计算机视觉领域的密集预测任务是根据输入图像，预测出每个像素的目标值或回归计算出一个特征图的任务。例如，目标检测任务要求预测图像中每个物体的类别和位置，语义分割任务要求预测图像中每个像素的类别，深度估计任务要求预测每个像素的深度值等。

Transformer(转换器)是一种基于自注意力机制的深度神经网络，常用于自然语言处理领域。受到Transformer建模能力的启发，一些研究人员试图将Transformer引入计算机视觉相关的任务。例如，ViT(Vision Transformer，视觉转换器)模型首先将图像切块，然后将图像块序列直接输入纯Transformer架构。得益于自注意力机制对输入数据有强大的动态特征提取能力，且能处理长距离的数据依赖，ViT模型在多个图像分类数据集上取得了优越的性能。ViT是直接将Transformer应用于图像分类的模型，该方法通常直接将图像切分为大小为16*16像素的不重叠图像块，然后将每个图像块的所有像素展平排列为一个向量，再通过线性变换得到图像块的编码表示。但由于ViT模型缺少对图像任务的归纳偏置(先验知识)，将其直接应用在密集预测任务上效果不佳。因此，目前在密集预测任务上取得最佳效果的模型通常是修改了ViT网络结构、引入了图像空间先验的图像专用模型，例如使用滑窗注意力机制、将模型改为金字塔结构等方案。

目前，适配器的设计模式在自然语言处理领域得到了广泛的应用。许多自然语言处理任务的适配器通过在Transformer编码器中引入任务相关的模块进行微调，从而使得预训练的模型能够快速迁移到自然语言处理的下游任务。在计算机视觉领域，也有一些用于增量学习和域适应的适配器。在视觉语言模型领域，近期也提出了一些适配器，用于迁移预训练的知识到零样本与少样本的下游任务。例如，有研究者提出给ViT模型添加一些额外的上采样和下采样模块，从而生成多尺度的特征，这种技术也可以看作是ViT模型的一种简单的多尺度适配器。但是，这种方案的在密集预测任务上的性能仍然弱于引入了图像先验知识的图像专用网络。因此，如何设计一个强大的适配器，改善ViT模型在密集预测任务上的性能，仍然是一个极具挑战性的课题。

经分析，现有技术的主要缺点如下：

1)不能使用多模态数据预训练。ViT模型得益于其弱化图像归纳偏置的设计，可以处理多种模态的数据，包括文本、图像、视频。通过多种模态数据的预训练，可以使得模型提取的特征具有更丰富的语义信息。但现有的图像专用模型不能使用多模态数据预训练，主要是通过在模型结构中引入具有图像空间先验的算子，从而改善其在密集预测任务上的性能，但这使得模型失去了处理多模态数据的灵活性。

2)不能加载预训练权重。在训练密集预测任务之前，对模型进行大规模数据的预训练，可以加快模型收敛、提升模型性能。而现有技术中，如果修改ViT模型结构会导致无法加载已经公开发布的预训练权重，如果重新对新设计的模型结构进行预训练，会导致时间、计算资源成本均大大上升。

综上，目前基于ViT模型改进的变体方案灵活性较差，无法加载现有ViT模型的预训练权重，并且难以利用多模态数据进行预训练，包括图像、视频与文本等。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海人工智能创新中心，未经上海人工智能创新中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210365639.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种构建基于ViT模型的密集预测任务适配器的方法在审

专利文献下载