[发明专利]一种基于线性自注意力Transformer的图像分类方法在审
申请号: | 202210386842.X | 申请日: | 2022-04-13 |
公开(公告)号: | CN114818889A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 王则林;徐昂;陈方宁;张玮业;刘欣珂 | 申请(专利权)人: | 南通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06V10/764;G06V10/82 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 王毅 |
地址: | 226019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 线性 注意力 transformer 图像 分类 方法 | ||
本发明涉及计算机视觉技术领域,具体涉及一种基于线性自注意力Transformer的图像分类方法。包含以下步骤:S1:将图片送入到第一个stage的重叠卷积编码模块,利用卷据运算将图片编码为图片令牌;S2:将图片令牌送入该stage中Transformer模块中,提取图片特征向量;S3:将提取的图片特征向量送入到下一个stage的重叠卷积编码模块,减少特征向量数量的同时增加特征向量维度;S4:重复进行S2和S3,从最后一个stage的Transformer模块中的到最终输出向量;S5:通过分类器单元将最终的输出向量转化成概率表示,完成图像分类。本发明既能够的有效的从图片中提取图片特征又显著的降低了Transformer模块的计算复杂度,又通过重叠卷积编码模块和卷积前馈神经网络模块提高模型提取的图片特征的能力。
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于线性自注意力Transformer的图像分类方法。
背景技术
从AlexNet在ImageNet分类挑战中取得革命性的表现开始,CNN网络架构得到迅速的发展。此后,人们提出了更深、更有效的卷积网络结构进一步推动了计算机视觉领域深度学习的浪潮,例如VGG、GoogleNet、Resnet、DenseNet、HRNet和EfficientNet。CNN及其变体成为了是计算机视觉应用的主要主干架构。
Transformer是由谷歌团队在2017年首次提出,用于自然语言处理(NLP)领域中的翻译任务。它能够通过使用多头注意力机制对远程依赖关系进行建模并能够进行并行计算提升计算效率。因此Transformer模型迅速取代了RNN成为NLP领域的首选架构。然而在计算机视觉领域(CV)中,卷积神经网络架构依然占据主导地位,受到Transformer在NLP领域取得巨大成功的激励,研究者们开始尝试将Transformer应用到计算机视觉任务中。在2020年,Carionet等人提出了DETR,它将目标检测视为一个直接集预测问题,并使用Transformer Encoder-Decoder体系结构解决它。在COCO目标检测数据集上,DETR在大型目标检测上的性能优于Faster-RCNN,但在小目标上不如。在2020年,Dosovitskiy等人首次尝试直接将标准的Transformer模型应用于图像分类任务中,并做尽量少的修改,称之为视觉转换器(Vision Transformer)ViT。ViT首先将图像按固定大小划分为不重叠的patch块,并将这些patch块标记为一系列视觉token。然后将这些视觉token直接到送入到标准Transformer中的Encoder模块,这些视觉token的处理方式与NLP中的token一样,再根据Encoder模块的输出进行图像分类。当先在大型数据集JFT-300M进行预训练后,ViT可以在多个图像识别任务集上取得接近或者超过最新水平。2021年,HugoTouvron等人提出了训练数据增强方法以及基于蒸馏令牌的蒸馏策略,用来高效的训练ViT模型,称之为DeiT。DeiT通过一组优秀超参数以及蒸馏训练策略,仅仅使用86M的参数就在ImageNet数据集上取得了83.1%的准确率。随后LiYuan等人认为ViT对图像块的标记化方法过于简单,不能充分建模图像中的边缘和线条等局部信息。因此,提出了一种新颖的渐进式标记化方法,将相邻标记的信息聚合到一个标记中,称之为T2T。当预训练图像的分辨率为384×384时,T2T仅用21.5M的参数就在ImageNet数据集上取得了83.3%的准确率。
ViT模型及其变体在大型数据集进行预训练后,能够在许多图像分类任务集上取得很好的效果。但ViT模型也存在很多缺点。由于自我注意力机制是Transformer架构的关键组成部分,而自我注意力机制的计算复杂度是同输入的token数量呈二次关系。因此当输入的图像分辨率太高,使用ViT进行图像分类所需进行的计算量会很大。并且ViT相比卷积神经网络缺少平移不变性和局部性等归纳偏置,因此ViT模型训练所需的数据量大于卷积神经网络需要的数据量。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210386842.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高压水射流去毛刺机
- 下一篇:一种用于江心洲和河漫滩的人工湿地系统
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法