[发明专利]视觉深度自适应神经网络的一维卷积位置编码方法有效
申请号: | 202110263635.0 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112801280B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 张萌;吴瑞霞;李国庆;翁东鹏;王九阳 | 申请(专利权)人: | 东南大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 沈廉 |
地址: | 214000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉 深度 自适应 神经网络 卷积 位置 编码 方法 | ||
本发明公开了一种视觉深度自适应神经网络的一维卷积位置编码方法,包括:1)将输入的批量图片分为N2个片段,图片通道数由C转换为D,并将宽高维度展开为1维;2)将通道维度与宽高维度进行置换;3)将2)结果与分类表征拼接,分类表征是一个可学习的向量;4)将3)结果进行一维卷积,将卷积结果作为位置编码,并将位置编码与3)结果进行相加;5)用1)‑4)过程作为该模型的嵌入模块,在之后使用堆叠的编码模块;6)对1)‑5)所提出的网络在大规模数据集上进行预训练;7)在预训练模型的基础上训练基准数据集。一维卷积位置编码技术经验证对于深度自适应神经网络在视觉领域应用的精度有显著提升效果。
技术领域
本发明涉及人工智能领域,尤其是深度自适应(Transformer)神经网络位置编码方法。
背景技术
Transformer模型是基于自注意力模块的一种深度神经网络模型,原本应用于自然语言处理领域。由于其强大的表达能力,研究者将Transformer应用在了计算机视觉任务,如图像识别、目标检测、语义分割等。Transformer神经网络模型在计算机视觉任务上展现了与卷积神经网络相匹敌甚至是比卷积神经网络更好的结果。
近年来谷歌的Ashish Vaswani等人提出ViT,将图片分成序列,再使用Transformer中的Embedded和堆叠的Encoder模块用于图像识别,在大数据集上预训练之后,在基准数据集上测试结果达到了与卷积神经网络相匹敌的性能;2021年依图科技提出首次全面超越ResNet,甚至轻量化版本优于MobileNet系列的T2T-ViT模型,该模型提出了一种新颖的Tokens-to-Tokens机制,用于同时建模图像的局部结构信息与全局相关性,同时还借鉴了CNN架构设计思想引导ViT的骨干设计。2020年加州大学伯克利分校的AravindSrinivas等人提出了BoTNet[13],将Transformer中的多头注意力模块用于ResNet的Bottleneck结构中,用于代替原Bottleneck中的3×3卷积,并且只在最后3个block中使用该Bottleneck Transformer Block,最终在ImageNet上的精度高达84.1%的top-1精度。Transformer在计算机视觉领域激起了研究热潮。如何让Transformer模型更加适用于视觉任务,如何提高Transformer模型的鲁棒性、如何让Transformer更具有解释性以及如何轻量化Transformer都是继续破解的课题。
Transformer中最重要的模块为自注意力模块,然而由于自注意力模块不能获取位置信息,所以必须要加上位置编码。位置编码有多种实现方式例如可学习的位置编码、正弦位置编码、2D相对位置编码等。视觉Transformer受限于固定长度的位置编码,并不能像CNN一样处理不同尺度的输入,ViT中对位置编码进行插值,使其适用于不同的图片尺寸输入,但需要微调模型以保持精度。本发明所提出的发明通过一维卷积实现位置编码,使得视觉Transformer可以更好地处理图片的位置信息,并提升模型的精度。
发明内容
技术问题:本发明所要解决的技术问题在于提供视觉深度自适应神经网络的一维卷积位置编码方法,使深度自适应神经网络可以更好地学习图片的位置信息,改变了原有位置编码对输入图像大小的限制,同时提高了模型精度。
技术方案:本发明的一种视觉深度自适应神经网络的一维卷积位置编码方法包括如下步骤:
步骤1:将批次图像维度为(B、C、H、H)进行卷积,其中B表示图片张数,C表示每张图片的通道数,H表示图片的长和宽;卷积核大小为P、步长为S、输入通道数为C、输出通道数为D,卷积后的特征图维度为(B、D、N、N),其中N=H/P;
步骤2:将步骤1结果的N、N两个维度展开为一个维度,转换后结果维度为(B、D、N2);
步骤3:对步骤2结果的D、N2两个维度进行置换,置换后结果的维度变为(B、N2、D);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110263635.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于MC-T算法的CT图像三维重建方法
- 下一篇:一种短桩路灯