[发明专利]视觉深度自适应神经网络的一维卷积位置编码方法有效
申请号: | 202110263635.0 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112801280B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 张萌;吴瑞霞;李国庆;翁东鹏;王九阳 | 申请(专利权)人: | 东南大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 沈廉 |
地址: | 214000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉 深度 自适应 神经网络 卷积 位置 编码 方法 | ||
1.一种视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于,该方法包括如下步骤:
步骤1:将批次图像维度为(B、C、H、H)进行卷积,其中B表示图片张数,C表示每张图片的通道数,H表示图片的长和宽;卷积核大小为P、步长为S、输入通道数为C、输出通道数为D,卷积后的特征图维度为(B、D、N、N),其中N=H/P;
步骤2:将步骤1结果的N、N两个维度展开为一个维度,转换后结果维度为(B、D、N2);
步骤3:对步骤2结果的D、N2两个维度进行置换,置换后结果的维度变为(B、N2、D);
步骤4:将分类表征与步骤3结果按照第二维度N2进行拼接操作,分类表征为维度(B、1、D)的随机初始化的向量,拼接后结果维度为(B、N2+1、D);
步骤5:对步骤4结果按照第三维度D进行一维卷积得到位置编码,一维卷积的卷积核大小为K,填充大小为K//2,由于采用的是特征图大小不变的卷积方式,结果的位置编码维度仍为(B、N2+1、D);
步骤6:将步骤4位置编码结果与步骤5结果进行相加,由于采用的是逐元素相加的方式,最终结果维度仍为(B、N2+1、D);
步骤7:搭建编码网络与步骤1至6一起作为一个深度自适应神经网络。
2.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤1进行卷积核大小为P、步长为S、输入通道数为C、输出通道数为D的二维卷积,相当于对批次图像的每张图片按照图片长、宽两个维度进行切割,切割大小即是卷积核大小P,并对切割后产生的N×N个片段进行嵌入,使每个片段产生维度为1×D的嵌入向量。
3.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤2,将原维度为(B、D、N、N)的特征图转换为维度为(B、D、N×N)的特征图,转换方式为将N个N维向量顺序拼接成一个N×N维向量。
4.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤3,将原维度为(B,D,N×N)的特征图转换为维度为(B,N×N,D)的特征图,转换方式采用矩阵转置。
5.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤4,将维度为(B,1,D)的分类表征向量与步骤3产生的维度为(B,N×N,D)的特征图进行拼接,拼接方式为按照第二维度进行拼接,即将1与N2拼接。
6.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤5,对步骤4产生的结果进行一维卷积,即对N×N+1个向量进行一维卷积,对单个向量进行卷积核大小为3,填充为1进行一维卷积相当于进行如下矩阵乘:
7.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述编码网络由多头自注意力模块及前向传播神经网络组成,多头自注意力模块的具体操作是,首先将输入分为H个部分,每个部分分别转换为查询矢量、键矢量及值矢量,将查询矢量与键矢量的转置进行矩阵乘用于计算相似度,之后为了有更稳定的梯度,需对结果进行缩放,缩放之后的结果再通过归一化指数函数Softmax将值转换为相似度,最后与值矢量矩阵乘;在注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接,最后经过层归一化;前向传播神经网络由两个前馈网络及一个非线性激活函数组成,非线性激活函数用高斯误差线性单元GELU。
8.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述深度自适应神经网络在搭建好之后,由于深度自适应神经网络相对于卷积神经网络模型复杂,需要在大数据集且图像分辨率大的数据集上进行训练,用于视觉对象识别软件研究的、由1400多万幅分辨率为224×224的图片组成大型可视化数据库ImageNet。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110263635.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于MC-T算法的CT图像三维重建方法
- 下一篇:一种短桩路灯