[发明专利]基于深度自注意力网络和局部特征编码的纹理识别方法有效
申请号: | 202110760949.1 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113674334B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 彭博;请求不公布姓名 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06T7/44 | 分类号: | G06T7/44;G06T9/00;G06V10/44;G06V10/54;G06V10/764;G06V10/82;G06V10/80;G06N3/04;G06N3/08 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 张磊 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 注意力 网络 局部 特征 编码 纹理 识别 方法 | ||
1.基于深度自注意力网络和局部特征编码的纹理识别方法,其特征在于具体步骤如下:
(1):给定输入图像,对其进行归一化和标准化后进行图像分块,每个图像块的大小为p*p*3,并对每个图像块进行线性变换表示成维度为D的一维向量得到输入向量z,维度为N*D,将其送入到深度自注意力骨干网络,其中N为初始划分窗口的个数,D为嵌入层将图像变换到一维空间的维度;
(2):将两种自注意力计算方法即多头自注意力模块(MSA)和基于窗口的自注意力模块WMSA串行组合,组成深度自注意力特征提取网络;基于窗口的自注意力模块WMSA的特点是在局部区域进行自注意力计算,以更多关注窗口内的局部信息计算;基于窗口的自注意力模块的机制在于将图像划分成若干个子图,在子图内计算自注意力,并且在进入下一个WMSA阶段时会对子图进行合并,扩大感受野,如每次将子图边长扩大一倍,WMSA模块会将多个子图的计算结果进行拼接,得到与多头自注意力模块MSA的全局计算结果相同的输出维度;WMSA和MSA的自注意力计算过程如下:
zl=WMSA(LN(zl-l)),
zl=MLP(LN(zl)),
zl+1=MSA(LN(zl)),
zl+1=MLP(LN(zl+1))
其中:zl-1为特征嵌入后的N个图像块,维度为N*D,z1和zl+1为经过自注意力和全连接层后的输出向量,LN为标准化操作,MLP表示两层全连接网络由用于非线性变换,MSA为自注意力模块,WMSA为基于窗口的自注意力模块,与MSA的区别在于将图像划分为若干子图进行自注意力操作并将结果进行拼接;MSA和WMSA中的自注意力计算过程如下:
其中:Q、K、V分别是输入向量与Wq、Wk、Wv三个权重相乘得到的可学习变量,然后定义h组自注意力模块并进行拼接得到多头自注意力计算结果zl;
(3):将输入向量z送入深度自注意力特征提取网络的前三个阶段进行计算,输入维度为N*D,其中N为初始划分窗口的个数,D为嵌入层将图像变换到一维空间的维度;深度自注意力特征提取网络由四个阶段组成,分别为三个基于窗口的自注意力模块和一个全局多头自注意力模块;前三个阶段使用窗口合并机制和WMSA模块,在增大模型感受野的同时在局部区域计算自注意力,提取深度局部特征,前三个模块的自注意力模块堆叠个数分别为2,2,4;每次区域合并会将区块的宽W和高度H增加一倍;经过前三个阶段的基于窗口的自注意力模块计算,输出向量x3的维度降低为n*d,其中n=N/64,d=8*d;
(4):将特征提取第三阶段输出的向量z3输入第四阶段全局多头自注意力MSA模块中,在这一阶段特征提取过程中去掉了窗口合并,包含4个连续的自注意力计算模块,计算过程同步骤(2),经过计算后输出维度不变,输出维度为n*d的特征提取向量x4,其中n=N/64,d=8*d;
(5):通过局部特征编码模块,将步骤(4)骨干网络提取出的特征进行空间重塑,将输出的n*d的二维向量转换为w*w*d的三维特征,其中w=n1/2,以恢复深度特征的空间结构,得到一个三维的特征图;
(6):通过局部特征编码模块,利用正方形窗口对三维特征图进行局部特征截取;为了获得统一的深度窗口特征,使用窗口在特征图的长度和宽度尺寸执行滑动截取;在一个窗口滑动结束后补丁的总数Np为:
其中:H和W是特征图的高度和宽度,s是滑动窗口的一次滑动的步长;为了使深度编码的特征更好地感知不同范围内的纹理变化,设计了一种多尺度的特征窗口截取策略,使用不同大小的窗口对特征图进行截取,具体的,将窗口设置为2*2,3*3和5*5,使用三种窗口在特征图上进行滑动采样;将具有相同深度和不同宽度和高度的深度局部特征块输入到纹理编码模块;
(7):将步骤(5)输入的不同尺度的窗口切块后的特征图送入到纹理编码模块进行编码,根据局部特征编码模块,对于具有Np个视觉描述符的集合X,设X={x1,x2,...,xNp},定义一个具有K个视觉词聚类中心的码本C作为模型的可学习参数,维度为K*D;对于每个描述符xi,残差向量可以表示为rij=xi-CK,其种K是字典参数C中的第K个聚类中心;与硬赋值方法不同,软赋值是通过一个softmax函数将描述符赋值给每个码字;采用可学习平滑因子学习聚类中心码本;经过码本E编码的输出向量为K*D维,表示为:
其中:a函数是对残差的赋值函数,表示为:
其中:s是可学习的平滑因子;编码方法允许输入变量具有不同的维度,并将它们编码到相同的K*D维度特征空间中;编码层输出的特征E的维度为N*K*D,其中N是被多尺度窗口采样的所有深度局部特征描述子的个数;
(8):将步骤(7)的N*K*D的编码后特征进行特征融合,将N组K*D的特征加权相加得到一个融合多尺度局部特征的纹理表示Efusion,具体表示为:
其中:Ei表示每个编码后的向量,N表示编码后向量的个数,wi是每种尺寸窗口的权重;
(9):将融合向量Efusion铺平成一个K*D的一维向量,并通过一层全连接网络输出一个维度为nclass的一维向量,nclass代表类别数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110760949.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:测试系统及方法
- 下一篇:火电厂用电用水监测和信息化管理方法