[发明专利]一种基于视觉Transformer的多细粒度遮挡行人重识别方法在审
申请号: | 202310083676.0 | 申请日: | 2023-02-08 |
公开(公告)号: | CN116503895A | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 张静;郭权浩;刘娟秀;郝茹茜;王祥舟;杜晓辉;刘霖;刘永 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/26;G06V10/82;G06N3/08;G06N3/0455 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 transformer 细粒度 遮挡 行人 识别 方法 | ||
1.一种基于视觉Transformer的多细粒度遮挡行人重识别方法,该方法包括:
步骤1:获取用于骨干网络预训练的IMAGENET数据集,以及用于行人重识别的Market-1501、MSMT17和用于遮挡行人重识别的Occluded-DukeMTMC数据集;
步骤2:构建提取特征的视觉Transformer骨干网络,其包含设计的特征增强模块,在一个特征增强模块中包含卷积操作和激活函数堆叠的卷积层以及由多头自注意力机制机制和前馈神经网络组成的Former层;
步骤2-1:将输入的数据过两个分支网络,其中一个分支为卷积层,另一个分支为Former层;
步骤2-2:对于经过Former层的数据,首先通过PatchEmbedding操作将输入的行人数据进行分块,考虑到行人图像的特征,我们将图像按照最大10%的重叠操作分成六个图像块,然后将每个Patch展平后按照batch方向合并,将图像实现向量化;此时通道维度会变成原先的6倍,此时再通过一个全连接层再调整通道维度为原来的两倍;
步骤2-3:将PatchEmbedding的输出经过LayerNorm层实现层归一化;
步骤2-4:构建q、k、v三个线性层,将LayerNorm的输出进行多头自注意力机制计算,将计算的结果过DropOut层输出;将输出的结果与LayerNorm的输出相加得到多头自注意力计算后的特征;
步骤2-5:将多头自注意力计算后的特征以此过LayerNorm层,MLP层;MLP是一个级联的二层线性层,通过投影的方式将输入维度扩增为原来的四倍再缩放回去,最后将MLP的输出和LayerNorm的输入相加得到Former层的输出特征;
步骤2-6:对于经过卷积层的数据,首先通过连续的两个3×3卷积和ReLU激活函数对输入图像进行特征提取;
步骤2-7:将提取的特征过1×1卷积,调整输出特征的通道数,使其保持与Former层的输出通道相同;
步骤2-8:通过Average Pooling操作调整输出特征的宽高,使其与Former层输出尺寸相同;
步骤2-9:将Former层的输出和卷积层的输出过Shared MLP层,Shared MLP层由2层级联的3×3卷积和一个ReLU激活函数组成,其目的是通过计算通道注意力融合Former层和卷积层的输出特征;
步骤2-10:将Shared MLP层输出的两个特征进行Elementwise add后通过Sigmoid激活函数得到最终的输出;
步骤3:骨干网络构建,将本发明提出的特征增强模块作为基础的TransformerEncoder块,通过添加class token和位置参数构建完成的骨干网络;
步骤3-1:通过PatchEmbedding将图像划分成均匀大小的Patch,然后通过一个线性层将Patch投射成向量;
步骤3-2:构建class token可训练参数,采用KaimingNormal的方式进行初始化,其维度与PatchEmbedding输出向量维度一致;
步骤3-3:构建位置编码参数,采用KaimingNormal的方式进行初始化,主要用于计算各个Patch之间的相互关系;
步骤3-4:构建TransformerEncoder模块,它由多个FEM堆叠而成;
步骤3-5:构建具有1000个类别的分类头以及用于分类的损失函数Softmax,完成整个用于提取特征的骨干网络构建;
步骤4:对于IMAGENET中所有的训练样本集,统一进行随机翻转,随机亮度增强,随机通道交换数据增强,设置迭代次数为300,batch-size为256,warm-up学习率为0.001,初始学习率为0.0001,经过300次迭代训练,损失值与精度趋于稳定,保存此时的最佳参数模型,作为身份重识别任务的预训练模型;
步骤5:在骨干网络下游任务构建细粒度分支和跨分支注意力模块,其含一个全局分支和三个局部分支,跨分支注意力模块能够强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系;
步骤6:构建身份重识别模型训练损失函数,其包含用于分类的损失函数和用于计算特征距离的损失函数;
步骤7:对于Occluded-DukeMTMC中所有的训练样本集,统一进行随机翻转,并将尺寸统一缩放到128×256,设置迭代次数为160,batch-size为64,warm-up学习率为0.001,初始学习率为0.0001,经过300次迭代训练,损失值与精度趋于稳定,保存此时的最佳参数模型;
步骤8:对于Occluded-DukeMTMC所有的测试样本集,进行批量测试,输入图片分辨率大小为128×256,计算其平均精度mAP以及Rank1进行评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310083676.0/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法