本发明具体涉及一种基于多粒度特征分割的车辆重识别方法,包括:将车辆图像数据集划分为训练集和测试集;构建用于车辆重识别的重识别网络模型;通过训练集中的车辆图像训练重识别网络模型;首先对车辆图像进行多方向和多粒度的分割,使得能够生成对应的全局特征向量和局部特征向量,并融合全局特征向量和局部特征向量生成对应车辆图像的外观特征向量;然后分别计算待识别车辆图像的外观特征向量与测试集中各个车辆图像外观特征向量的相似度;最后按照相似度从大到小的排序方式对测试集中的车辆图像进行排序生成对应的车辆重识别结果。本发明中的车辆重识别方法能够有效提取车辆图像全局特征和局部特征,从而提升车辆重识别的识别精度。
1.一种基于多粒度特征分割的车辆重识别方法,其特征在于,包括以下步骤:S1:获取车辆图像数据集,将所述车辆图像数据集划分为训练集和测试集;S2:构建用于车辆重识别的重识别网络模型;S3:通过训练集中的车辆图像训练所述重识别网络模型;S4:首先将待识别的车辆图像和测试集中的车辆图像分别输入经过训练的重识别网络模型中,通过重识别网络模型对车辆图像进行多方向和多粒度的分割,使得能够生成对应的全局特征向量和局部特征向量,并融合全局特征向量和局部特征向量生成对应车辆图像的外观特征向量;然后分别计算待识别车辆图像的外观特征向量与测试集中各个车辆图像外观特征向量的相似度;最后按照相似度从大到小的排序方式对测试集中的车辆图像进行排序生成对应的车辆重识别结果;步骤S2中,通过如下步骤构建重识别网络模型:S201:将ResNeSt-50作为重识别网络模型的主干网络;S202:在主干网络ResNeSt-50的各个split-attention block中嵌入空间注意力模块,使得split-attention block原有的通道注意力模块能够与对应嵌入的空间注意力模块构成注意力模块SS-Net;S203:在主干网络ResNeSt-50的Conv4_1层之后复制卷积层,使得主干网络具有三个输出;主干网络的三个输出分别连接用于实现多粒度的纵向分割、横向分割、通道分割的纵向分支、横向分支和通道分支;S204:所述纵向分支、所述横向分支和所述通道分支的输出分别依次连接用于执行全局最大池化操作的全局最大池化层,用于执行卷积操作的卷积层,以及用于执行批归一化操作的批归一化层;S205:构建得到用于车辆重识别的重识别网络模型;训练所述重识别网络模型时,所述批归一化层的输出连接用于对车辆图像进行分类的全连接层;步骤S3中,通过如下步骤训练所述重识别网络模型:S301:将训练集的车辆图像输入待训练的重识别网络模型中;S302:首先通过主干网络ResNeSt-50计算生成对应车辆图像的特征图;然后分别通过所述纵向分支、所述横向分支和所述通道分支按纵向方向、横向方向和通道方向对所述特征图进行多粒度的分割以得到不同粒度的分区条带;再依次通过所述全局最大池化层、所述卷积层和所述批归一化层对所述纵向分支、所述横向分支和所述通道分支输出的分区条带执行全局最大池化操作、卷积操作和批归一化操作,输出包含对应车辆图像全局特征向量和局部特征向量的所有特征向量;最后将车辆图像的所有特征向量输入所述全连接层中进行分类,并得到对应的图像分类结果;S303:首先将所述批归一化层输出的所有特征向量中的全局特征向量输入到设置的硬三元组损失函数中计算对应的硬三元组损失;然后将所述全连接层输出的图像分类结果输入到设置的交叉熵损失函数中计算对应的交叉熵损失;最后根据所述硬三元组损失函数和所述交叉熵损失函数联合计算对应的总体损失;S304:根据对应的总体损失函数和设置的优化器训练所述重识别网络模型;步骤S302中,主干网络ResNeSt-50生成对应车辆图像的特征图时,主干网络ResNeSt-50中的注意力模块SS-Net能够通过如下步骤挖掘更具判别性的注意力特征图:通过主干网络ResNeSt-50提取车辆图像的初始特征图FI∈RW×H×C;其中,W、H、C分别表示初始特征图的宽度、高度及通道尺寸;通过split-attention block原有的通道注意力模块Mc(FI)结合公式计算得到对应的通道注意力特征图FC;对通道注意力特征图FC执行全局最大池化处理和全局平均池化处理得到两个代表不同信息的特征图和然后将两个特征图沿通道方向进行特征拼接,并通过卷积操作进行特征融合,使用sigmoid激活函数生成空间权重矩阵MS∈RW×H×1;最后通过公式计算得到空间注意力模块MS(FC);式中:σ表示sigmoid激活函数,f7×7表示核大小为7×7的卷积运算;表示特征向量的逐元素相乘;通过公式计算生成对应车辆图像的最终注意力特征图FO∈RW×H×C;通过如下步骤计算总体损失:通过全局特征向量(gh,gw,gc)结合公式计算硬三元组损失;式中:ai、pi、nj分别表示原样本、正样本和负样本的特征向量;α表示用来约束不同类别样本距离的阈值;P表示硬三元组损失的身份数量;K表示每个身份中的图像数量;通过图
本文链接:http://www.vipzhuanli.com/tech/sell/s_2311332.html,转载请声明来源钻瓜专利网。