[发明专利]一种基于视觉Transformer的多细粒度遮挡行人重识别方法在审
申请号: | 202310083676.0 | 申请日: | 2023-02-08 |
公开(公告)号: | CN116503895A | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 张静;郭权浩;刘娟秀;郝茹茜;王祥舟;杜晓辉;刘霖;刘永 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/26;G06V10/82;G06N3/08;G06N3/0455 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 transformer 细粒度 遮挡 行人 识别 方法 | ||
本发明提出一种基于视觉Transformer的多细粒度遮挡行人重识别方法,属于图像处理领域。包含一个全局分支和三个局部分支。在多分支架构的设计中,我们在通道注意力和空间注意力的基础上,通过联合交互不同细粒度分支的特征信息,设计了跨分支注意力模块,以此来强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系。在骨干网络视觉Transformer的设计中,提出特征增强模块F,其不仅能够获取到Transformer的全局感知信息,也能综合卷积操作的局部感受野,实现对图像全局特征和局部特征的把控,弥补图像中行人被不同程度遮挡带来的特征缺失问题。通过特征增强模块和跨分支注意力模块,我们的模型能够更好的适应遮挡行人重识别场景。
技术领域
本发明属于行人重识别领域,更为具体地讲,是一种基于视觉Transformer的多细粒度遮挡行人重识别方法。
背景技术
近年来,随着万物互联的发展,身份识别技术迎来蓬勃发展。除了熟知的用于访问控制、手机解锁等应用的人脸识别场景,在很多大场景下诸如大型超市,大型娱乐场所,大型交通等,现有的摄像设备难以捕捉到清晰的人脸的图像,因此基于行人图像的行人重识别技术(ReID)广泛应用于大型视野场景。目前现有的大多数行人重识别技术都基于单个完整的行人图像(图1(a)所示),但是在实际应用场景中,多数行人存在不同程度的遮挡(图1(b)所示),基于完整的单个行人图像的方法则会因为图像特征的缺失而失效。
为解决上述问题,本发明提出一种基于视觉Transformer的多细粒度遮挡行人重识别方法。这是一个包含视觉Transformer为骨干网络的多分支网络结构,包含一个全局分支和三个局部分支。在多分支架构的设计中,我们在通道注意力和空间注意力的基础上,通过联合交互不同细粒度分支的特征信息,设计了跨分支注意力模块,以此来强化各个分支之间的相互关系,调和在不同遮挡程度上,全局分支和局部分支的重要关系。在骨干网络视觉Transformer的设计中,提出特征增强模块,其不仅能够获取到Transformer的全局感知信息,也能综合卷积操作的局部感受野,实现对图像全局特征和局部特征的把控,弥补图像中行人被不同程度遮挡带来的特征缺失问题。通过特征增强模块和跨分支注意力模块,我们的模型能够更好的适应遮挡行人重识别场景。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于视觉Transformer的多细粒度遮挡行人重识别方法,利用单帧图像中行人的全局特征和局部特征信息相结合,弥补行人遮挡状态下的特征缺失导致的难以识别的问题,提升深度学习模型在遮挡行人重识别场景下的精度。
为实现上述发明目的,本文发明一种基于视觉Transformer的多细粒度遮挡行人重识别方法,包括以下步骤:
步骤1:获取用于骨干网络预训练的IMAGENET数据集,以及用于行人重识别的Market-1501、MSMT17和用于遮挡行人重识别的Occluded-DukeMTMC数据集。
步骤2:构建提取特征的视觉Transformer骨干网络,其包含设计的特征增强模块,在一个特征增强模块中包含卷积操作和激活函数堆叠的卷积层以及由多头自注意力机制和前馈神经网络组成的Former层,其具体步骤如下:
步骤2-1:将输入的数据过两个分支网络,其中一个分支为卷积层,另一个分支为多头自注意力机制和前馈神经网络组成的Former层;
步骤2-2:对于经过Former层的数据,首先通过PatchEmbedding操作将输入的行人数据进行分块,考虑到分块尺寸和行人图像的特征,我们将图像缩放为256×128大小,按照最大10%的重叠操作并设置图像的Patch尺寸为16×16,如图2所示,然后将每个Patch展平后按照batch方向合并,将图像实现向量化。此时通道维度会变成原先的6倍(因为H,W各缩小2,3倍),此时再通过一个全连接层再调整通道维度为原来的两倍。;
步骤2-3:将PatchEmbedding的输出经过LayerNorm层实现层归一化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310083676.0/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法