[发明专利]基于Transformer时空建模的视频行人重识别方法有效
申请号: | 202110798721.1 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113627266B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 种衍文;陈梦成;潘少明 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/764;G06V10/80;G06V10/82;G06N3/047;G06N3/048;G06N3/084 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 时空 建模 视频 行人 识别 方法 | ||
本发明涉及一种基于Transformer时空建模的视频行人重识别方法。首先利用图像级特征网络ResNet50提取到帧级特征后,通过位置编码层给帧级特征加上位置信息以最大程度地保证视频帧的序列信息,然后将重编码后的特征经过Transformer网络完成时空建模,进而提取到更具判别性的时空特征。本发明通过给帧级特征加上位置编码,可充分利用视频片段的时序信息;利用Transformer结构将输入特征映射到三个空间进行特征融合,从而提取到更加鲁棒的时空特征,提高了网络的性能;提出了一种端到端的网络模型,实现了输入到模型到输出的应用过程,降低了基于视频的行人重识别网络模型的训练难度。
技术领域
本发明属于行人重识别领域,特别是涉及一种基于Transformer时空建模的视频行人重识别方法。
背景技术
行人重识别作为计算机视觉领域的热点问题,其主要任务是利用图像处理的相关技术完成对不同相机下图像或视频数据中特定行人的检索。近些年来,由于公共安全需求和监控网络需求的日益提高,对于行人重识别的关注及要求也随之增长。然而,在以监控网络为主的实际应用场景中,当前的主流方法还是人工分析视频数据流以提取目标信息,这种方法在面对海量数据集时会存在效率和准确率上的局限性。由此,对行人重识别技术的研究已成为一个亟待解决的问题。
实际上,行人重识别领域的工作已在静止图像上进行了广泛而深入的探索,但视频数据却未收获到同等的关注。相比于静止图像而言,视频数据可以采用更自然的方式进行重识别任务,也更符合实际应用场景。同时,视频数据包含了更丰富的运动信息,这对行人重识别的任务也是极有帮助的。然而,基于视频的行人重识别也存在着一些颇具挑战性的问题,例如,难以处理任意长度或不同帧速率的视频序列,难以在待识别的序列中精准构建外观模型,还有最关键的是难以提出一种有效的方法完成帧序列特征的聚合以提取运动信息。
视频行人重识别任务通常是给定一个人的查询视频,在系统数据库中自动化搜索识别目标人物的相关视频。在当前基于深度学习的视频行人重识别方法中,主要有三个模块会对方法效果具有决定性的影响,即图像级特征提取器、用于聚合图像级特征的时序建模模块以及用于训练网络的损失函数。特征提取和损失函数已在基于图像的行人重识别中取得了极大地进展,因此,如何设计聚合图像级特征的时序建模模块以完成运动信息的学习,就成了视频任务的当务之急。在时序建模部分的先前工作中,已经尝试了池化、循环神经网络、时序注意力网络等建模方式,结果显示丢失了时序信息的池化方式反而在时序建模任务中表现得最突出,由此可知,当前的主流时序建模方式未能实现从视频行人重识别中有效提取运动信息,我们需要针对性地提出一种更为鲁棒的时序建模方法。
综上所述,作为一种视频检索任务,在视频提供了丰富时序信息的前提下,如何提取图像级特征并根据其间的关系完成帧级特征聚合以实现对目标运动信息的建模即成为基于视频的行人重识别的关键。
发明内容
本发明针对现有技术的不足,提出了一种基于Transformer时空建模的视频行人重识别方法。首先利用图像级特征网络ResNet50提取到帧级特征后,通过位置编码层给帧级特征加上位置信息以最大程度地保证视频帧的序列信息,然后将重编码后的特征经过Transformer网络完成时空建模,进而提取到更具判别性的时空特征。
为了达到上述目的,本发明提供的技术方案是一种基于Transformer时空建模的视频行人重识别方法,包括以下步骤:
步骤1,对行人重识别视频数据集进行视频预处理,得到便于训练的视频片段;
步骤2,使用ResNet50网络提取步骤1中预处理后的视频片段的帧级特征;
步骤3,构建基于Transformer的时空建模网络,包括位置编码模块和Transformer模块;
步骤3.1,构建位置编码模块,用于给步骤2提取的帧级特征加上位置信息,以最大程度地保证视频帧的序列信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110798721.1/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法