[发明专利]一种基于动态RoI特征提取的行人搜索方法在审
申请号: | 202310059406.6 | 申请日: | 2023-01-18 |
公开(公告)号: | CN116052214A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 曹家乐;董芝强;庞彦伟 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/52;G06V10/25;G06V10/82;G06N3/08;G06N3/0464 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 roi 特征 提取 行人 搜索 方法 | ||
本发明涉及一种基于动态RoI特征提取的行人搜索方法,所采用的行人搜索网络采用基于候选框生成的一步法网络框架,包括干网络,颈网络和头网络,头网络由物体检测头网络和行人重识别头网络串接组成;头网络采用多级级联架构,即将上一级网络的输出结果作为下一级网络的输入;每一级头网络的输入包括颈网络对应的特征图,候选框位置信息、候选框特征向量,包含下列步骤:准备包含不同行人的图像集,标注图像集每张图像中行人的标注信息,包括行人的身份信息和标注框信息;将图像集划分为训练集,验证集和测试集;设置训练阶段的相关超参数;训练行人搜索网络。
技术领域
本发明涉及行人跟踪、智能视频监控、智能交通等计算机视觉领域中鲁棒有效的行人搜索方法,具体是一种基于深度卷积神经网络的行人搜索的方法。
背景技术
行人搜索的任务是判断图像库或者视频序列中是否存在行人并定位和识别目标人物,行人搜索在计算机应用领域有着非常广泛的应用,比如智能视频监控、航拍图像、人机交互系统、运动分析等。图1给出了智能监控系统中行人搜索应用的示例。如图1所示为监控相机不同时间和视角下拍摄的画面。第一列图中的框表示需要搜索的目标行人,第二列和第三列为待搜索的图像。智能监控系统需要从待搜索的图像集中准确找到和定位目标行人(第二列中的框表示找到的目标行人)。由于行人易受穿着、尺度、遮挡、姿态和视角等影响,使得行人搜索成为计算机视觉领域中一个既具有研究价值又极具挑战性的课题。
作为目标检测和重识别(re-id)的联合任务,行人搜索不仅需要处理这两个单独子任务中存在的挑战,还需要共同优化两个子任务的不同目标。现有的人物搜索方法主要可以分为两步法和一步法。两步法[1,2,3]分别采用两个独立的深度卷积神经网络进行检测和重识别。在第一步中,使用检测的深度卷积神经网络从图像中检测出人。然后,使用另一个深度卷积神经网络进行基于裁剪出的人物的重识别。一步法[4,5]旨在在单个统一的深度卷积神经网络中进行目标检测和重识别。基于候选框生成的一步法[6,7]是具有先进性能的代表性方法,通常基于现代目标检测框架,如Faster R-CNN[8]。他们首先从密集的检测框中预测若干候选框,然后基于候选框提取的特征进行检测和重识别。
RoI(感兴趣区域)特征提取是基于候选框生成的行人搜索方法的一项重要步骤,它将任意大小的RoI区域转换为统一固定大小的特征。这里的感兴趣区域对应候选框在特征图上对应的区域。RoI池化是Faster R-CNN[8]使用的RoI特征提取方式,也是常规的RoI特征提取方式。如图2所示,整个背景为特征图,包围框为RoI区域,先将特征图中的RoI区域划分为k×k个子区域(图中所示为3×3个子区域),每个子区域内不进行池化,输出尺寸为k×k的RoI特征。为了能够提取更精确的特征,RoI对齐池化对RoI池化进行改进,采用均匀采样的方式对每个子区域内进行均匀采样,并采用均值池化将不同采样点的特征值融合生成该子区域的特征。这里采样点的特征值通过双线性插值操作计算得到。
RoI池化将RoI分为固定的空间区域,缺少了处理几何变换的内部机制。由于不同的位置可能对应于具有不同尺度或变形的对象,因此需要对尺度或感受野大小进行自适应确定,以实现具有精细定位的视觉识别。Deformable Convolutional Networks[9]中提出了可变形RoI池化方法,增强了深度卷积神经网络建模几何变换的能力。如图3所示,它通过附加的全连接层从经过了一次RoI对齐池化的特征图区域中学习偏移向量,为RoI池化的各个子区域添加了一个偏移量,从而实现对具有不同形状的对象的自适应定位。但是,可变形RoI对齐池化的方法需要引入一次额外的RoI对齐池化计算,明显增加了的计算量。
参考文献
[1]Chen D,Zhang S,Ouyang W,et al.Person search via a mask-guided two-streamcnn model.Proceedings of the European Conference on ComputerVision.2018:734-750.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310059406.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种储罐承台沉降倾斜监测方法及系统
- 下一篇:一种可收纳操作台