[发明专利]基于多时空注意力模型的视频行人重识别方法及装置有效
申请号: | 201910273362.0 | 申请日: | 2019-04-04 |
公开(公告)号: | CN110110601B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 张斯尧;谢喜林;王思远;黄晋;蒋杰;张诚 | 申请(专利权)人: | 深圳久凌软件技术有限公司 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/40;G06V10/80;G06V10/82;G06V10/74;G06N3/0455;G06N3/047;G06N3/08 |
代理公司: | 长沙德权知识产权代理事务所(普通合伙) 43229 | 代理人: | 徐仰贵 |
地址: | 518000 广东省深圳市福田区梅林街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多时 注意力 模型 视频 行人 识别 方法 装置 | ||
1.一种基于多时空注意力模型的视频行人重识别方法,其特征在于,包括以下步骤:
S1基于多空间注意力模型来定位判别视频图像行人区域;
S2基于时间注意力模型来计算由每个空间注意力模型提取的特征的聚合表示,并将聚合表示连接成最终的特征向量;
S3根据步骤S1和S2获取待识别图像的特征向量,将待识别图像的特征向量与有效地理区域范围内的视频图像的行人的特征向量对比,搜索出相似度最高的行人目标图像并输出最终重识别匹配结果;步骤S1包括:
S1.1用约束随机抽样策略进行视频图像采样;
S1.2利用采样的视频图像训练多空间注意力模型来定位判别视频图像行人区域;步骤S1.1包括:
给定一个输入视频V,将其按照相等时间划分为N个块:{Cn},n=1...N,从每个块Cn中随机地对图像In进行采样,视频由有序的一组采样帧表示{In},n=1...N;步骤S1.2包括:
从每个采样图像中提取特征,将N张图片送入预训练的ResNet50得到N×2048×8×4的特征图,并将每张图划分为32个2048维的空间特征{fn,l},l=1,L,其中L=32,对于每个空间注意力模块,将2048×32的空间特征图经过一个d个神经元的fc+ReLU降维得到d×32,然后再经过一个神经元的fc得到1×32=32个e(n,k,l);
将一张图32个空间向量经过下面的softmax得到32个空间向量的权重,每个空间向量权重表示为Sn,k,l表示第n帧、第k个空间注意力模块、第l个空间向量的权重,Sn,k成为第k个空间注意力模块的感受野,具体公式如下:
根据L个权重对L个空间特征进行加权求和,得到了第n帧、第k个空间注意力模块的特征Xn,k:
获取得到视频序列的N×K×D的空间注意力输出图;步骤S1.2还包括:
利用海林格距离来计算sn,i和sn,j的相似性,其定义为:
在对sn,i和sn,j之间的距离进行最大化的条件下,每个图像的感受野冗余的正则项是:
其中,||·||F表示矩阵的Frobenius范数,I是K维单位矩阵,该正则项Q将乘以一个系数,并添加到训练模型中的原始OIM损失中;步骤S2包括:
将N×K×D特征图经过一个神经元的fc得到N×K的,然后再在时域N上Softmax得到N×K的时域权重,tn,k表示对于第K个空间注意力模块,第n帧感受野特征的权重,其公式如下:
然后时序注意力模型被运用在每个成分上使用加权平均:
最终的判别性的区域的特征为:
将这些聚合表示连接成最终的特征向量:x=[x1,...,xK]。
2.如权利要求1所述的基于多时空注意力模型的视频行人重识别方法,其特征在于,步骤S3中通过以下公式计算相似度:
3.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1或2所述的基于多时空注意力模型的视频行人重识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳久凌软件技术有限公司,未经深圳久凌软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910273362.0/1.html,转载请声明来源钻瓜专利网。