[发明专利]基于迁移网络的无监督图像视频行人重识别的方法及系统有效
申请号: | 201910227955.3 | 申请日: | 2019-03-25 |
公开(公告)号: | CN109948561B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 荆晓远;张新玉;李森;黄鹤;姚永芳;訾璐;彭志平 | 申请(专利权)人: | 广东石油化工学院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 525000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于行人重识别技术领域,公开了一种基于迁移网络的无监督图像视频行人重识别的方法及系统,将源域中图像和视频数据集用改进后的三元组网络分别进行特征提取;使用源域数据集和目标域训练集训练生成对抗网络;根据目标训练集中待识别的行人图像Iti使用训练好的生成对抗网络,生成深度特征;计算图像的深度特征与目标域中视频的深度特征之间的欧氏距离;选择与查询图像距离最近的视频,打上与图像相同的类标记。本发明使用无监督的方法消除了图像和视频之间的鸿沟,大大节省了标记成本,提高了行人重识别的效率;通过对不同模态图像和视频进行无监督深度学习,有效提高了跨模识别的效率。 | ||
搜索关键词: | 无监督 图像 深度特征 视频 图像视频 网络 目标域 源域 迁移 标记成本 查询图像 距离最近 模态图像 目标训练 欧氏距离 视频数据 特征提取 三元组 数据集 训练集 对抗 改进 学习 | ||
【主权项】:
1.一种利用跨模特征生成和目标信息保留的迁移网络的无监督图像视频行人重识别的方法,其特征在于,所述利用跨模特征生成和目标信息保留的迁移网络的无监督图像视频行人重识别的方法包括以下步骤:步骤1、将源域中图像和视频数据集X={(Is,Vs)}用改进后的三元组网络分别进行特征提取;步骤2、使用源域数据集和目标域训练集训练生成对抗网络;步骤3、根据目标训练集中待识别的行人图像Iti使用步骤2训练好的生成对抗网络,生成深度特征G(f2d(Iti));步骤4、计算图像的深度特征G(f3d(Vtj))与目标域中视频的深度特征G(f3d(Vtj))之间的欧氏距离;步骤5、选择与查询图像距离最近的视频,打上与图像相同的类标记c;步骤1中,
带标签的源域S包含Ns个图像视频对(Isi,Vsi),Isi∈RP是源域的第i个图像,对应源域中的视频Vsi∈RP;
目标域T中缺少标记的图像和视频由
和
分别表示;改进后的三元组网络将使得目标行人所在视频
与所在图像正例
的距离比到其他行人所在图像负例
的距离小;三元组损失如下:![]()
表示Va,Ip,In来自源域X,f2d表示2d卷积层组成的2D图像特征提取子网,f3d表示3d卷积层组成的3D视频特征提取子网;给定
选择正例图片
使
选择负例图片
使
具体使用在线三元组生成器和设置较大的batch;步骤2中,给定一组源域S中带标记的行人图像视频对,训练出的跨模子网包括:提取函数f2d用于提取图像的2D特征,提取函数f3d用于提取视频的3D特征,生成器G用于生成中间的跨模特征,以及判别器D用于辨别特征是来自源域还是目标域;学习的f2d,f3d,G和D使得整体的跨模迁移损失L最小;L为:L=LGAN+αLcross‑modal+βLtarget‑preserving其中,LGAN表示生成的迁移网络将目标域内未标记样例特征迁移至源域,并且使得每个判别器无法辨别是源域特征还是G生成的目标域特征;在这种情况下,生成器将目标域特征转化至源域,并且与源域分布相同;LGAN为:
FX~S表示X来自源域,FY~T表示Y来自目标域,D是用于生成特征的二分类函数,D(f(Ii))和D(f(Vi))分别是样例Ii∈S以及Vi∈S的可能性,f的选择如下:
Lcross‑modal学习出一个共享空间,用于从2D和3D特征中生成跨模特征;生成的特征向量与f3d(V)相似;Lcross‑modal为:Lcross‑modal=E(I,V)~S||G(f2d(I))‑f3d(V)||2+||G(f3d(V))‑f3d(V)||2EI,V~S表示I,V来自源域;Ltarget‑preserving能够使迁移生成的G(f2d(It))仍保持目标域中图像的2D判定信息,生成的G(f3d(Vt))保持原有视频的3D判定信息;Ltarget‑preserving为:Ltarget‑preserving=E(I,V)~T||G(f2d(I))‑f2d(I)||2+||G(f3d(V))‑f3d(V)||2EI,V~T表示I,V来自目标域;CMGTN使用后向传播进行优化,网络中各部分f2d,f3d,G和D的更新过程包括:输入训练集X={(Is,Vs)}和Y={It,Vt},权重参数α和β,并使用改进后的三元组网络对GAN中的变量Wl,bl进行初始化;经过M次迭代,每次迭代分别选取一批源域和目标域数据{(Vsi,Isi)∈X,(Vti,Itj)∈Y},使用
公式、
公式、Lcross‑modal=E(I,V)~S||G(f2d(I))‑f3d(V)||2+||G(f3d(V))‑f3d(V)||2公式、Ltarget‑preserving=E(I,V)~T||G(f2d(I))‑f2d(I)||2+||G(f3d(V))‑f3d(V)||2公式的梯度下降更新特征提取器f2d和f3d,使用公式
的梯度下降更新判别器D;经过N个样本的循环,每次分别采集一批源域和目标域数据{(Vsi,Isi)∈X,(Vti,Itj)∈Y},使用修改后的判别器D和
公式、
公式、Lcross‑modal=E(I,V)~S||G(f2d(I))‑f3d(V)||2+||G(f3d(V))‑f3d(V)||2公式、Ltarget‑preserving=E(I,V)~T||G(f2d(I))‑f2d(I)||2+||G(f3d(V))‑f3d(V)||2公式更新生成器G;步骤5中,通过欧式距离度量得到的图像视频对,选择其中与查询图像距离最小的视频作为图像的同类,打上与图像相同的类标记c,约束为:![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东石油化工学院,未经广东石油化工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910227955.3/,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序