[发明专利]基于迁移网络的无监督图像视频行人重识别的方法及系统有效

申请号：	201910227955.3	申请日：	2019-03-25
公开（公告）号：	CN109948561B	公开（公告）日：	2019-11-08
发明（设计）人：	荆晓远;张新玉;李森;黄鹤;姚永芳;訾璐;彭志平	申请（专利权）人：	广东石油化工学院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46
代理公司：	北京金智普华知识产权代理有限公司 11401	代理人：	杨采良
地址：	525000 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于行人重识别技术领域，公开了一种基于迁移网络的无监督图像视频行人重识别的方法及系统，将源域中图像和视频数据集用改进后的三元组网络分别进行特征提取；使用源域数据集和目标域训练集训练生成对抗网络；根据目标训练集中待识别的行人图像I_ti使用训练好的生成对抗网络，生成深度特征；计算图像的深度特征与目标域中视频的深度特征之间的欧氏距离；选择与查询图像距离最近的视频，打上与图像相同的类标记。本发明使用无监督的方法消除了图像和视频之间的鸿沟，大大节省了标记成本，提高了行人重识别的效率；通过对不同模态图像和视频进行无监督深度学习，有效提高了跨模识别的效率。
搜索关键词：	无监督图像深度特征视频图像视频网络目标域源域迁移标记成本查询图像距离最近模态图像目标训练欧氏距离视频数据特征提取三元组数据集训练集对抗改进学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种利用跨模特征生成和目标信息保留的迁移网络的无监督图像视频行人重识别的方法，其特征在于，所述利用跨模特征生成和目标信息保留的迁移网络的无监督图像视频行人重识别的方法包括以下步骤：步骤1、将源域中图像和视频数据集X＝{(I_s，V_s)}用改进后的三元组网络分别进行特征提取；步骤2、使用源域数据集和目标域训练集训练生成对抗网络；步骤3、根据目标训练集中待识别的行人图像I_ti使用步骤2训练好的生成对抗网络，生成深度特征G(f^2d(I_ti))；步骤4、计算图像的深度特征G(f^3d(V_tj))与目标域中视频的深度特征G(f^3d(V_tj))之间的欧氏距离；步骤5、选择与查询图像距离最近的视频，打上与图像相同的类标记c；步骤1中，带标签的源域S包含N_s个图像视频对(I_si，V_si)，I_si∈R^P是源域的第i个图像，对应源域中的视频V_si∈R^P；目标域T中缺少标记的图像和视频由和分别表示；改进后的三元组网络将使得目标行人所在视频与所在图像正例的距离比到其他行人所在图像负例的距离小；三元组损失如下：表示V^a，I^p，Iⁿ来自源域X，f^2d表示2d卷积层组成的2D图像特征提取子网，f^3d表示3d卷积层组成的3D视频特征提取子网；给定选择正例图片使选择负例图片使具体使用在线三元组生成器和设置较大的batch；步骤2中，给定一组源域S中带标记的行人图像视频对，训练出的跨模子网包括：提取函数f^2d用于提取图像的2D特征，提取函数f^3d用于提取视频的3D特征，生成器G用于生成中间的跨模特征，以及判别器D用于辨别特征是来自源域还是目标域；学习的f^2d，f^3d，G和D使得整体的跨模迁移损失L最小；L为：L＝L_GAN+αL_{cross‑modal}+βL_{target‑preserving}其中，L_GAN表示生成的迁移网络将目标域内未标记样例特征迁移至源域，并且使得每个判别器无法辨别是源域特征还是G生成的目标域特征；在这种情况下，生成器将目标域特征转化至源域，并且与源域分布相同；L_GAN为：F_X～S表示X来自源域，F_Y～T表示Y来自目标域，D是用于生成特征的二分类函数，D(f(I_i))和D(f(V_i))分别是样例I_i∈S以及V_i∈S的可能性，f的选择如下：L_{cross‑modal}学习出一个共享空间，用于从2D和3D特征中生成跨模特征；生成的特征向量与f^3d(V)相似；L_{cross‑modal}为：L_{cross‑modal}＝E_(I，V)～S||G(f^2d(I))‑f^3d(V)||²+||G(f^3d(V))‑f^3d(V)||²E_I，V～S表示I，V来自源域；L_{target‑preserving}能够使迁移生成的G(f^2d(It))仍保持目标域中图像的2D判定信息，生成的G(f^3d(V_t))保持原有视频的3D判定信息；L_{target‑preserving}为：L_{target‑preserving}＝E_(I，V)～T||G(f^2d(I))‑f^2d(I)||²+||G(f^3d(V))‑f^3d(V)||²E_I，V～T表示I，V来自目标域；CMGTN使用后向传播进行优化，网络中各部分f^2d，f^3d，G和D的更新过程包括：输入训练集X＝{(I_s，V_s)}和Y＝{I_t，V_t}，权重参数α和β，并使用改进后的三元组网络对GAN中的变量W^l，b^l进行初始化；经过M次迭代，每次迭代分别选取一批源域和目标域数据{(V_si，I_si)∈X，(V_ti，I_tj)∈Y}，使用公式、公式、L_{cross‑modal}＝E_(I，V)～S||G(f^2d(I))‑f^3d(V)||²+||G(f^3d(V))‑f^3d(V)||²公式、L_{target‑preserving}＝E_(I，V)～T||G(f^2d(I))‑f^2d(I)||²+||G(f^3d(V))‑f^3d(V)||²公式的梯度下降更新特征提取器f^2d和f^3d，使用公式的梯度下降更新判别器D；经过N个样本的循环，每次分别采集一批源域和目标域数据{(V_si，I_si)∈X，(V_ti，I_tj)∈Y}，使用修改后的判别器D和公式、公式、L_{cross‑modal}＝E_(I，V)～S||G(f^2d(I))‑f^3d(V)||²+||G(f^3d(V))‑f^3d(V)||²公式、L_{target‑preserving}＝E_(I，V)～T||G(f^2d(I))‑f^2d(I)||²+||G(f^3d(V))‑f^3d(V)||²公式更新生成器G；步骤5中，通过欧式距离度量得到的图像视频对，选择其中与查询图像距离最小的视频作为图像的同类，打上与图像相同的类标记c，约束为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东石油化工学院，未经广东石油化工学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910227955.3/，转载请声明来源钻瓜专利网。

上一篇：融合骨骼识别和IFace-TLD的移动机器人目标跟踪系统
下一篇：一种基于X射线图像的安检系统深度学习样本生成方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于迁移网络的无监督图像视频行人重识别的方法及系统有效

专利文献下载