[发明专利]用于图像或视频中行人重识别的深度判别网络模型方法有效

申请号：	201710570245.1	申请日：	2017-07-13
公开（公告）号：	CN107273872B	公开（公告）日：	2020-05-05
发明（设计）人：	王文敏;张奕豪;王荣刚;李革;董胜富;王振宇;李英;赵辉;高文	申请（专利权）人：	北京大学深圳研究生院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06K9/54;G06N3/08
代理公司：	北京万象新悦知识产权代理有限公司 11360	代理人：	黄凤茹
地址：	518055 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于图像视频行人识别深度判别网络模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公布了一种用于图像或视频中行人重识别的深度判别网络模型方法，通过构建深度判别网络，将不同输入图像在颜色通道上进行融合拼接，将得到的拼接结果定义为不同图像的原始差异性空间；将原始差异性空间送入卷积网络中，通过学习原始差异性空间中的差异性信息，网络输出两张输入图像之间的相似性，由此实现行人重识别。本发明不对单独的图像进行特征的学习，而是在一开始就将输入图像在颜色通道上进行融合拼接，利用设计好的网络在图像的原始空间上学习差异性信息；通过引入Inception模块，嵌入到模型之中，能够提高网络的学习能力，达到更好的判别效果。

技术领域

发明涉及计算机视觉中的行人重识别领域，尤其涉及一种用于图像或视频中行人重识别的深度判别网络模型方法。

背景技术

近年来，随着人们对社会的公共安全越来越关注，视频监控系统大量普及。诸如机场、火车站、校园和办公大楼等公众场所，都亟需监控，为安防保驾护航。面对海量的监控视频数据，大量的人力需要投入到视频信息的监控与检索中去，这种方式的效率不仅低，还造成了额外资源浪费。如果能够利用计算机视觉分析技术，自动化监控及分析视频信息，必然可以极大地加快“平安城市”的建设。

行人重识别是计算机视觉的研究中关键的任务。一般来说，给定关于行人的一张图片或者一段视频，行人重识别就是在其它不重合拍摄场景下的图片或者视频中，将同一个人识别出来的过程。尽管相关的研究越来越受到重视，行人重识别的准确率也已经提高了不少，但仍有许多困难需要解决。由于待识别的行人图片与原图片拍摄于不同的相机，设备的差异会给成像条件带来误差；不同的场景下的环境不一，对采集的数据也会产生不同的偏差；且光照的改变会使得同一种颜色的表现不同；更重要的是，行人在摄像头下的姿态变化以及遮挡问题，都使得对同一个人的辨别难度相当大。

近年来，由于深度学习的浪潮，卷积神经网络被广泛应用于行人重识别领域，通过深度网络提取图像特征，并且在相应的特征空间上使用深度学习或者传统方法进行距离度量，大大提高了行人重识别的准确率。这些工作的进展皆得益于深度卷积网络模型在特征提取上的能力，但在判别能力的探索上却局限于给定的特征空间，也因此限制了深度模型判别能力的提高。

发明内容

为了克服上述现有技术的不足，本发明提供一种用于图像或视频中行人重识别的深度判别网络模型方法，基于行人在不同图像之间的相似性判断过程，设计深度判别网络模型，将输入的两张图像在颜色通道上进行融合拼接，在原始的图像差异性空间上判别图像之间的相似性，并通过嵌入Inception模块提高网络的学习能力，可以有效地区分出输入图像是否属于同一个人。该方法不需要对输入图像进行单独特征提取，没有传统意义上对输入图像进行单独特征提取的步骤，因此可以充分发挥深度卷积神经网络模型在判别图像差异性上的潜力。

本发明首先把两张输入图像在颜色通道上进行融合拼接，将得到的拼接结果定义为两个图像的原始差异性空间，然后将得到拼接的结果送入设计好的卷积神经网络中去，通过学习原始空间中的差异性信息，网络最终可以给出输入两张图片之间的相似性。本发明中的深度判别网络包括产生的原始差异性空间和卷积网络，卷积网络包含了三个相连的卷积模块和一个Inception模块，紧接着一个非对称的卷积层和全联接层，并可利用SoftMax算法得到图像之间的相似性。

本发明提供的技术方案是：

一种用于图像或视频中行人重识别的深度判别网络模型方法，通过构建深度判别网络，将两张输入图像在颜色通道上进行融合拼接，得到拼接的结果，送入卷积网络中，通过学习原始差异性空间中的差异性信息，所述深度判别网络输出两张输入图像之间的相似性；由此实现行人重识别；具体过程如下：

1)设计深度判别网络模型的结构；

本发明构建的深度判别网络包括了原始差异性空间的产生和卷积神经网络两部分，其中卷积神经网络包含了3个相连的卷积模块和Inception模块，紧接着一个非对称的卷积层和全联接层；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院，未经北京大学深圳研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710570245.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种集群数据处理方法、主节点、从节点和集群
下一篇：一种可伸缩和高效的地址空间转换算法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于图像或视频中行人重识别的深度判别网络模型方法有效

专利文献下载