[发明专利]基于深度学习编码模型的人员再识别方法在审
申请号: | 201710080498.0 | 申请日: | 2017-02-15 |
公开(公告)号: | CN106778921A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 赵永威;谭佩耀;胡畏;李博 | 申请(专利权)人: | 张烜 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710000 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 编码 模型 人员 识别 方法 | ||
技术领域
本发明涉及一种基于深度学习编码模型的人员再识别方法。
背景技术
近年来,随着视频监控系统大量建设与应用,使其在打击犯罪、维护稳定实践中发挥着越来越重要的作用。当前大多数监控系统采用实时拍摄和人工监视的形式,这要求监控人员时刻注意监控画面,仔细分辨视频中的事件,而这显然是不现实的,何况人工查看的方式存在大量的疏漏和主观误差。考虑到日益增长的监控视频规模,这种方式所需的人力成本也将难以承受,而且效率低下。因此,急需方便快捷的方法来替代现有的人工主导的监控体系。强烈的现实需求和计算机相关技术的进步,催生了人员再识别技术(Person Re-identification),该技术也成为了当前视频智能监控领域中一个极具有挑战性的问题,其主要任务是完成跨摄像头的行人搜索与识别。人员再识别技术主要是通过视觉比对的方式将视场不重叠的多个摄像机所拍摄到的属于同一个行人的图像或者视频片段关联起来的技术。
在整个人员再识别系统中,特征提取和分类器设计是两个基本也是关键的步骤,目前一些学者对行人识别和分类的研究主要集中在这两个方面,且取得了很大的成果。有人引入了利用HOG进行行人检测。有文献把纹理边缘描述子(Texture-Edge Descriptor,TED)特征应用于视频序列中的行人检测,此特征包括纹理和垂直方向的边缘信息,适用于室内外的不同环境。另外,行人识别中常用的特征还有PCA特征、Harr特征、SIFT特征和积分通道特征等。在机器学习中常用泛化能力较好的分类器进行行人分类识别和检测,如支持向量机(Support Vector Machine,SVM)分类器、多核SVM(MultiKernel SVM,MKSVM)分类器、AdaBoost分类器等。基于无监督的深度学习(Deep Learning)是关于自动学习要建模的数据的潜在分布的多层表达算法,故能自动提取分类需要的低层次或者高层次特征。因此,它用数据学习特征,避免了大量的手工设计数据,在使用中非常方便而且效果也更好。深度学习结合了监督学习和无监督学习的优点,因此既强调了网络结构的深度又突出了特征表达的能力。此外,词袋方法(Bag of Words,BoW)是基于视觉信息的识别方法中利用目标的外观表象信息的一种常用的目标建模方法。它的核心思想是利用一组视觉单词表示目标图像。近年来,词袋模型在许多目标和场景的图像数据集上取得了良好的分类识别性能。
发明内容
本发明的目的在于提出一种基于深度学习编码模型的人员再识别方法,有效地解决了传统特征提取技术因监控视频质量较差,视角和光照差异引起效果不好、鲁棒性不强的问题及传统分类器的高运算复杂度,有效地提高了人员目标检测的准确度和特征表达的性能并能高效地识别出监控视频中的行人。
本发明的目的是通过以下技术方案实现的:
一种基于深度学习编码模型的人员再识别方法,包括以下步骤:
首先,利用非监督RBM网络采用自底向上的方式对初始SIFT特征进行编码得到视觉词典;
其次,采用自顶向下的方式为整个网络参数进行有监督微调;
然后,就是利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新的图像表达方式,也就是图像深度学习表示向量;
最后,利用图像深度学习表示向量训练线性SVM分类器用以对行人进行分类识别。
进一步地,所述的基于深度学习编码模型的人员再识别方法,首先,提取训练图像库的SIFT特征;其次,结合SIFT特征的空间信息,将邻近的SIFT特征作为RBM的输入,通过CD快速算法训练RBM,得到隐藏层特征;然后邻近的隐藏层特征作为下一层RBM的输入,得到输出词典;ω1和ω2作为RBM的连接权重,RBM具有一个显见层,一个隐层,但是在RBM中,同层的神经元之间是无连接的,这样学习使得过程更简单。
在网络的训练过程中,RBM的隐层与显层之间是通过条件概率分布相关联的,显层和隐层的条件概率为:
其中,xi,zj分别代表特征层和编码层,也就是RBM中的显层与隐层。ωij为特征层xi与编码层之间的连接权重系数,给定权重系数矩阵ω和隐层偏置向量b,输入层特征x就可以编码为视觉词典z,相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x。对于RBM中一组给定的输入层和编码层(x,z),其能量函数可计算如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张烜,未经张烜许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710080498.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种输电线路检修设备
- 下一篇:一种适合高维特征的鞋印新类别检测方法