[发明专利]基于多层次特征提取和上下文模型的目标检测有效

申请号：	201610056601.3	申请日：	2016-01-27
公开（公告）号：	CN105740891B	公开（公告）日：	2019-10-08
发明（设计）人：	刘波;马增妍	申请（专利权）人：	北京工业大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于多层次特征提取和上下文模型的目标检测，本发明所构造的模型主要是统计了真实图片中图像之间的空间位置关系，从而可以提高目标检测的正确率。无论图像是同类别还是不同类，都会有一些特定的空间位置关系。首先对一副图片进行选择搜索，产生大量region proposals，然后对每一幅图片的所有region proposals进行特征提取，采用的是7层的卷积神经网络，最后用支持向量机进行分类。本发明给出一种新的找到最佳物体检测位置的方法。主要解决的技术问题是提供一种新的上下文模型，代替原有的非极大值抑制方法，用来获得更好的目标检测正确率。
搜索关键词：	基于多层次特征提取上下文模型目标检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于多层次特征提取和上下文模型的目标检测方法，其特征在于：本方法所构造的模型主要是统计了真实图片中图像之间的空间位置关系，从而可以提高目标检测的正确率；无论图像是同类别还是不同类，都会有一些特定的空间位置关系；人和自行车这两类图像，它俩之间的空间位置关系就只可能是人在自行车上(above)，或者人在自行车的旁边(next‑to)，很少会出现自行车在人上(above)这种空间位置关系；人和人的空间位置关系一般都是人在人的旁边(next‑to)，很少有人在人上(above)的空间位置关系；该方法的主要步骤如下，S1构造上下文模型首先构造一个上下文模型，用于捕获目标检测器之间的关系；用一系列有重合的窗口明确表示一副图片，第i个窗口的位置用其中心和长宽表示，写作I_i＝(x，y，s)，N表示一副图片有N个窗口，x_i表示从第i个窗口提取的图片特征，整幅图片用X＝{x_i：i＝1，……N}表示，K代表图像类别个数，本方法所用的是PASCALLVOC数据集，所以K为20，y_i∈{0，……，K}代表了第i个窗口的标签，0表示背景，Y＝{y_i:i＝1,……N}；定义X,Y之间的分数为：其中w_yi,yj表示y_i类和y_j类之间的权重，w_yi表示类i的局部模板，d_ij表示窗口i和窗口j之间的空间位置关系，把位置关系分为，上面(above)，下面(below)，重叠(overlapping)，旁边(next‑to)，近(near)和远(far)，因此，d_ij是一个稀疏的一维向量，只有满足相互之间的空间位置关系的对应项会赋值为1；人与人之间的空间位置关系总是next‑to，而不会是above，所以，above及其他位置的对应项赋值为0，而next‑to赋值为1；因为计算max S(X,Y)是非确定性多项式NP(non‑deterministic polynomial)hard，所以本方法采用类似贪心算法(greedy algorithms)来解决NPhard问题；I代表一系列实例化的窗口‑类(window‑class)I＝{pairs(i,c)}，记Y(I)代表相关的标签向量，当所有的pairs在集合I中时，y_i＝c，否则y_i＝0；通过加窗口‑类(window‑class)pair(i,c)到集合I里来改变S(X,Y)的值，具体如下表示：(i,c)＝S(X，Y(I{(i,C)}))‑S(X，Y(I))初始化I＝{}，S＝0，(i，c)＝w^T_cx_i，迭代1)(i*，c*)＝argmax_(i,j)I(i，c)2)I＝I{(i*，c*)}3)S＝S+(i*,c*)4)结束条件是(i*，c*)＝0或者所有的窗口都实例化了；S2用切平面最优化进行凸训练为了描述本方法的学习算法，需要把公式(1)写成如下形式：等价于S(X,Y)＝W^TΨ(X,Y)其中，即：凸训练的目的是假设给定一系列训练图片X_i和标签Y_i，希望得到一个W的最优模型，使得给定一副新的图片X_i，可以产生一个标签向量Y*＝Y_i；因此，凸训练的结果是得到W的最优模型，使得Y*和Y_i的差值尽可能的小，凸训练得到W最优模型的这一过程既是求下列数学公式极值的过程，其中，ΔΨ(X_i,Y_i,H_i)＝Ψ(X_i,Y_i)‑Ψ(Y_i,H_i)，H_i是自己算出的标签，为了方便最优化，把公式(3)的约束问题等价于公式(4)的无约束问题：其中对上述公式(4)进行切平面最优化，即可得到W的最优模型；S3整体实施流程首先通过搜索算法得到图片的候选区域，其次采用Ross Girshick的已经训练好的7层卷积神经网络CNNS进行图像的特征提取，因为本方法的训练集和测试集都采用的PASCALL VOC数据集有20个类别，所以把Ross Girshick的7层CNNS网络结构的最后输出改成21即20个VOC类和1个背景类，最后用线性的支持向量机SVM进行图片分类，分类的过程中为了找到最佳物体检测的位置，用已经训练好的上下文模型进行更准确的定位，最终得到更好的目标检测正确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610056601.3/，转载请声明来源钻瓜专利网。

上一篇：一种高准确率的基于卷积神经网络的人体多部位识别方法
下一篇：一种遥感影像人工地物直线轮廓检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多层次特征提取和上下文模型的目标检测有效

专利文献下载