[发明专利]一种基于深度学习的监控图像多类物体检测与识别方法有效

申请号：	201710424764.7	申请日：	2017-06-07
公开（公告）号：	CN107316007B	公开（公告）日：	2020-04-03
发明（设计）人：	尚凌辉;王弘玥;张兆生;刘小扬;郑永宏;丁连涛	申请（专利权）人：	浙江捷尚视觉科技股份有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/02
代理公司：	杭州奥创知识产权代理有限公司 33272	代理人：	王佳健
地址：	311121 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习监控图像物体检测识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度学习的监控图像多类物体检测与识别方法。本发明通过利用已公开的SSD深度学习检测框架，在此框架上重新设计网络结构及相应的各种参数，使其能够快速地检测到监控视频图像中受关注的物体。相对传统的图像处理方法来说，本发明采用深度学习能够自动学习更有效更丰富的特征，从而具有较高的鲁棒性。相对其他深度学习方法来说，本发明利用采用一些轻量的网络模块，重新设计目标函数，并引入了残差模块及概率热力图，从而保持了速度与性能上的优势。总得说来，本发明的方法能高效快速检测到图像中的感兴趣物体，并且能够被推广到更通用的物体检测领域。

技术领域

本发明属于视频监控技术领域，涉及一种基于深度学习的监控图像多类物体检测与识别方法。

背景技术

随着中国汽车数量的逐年增加以及国家对道路，小区的监控设备的持续投入，如何有效利用与解析如此大数量监控视频或图像成为目前亟需解决的问题。

对这些图像内容的分析与理解无论是在交通、安防，或是在视频侦查方面都具有重要的应用。图像物体检测作为理解与解析图像的第一个步骤，其性能直接影响了后续步骤的效果。在监控图像中，人，机动车，非机动车这几类作为关注的主要主体，如何更好的检测这类物体是本发明主要解决的问题。

目前已有的技术从路线上讲，主要有基于传统的图像处理方法或机器学习方法，比如《对图像中的车辆的检测-200980137706.X》，《一种基于图像的车辆检测方法-201310259434.9》，《一种基于图像的夜间车辆检测方法-201410104987.1》等，此类方法存在的缺点包括对环境及场景严重依赖，对时间依赖以及只能实现单类检测，检测性能低下等，这严重制约了这些技术的真正实用性。

第二种路线是基于深度学习方法，比如《一种基于快速R-CNN深度神经网络的车型识别方法-201610563184.1》，《一种基于深度学习的交通图像多类型车辆检测方法-201610397819.5》，《一种基于深度学习的多方向车型检测识别系统-201610316159.3》，《基于深度学习SSD框架的道路车辆实时检测方法-201511183427.5》。这类方法无论从性能或者耗时方面都优于前述的传统方法。

发明内容

为了应付目前急剧增长的视频图像内容，提高视频图像分析的效果，本发明通过利用已公开的SSD深度学习检测框架，在此框架上重新设计网络结构及相应的各种参数，使其能够快速地检测到监控视频图像中受关注的物体(人，机动车，非机动车)，为后续的图像理解打下坚实的基础。

本发明解决技术问题所采取的技术手段为：

步骤1、收集不同地方的道路，小区监控视频图像数据，标注感兴趣的物体。

步骤2、把步骤1中标注信息转成SSD支持的xml标注格式并准备训练所需要labelmap.prototxt以及val_name_size.txt，按一定的比例分为训练集与验证集。

步骤3、设计训练网络：

3a).结合VGG，SqueezeNet,ResNet网络重新设计网络。由于SSD原始框架用的是VGG网络，该网络参数比较多，计算量庞大，导致速度较慢。为了克服这一缺点，本发明基于速度与性能方面的考虑，重新设计了网络结构：

第一用SqueezeNet的网络替换了原VGG网络Conv1～Conv5，第二个是用1x3,3x1的网络取代了原始网络3x3的部分。通过这两个改进，能够大大减少网络参数，降低网络计算量。第三个是在Conv6～Conv8中非提取框的卷积层引入ResNet模块，这个能够在不增加很多计算量的前提下，保留更多的上层信息，从而能够提升网络性能。通过这些改进，本发明所采用的方法在性能上基本上与公开的文献中采用VGG持平，但是速度上提高了7-10倍。

3b).统计所有标注的信息，设置不同提取框的特征层的aspect_ratio。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江捷尚视觉科技股份有限公司，未经浙江捷尚视觉科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710424764.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的监控图像多类物体检测与识别方法有效

专利文献下载