[发明专利]行人检测方法和装置有效
申请号: | 201611205712.2 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106845352B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 俞刚;彭超 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/08 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亚南 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行人 检测 方法 装置 | ||
1.一种行人检测方法,包括:
获取待处理图像;
分析所述待处理图像的每个像素所属场景的场景信息;以及
结合所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人,以确定所述待处理图像中的行人所在的位置;
其中,在所述分析所述待处理图像的每个像素所属场景的场景信息之前,所述行人检测方法还包括:
提取所述待处理图像的特征;
所述分析所述待处理图像的每个像素所属场景的场景信息包括:
基于所述待处理图像的特征分析所述待处理图像的每个像素所属场景的场景信息;
其中,所述基于所述待处理图像的特征分析所述待处理图像的每个像素所属场景的场景信息包括:
将所述待处理图像的特征输入全卷积网络,以获得与预定数目的场景类别一一对应的预定数目的场景特征图,其中,每个场景特征图与所述待处理图像大小一致,并且每个场景特征图的每个像素的像素值表示所述待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。
2.如权利要求1所述的行人检测方法,其中,
所述结合所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人包括:
结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人,以确定所述待处理图像中的行人所在的位置。
3.如权利要求1所述的行人检测方法,其中,在所述将所述待处理图像的特征输入全卷积网络,以获得与预定数目的场景类别一一对应的预定数目的场景特征图之后,所述行人检测方法还包括:
对于所述待处理图像的每个像素,
从所述预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素;以及
确定该像素属于所述像素值最大的像素所属的场景特征图所对应的场景类别。
4.如权利要求1所述的行人检测方法,其中,所述提取所述待处理图像的特征包括:
将所述待处理图像输入卷积神经网络,以获得至少一个图像特征图,其中,所述至少一个图像特征图代表所述待处理图像的特征。
5.如权利要求4所述的行人检测方法,其中,所述结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人包括:
利用一个或多个卷积层对所述至少一个图像特征图和所述预定数目的场景特征图进行卷积,以获得行人特征图,其中,所述行人特征图与所述待处理图像大小一致,并且所述行人特征图的每个像素的像素值包括基于所述待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。
6.如权利要求5所述的行人检测方法,其中,所述利用一个或多个卷积层对所述至少一个图像特征图和所述预定数目的场景特征图进行卷积包括:
对所述至少一个图像特征图和所述预定数目的场景特征图进行拼接;以及
将拼接后的特征图输入所述一个或多个卷积层中的在先卷积层,以由所述一个或多个卷积层处理。
7.如权利要求5所述的行人检测方法,其中,所述结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人还包括:
对包含同一行人的多个行人框进行筛选,以保留所述包含同一行人的行人框之一。
8.如权利要求5所述的行人检测方法,其中,所述结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人还包括:
基于所述待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611205712.2/1.html,转载请声明来源钻瓜专利网。