[发明专利]一种基于神经网络多尺度特征图的行人检测方法有效
申请号: | 201711396890.2 | 申请日: | 2017-12-21 |
公开(公告)号: | CN108133235B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 舒泓新;蔡晓东;陈昀;王秀英;贺光明 | 申请(专利权)人: | 中通服公众信息产业股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06N3/04 |
代理公司: | 济南智圆行方专利代理事务所(普通合伙企业) 37231 | 代理人: | 张玉琳 |
地址: | 830000 新疆维*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 尺度 特征 行人 检测 方法 | ||
1.一种基于神经网络多尺度特征图的行人检测方法,其特征在于,所述检测方法为:
步骤S1:收集行人检测样本;对选取的视频进行截帧处理,对含有行人的图片保留并构成行人检测数据集,不含行人的图片丢弃;
步骤S2:制作样本标签,对行人检测数据集中一张图片中的每一个行人目标的坐标保存到xml格式的标签文件;
步骤S3:搭建轻量化残差特征提取网络;
步骤S4:搭建多尺度特征图行人检测网络;
步骤S5:对步骤S3搭建的特征提取网络在imagenet数据集进行网络预训练;
步骤S6:将步骤S5训练好的特征提取网络与步骤S4搭建的检测网络进行拼接,使用准备好的行人训练数据集进行最终的网络训练;
其中,所述步骤S3中的轻量化残差特征提取网络具体为:将残差网络使用的普通3*3卷积层替换为先使用1*1的卷积层,然后对卷积输出的每一个通道进行3*3的独立卷积,最后将所有3*3的独立卷积层的输出拼接;
其中,默认框以滑动形式遍历整张特征图,使用5个不同层的特征图来做预测,遍历最底层的特征图的默认框缩放系数为Smax,遍历最高层的特征图的默认框缩放系数为Smin,其他中间层的特征图的默认框缩放系数通过下面公式计算得到:
每个默认框有着不同的长宽比,用c来表示:所以每个默认框的长宽为:
其中,Smax为最底层的特征图的默认框缩放系数,Smin为最高层的特征图的默认框缩放系数,m为用来进行预测的不同层特征图的层数。
2.根据权利要求1所述的行人检测方法,其特征在于,步骤S1中所述的截帧处理,具体为:对每个视频3秒截取一帧并保存为jpg图片格式。
3.根据权利要求1所述的行人检测方法,其特征在于,所述步骤S2中所述的制作样本标签,具体为:将一张图片中每个行人目标左上角、右下角的坐标写入xml文件进行保存,保存xml文件名与图片名一致。
4.根据权利要求1所述的行人检测方法,其特征在于,所述步骤S4中,所述多尺度特征图行人检测网络,由3个卷积核为3*3卷积层组成,每个卷积层再接两个卷积层;两个卷积层中,其中一个后接smothL1loss进行坐标回归用于预测行人位置,另一个后接softmax loss进行分类用于判断默认框是否含有行人。
5.根据权利要求1所述的行人检测方法,其特征在于,所述步骤S4的所述行人检测网络,用于对每一尺度的每一张特征图,按照不同默认框的大小和长宽比生成k个默认框,对默认框和标签文件中的行人坐标进行jaccard计算,结果大于0.7的作为正样本,小于等于0.7的样本作为负样本。
6.根据权利要求1所述的行人检测方法,其特征在于,所述步骤S5中,所述特征提取网络在imagenet数据集进行网络预训练时,使用一种多分类的逻辑回归进行分类训练:
xi=xi-max(x1,...,xn)
Loss=-log pk
并对其加入一个约束项,相当于把每一个输入样本都自动配了一个类中心
其中,公式中,n为类别数,cyi表示第yi个类别的特征中心,xi表示全连接层之前的特征。
7.根据权利要求1-6任一项所述的行人检测方法,其特征在于,所述步骤S6中,所述特征提取网络与所述检测网络进行拼接,具体为:将所述特征提取网络的最后两层的全连接层利用astrous算法转换成卷积层并与所述检测网络连接;所述特征提取网络的最后5层卷积层作为多尺度特征图行人检测网络的输入层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中通服公众信息产业股份有限公司,未经中通服公众信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711396890.2/1.html,转载请声明来源钻瓜专利网。