[发明专利]基于改进聚类算法的Faster R-CNN网络的行人检测方法在审
申请号: | 202111523673.1 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114332921A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 陈学信;苏德成;谢军;李志敏 | 申请(专利权)人: | 长讯通信服务有限公司 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/40;G06V10/762;G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 陈新胜 |
地址: | 510507 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 算法 faster cnn 网络 行人 检测 方法 | ||
本发明公开了一种基于改进聚类算法的Faster R‑CNN网络的行人检测方法,包括把行人训练集图片输入regnet骨干网络,提取特征图;将特征图输入FPN特征金字塔进行融合,得到新的特征图;采用改进聚类算法得到不同比例和大小的anchors,通过RPN区域建议网络对新特征图进行建议框的提取,初步判断是否检测到行人;把新特征图和建议框输入RoI align进行池化综合,并经过全连接网络进行分类和回归,得到检测结果和相应的损失;完成一个轮次的训练后,重复上述步骤,直至达到设定的迭代轮次,把网络中的参数输出并保存,得到行人检测模型;将待检测的行人图片输入行人检测模型,即可输出待检测行人图片的位置和置信度信息。
技术领域
本发明涉及计算机视觉的行人检测技术领域,尤其涉及一种基于改进聚类算法的Faster R-CNN网络的行人检测方法。
背景技术
行人检测技术具有很强的应用价值,它可以与行人跟踪、行人重识别等技术相结合,广泛应用于自动驾驶、道路监控、视频安防和智慧城市等领域。传统的行人检测方法依靠人体自身的外观属性进行特征提取和分类,该类方法往往受限于特定环境条件,导致特征表达能力不足,无法满足实际场景应用要求。基于深度学习学到的特征具有较好的层次表达能力和鲁棒性,可以比较好地解决这类视觉问题。
深度学习中的行人检测可以采用两阶段的深度神经网络来学习和建模。由卷积神经网络对图像进行特征提取,提取出来的特征图对光照、位移等变化不敏感,鲁棒性较好。由区域建议网络和分类回归网络组成了一个两阶段目标检测器,区域提议网络负责生成目标可能所在区域的建议,分类回归网络对建议的区域进行分类,并对标注框进行微调。网络的函数由分类损失和回归损失加权组成,并采用随机梯度下降法进行反向传播迭代。
现有的两阶段深度学习目标检测器例如Faster R-CNN,精度较高,通用性也较好,但在经典Faster R-CNN模型中,建议框的产生是使用一组固定尺寸和比例的anchors,对行人检测图片的具体目标尺寸特点无法更好地匹配,造成检测效果不佳。
现有技术一的技术方案:
如图1所示,首先,输入图片,图片经过预训练网络(实验中采用的是DetNet),提取出图片的特征;其次,将提取的特征经过RPN网络,产生一定数量的候选框(每张图上都有2000个候选框);最后则是预测的分类与回归结果,将候选框和图像特征都输入到ROI head里面,对候选区域进行分类,判断其类别,与此同时还会对候选区域的位置进行微调。
上述技术方案一的技术存在以下缺点:
采用的是传统Faster RCNN模型选择候选框的方法,即在每个候选目标位置设计9种锚点,分为3种固定长宽比和尺度的anchors,在一个位置产生9种固定比例的候选框。该方法的缺点是对行人检测图片的具体目标尺寸特点无法更好地匹配,造成检测效果不佳。
现有技术二的技术方案:
针对复杂环境中由于行人间相互遮挡导致检测准确率低的问题,考虑到行人头部与行人是一一对应关系,且头部在行人运动过程中不易被遮挡,提出了一种基于聚类与Faster R CNN的行人头部检测算法。设计一种新的距离度量方法,并结合k-means++算法对已标注人头检测框进行聚类,以确定anchor大小与长宽比;优化NMS算法惩罚函数剔除无效人头预测框,改善行人之间由于遮挡导致的召回率低的问题。该技术方案见图2所示。
在该技术中心,提出一种距离度量公式,anchor大小的确定与标注框的长和宽尺寸没有直接关系,而传统的欧氏距离度量方法对标注框的长和宽的取值敏感,尺寸较大的边界框容易出错,聚类结果更加偏向尺寸较小的标注框,对此,该技术设计一种新的距离度量公式,如式(1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长讯通信服务有限公司,未经长讯通信服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111523673.1/2.html,转载请声明来源钻瓜专利网。