[发明专利]YOLO和分块-融合策略结合的稠密人脸检测方法在审
申请号: | 202011566195.8 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112541483A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 徐光柱;屈金山;雷帮军;刘鸣;石勇涛 | 申请(专利权)人: | 三峡大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 宜昌市三峡专利事务所 42103 | 代理人: | 吴思高 |
地址: | 443002 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | yolo 分块 融合 策略 结合 稠密 检测 方法 | ||
1.一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于包括以下步骤:
步骤1:对人脸训练数据集进行数据增广,扩充密集场景下的人脸样本;
步骤2:构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型,在检测阶段,将原图进行分块,并将分块得到的子图和原图一同输入到YOLOv3网络模型中分别进行检测;
步骤3:对NMS算法进行改进,解决大尺度人脸融合问题的同时提高小人脸检测的精度。
2.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤1中,人脸训练数据集采用WIDERFACE数据集,对原始WIDERFACE数据集中的原图进行分块,获得分块的子图,来实现密集场景下稠密人脸样本的扩充,同时保留有原始分辨率图像的原图。
3.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤1中,在分块时,分割的子图其宽度bw和高度bh的计算公式如下:
bw=(overlap_rate+1)*w/2 (1);
bh=(overlap_rate+1)*h/2 (2);
其中:w和h分别为原图的宽和高,overlap_rate为分块边缘重叠率。
4.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤1中,在分块的同时,对图片分块时根据不同的场景采取不同的策略,包括:
(a)对大尺度人脸不分块;
(b)人脸残缺和无人脸的分块舍弃,仅保留人脸完整的分块;
(c)密集场景下保留分块区域,但不完整的大尺度人脸标注将被舍弃;
(d)密集场景下均匀分布人脸且无明显尺度跨越则直接分块。
5.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤2中,构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型,YOLOv3网络模型分为模型训练和目标检测两个阶段,具体如下:
模型训练:
在模型训练阶段使用YOLOv3网络模型进行训练,训练时使用步骤1中数据增广后的人脸数据集,其中;YOLOv3网络训练损失函数如公式(3.1)~(3.6)所示:
YOLOv3损失函数包含边界框中心点坐标损失Losscenter(,如公式(3.2);
边界框宽高损失Losswh(,如公式(3.3);
目标置信度损失Lossscore(式,如公式(3.4)、公式(3.5);
目标类别损失Lossclass(,如公式(3.6);
式中,各变量的含义如下:其中SxS为网络划分图片的网格数,B为每个网格预测的边界框数目,为网格i中第j个边界框的预测;其中各公式中变量的含义分别为:公式(3.2)λcoord为动态参数,为中心点坐标的真值,Cxyi为中心点坐标预测值;公式(3.3)中,和表示该目标宽度和高度的真实值,wi和hi分别表示该目标高度和宽度的预测值;公式(3.4)和公式(3.5)分别为包含目标时的置信度损失和不含目标时的置信度损失,其中λnoobj为不含目标时网络的误差系数,和Ci分别代表检测目标的置信度真值和置信度预测值;式(3.6)中和为检测目标概率的真值和目标概率的预测值;
目标检测:
在目标检测阶段,利用模型训练阶段得到的权重文件进行检测,检测时首先将输入图片执行带边缘重叠的分块,得到分块与原图共5张图片,之后将分块图片与输入图片一同输入到YOLOv3网络中,在YOLOv3网络中分别对5张图片进行预测;其中,YOLOv3网络对每张图片进行预测的具体过程如下:
首先输入图片经过YOLOv3网络的特征提取网络darknet53,darknet53网络包含53个卷积层,通过darknet53卷积之后,得到输入图片1/32尺寸的特征图;以416*416*3尺寸的输入图片为例,通过darknet53网络卷积后,将得到13*13*255尺寸的特征图,在13*13*255特征图的基础上通过上采样以及与浅层特征融合又分别得到26*26*255、52*52*25尺寸的特征图,这3个尺度下的特征图分别用于对大尺度、中尺度、小尺度目标进行预测;YOLOv3通过在这3个尺度下的特征图上分别预测得到大、中、小3个尺度下的目标,其中YOLOv3网络模型在特征图上的目标检测原理为,YOLOv3网络对特征图上的每个像素对应的网格,都会给出3个anchor进行预测,找到大小最合适的anchor,其中anchor由训练前通过对数据集进行聚类得到,之后网络输出的4个偏移量,即可得到预测框;YOLOv3对每个预测边界框,给出4个值,tx、ty、tw、th,这4个值和预测边界框(bx、by、bw、bh)的映射关系如公式(4.1)~(4.4)所示;
bx=δ(tx)+cx (4.1)
by=δ(ty)+cy (4.2)
其中,tx、ty分别表示中心点偏移的量,tw、th则表示为预测边界框的相对anchor的缩放量,其中pw、ph分别表示anchor的宽和高;δ(tx)、δ(ty)用于表示某个目标的中心点相对负责检测这个目标的网格的偏移量,其中(Cx,Cy)表示中心点坐标所在的网格;
当YOLOv3网络完成了原图加分块图片一共5张图片的预测之后,将其中4张分块图片的预测结果映射到原始图片上,最终使用NMS算法去除冗余预测结果之后得到最终的检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三峡大学,未经三峡大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011566195.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:化合物、液晶组合物以及显示装置
- 下一篇:一种低阻日常防护口罩