[发明专利]YOLO和分块-融合策略结合的稠密人脸检测方法在审

专利信息
申请号: 202011566195.8 申请日: 2020-12-25
公开(公告)号: CN112541483A 公开(公告)日: 2021-03-23
发明(设计)人: 徐光柱;屈金山;雷帮军;刘鸣;石勇涛 申请(专利权)人: 三峡大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06N3/08
代理公司: 宜昌市三峡专利事务所 42103 代理人: 吴思高
地址: 443002 *** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: yolo 分块 融合 策略 结合 稠密 检测 方法
【权利要求书】:

1.一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于包括以下步骤:

步骤1:对人脸训练数据集进行数据增广,扩充密集场景下的人脸样本;

步骤2:构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型,在检测阶段,将原图进行分块,并将分块得到的子图和原图一同输入到YOLOv3网络模型中分别进行检测;

步骤3:对NMS算法进行改进,解决大尺度人脸融合问题的同时提高小人脸检测的精度。

2.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤1中,人脸训练数据集采用WIDERFACE数据集,对原始WIDERFACE数据集中的原图进行分块,获得分块的子图,来实现密集场景下稠密人脸样本的扩充,同时保留有原始分辨率图像的原图。

3.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤1中,在分块时,分割的子图其宽度bw和高度bh的计算公式如下:

bw=(overlap_rate+1)*w/2 (1);

bh=(overlap_rate+1)*h/2 (2);

其中:w和h分别为原图的宽和高,overlap_rate为分块边缘重叠率。

4.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤1中,在分块的同时,对图片分块时根据不同的场景采取不同的策略,包括:

(a)对大尺度人脸不分块;

(b)人脸残缺和无人脸的分块舍弃,仅保留人脸完整的分块;

(c)密集场景下保留分块区域,但不完整的大尺度人脸标注将被舍弃;

(d)密集场景下均匀分布人脸且无明显尺度跨越则直接分块。

5.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法,其特征在于:所述步骤2中,构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型,YOLOv3网络模型分为模型训练和目标检测两个阶段,具体如下:

模型训练:

在模型训练阶段使用YOLOv3网络模型进行训练,训练时使用步骤1中数据增广后的人脸数据集,其中;YOLOv3网络训练损失函数如公式(3.1)~(3.6)所示:

YOLOv3损失函数包含边界框中心点坐标损失Losscenter(,如公式(3.2);

边界框宽高损失Losswh(,如公式(3.3);

目标置信度损失Lossscore(式,如公式(3.4)、公式(3.5);

目标类别损失Lossclass(,如公式(3.6);

式中,各变量的含义如下:其中SxS为网络划分图片的网格数,B为每个网格预测的边界框数目,为网格i中第j个边界框的预测;其中各公式中变量的含义分别为:公式(3.2)λcoord为动态参数,为中心点坐标的真值,Cxyi为中心点坐标预测值;公式(3.3)中,和表示该目标宽度和高度的真实值,wi和hi分别表示该目标高度和宽度的预测值;公式(3.4)和公式(3.5)分别为包含目标时的置信度损失和不含目标时的置信度损失,其中λnoobj为不含目标时网络的误差系数,和Ci分别代表检测目标的置信度真值和置信度预测值;式(3.6)中和为检测目标概率的真值和目标概率的预测值;

目标检测:

在目标检测阶段,利用模型训练阶段得到的权重文件进行检测,检测时首先将输入图片执行带边缘重叠的分块,得到分块与原图共5张图片,之后将分块图片与输入图片一同输入到YOLOv3网络中,在YOLOv3网络中分别对5张图片进行预测;其中,YOLOv3网络对每张图片进行预测的具体过程如下:

首先输入图片经过YOLOv3网络的特征提取网络darknet53,darknet53网络包含53个卷积层,通过darknet53卷积之后,得到输入图片1/32尺寸的特征图;以416*416*3尺寸的输入图片为例,通过darknet53网络卷积后,将得到13*13*255尺寸的特征图,在13*13*255特征图的基础上通过上采样以及与浅层特征融合又分别得到26*26*255、52*52*25尺寸的特征图,这3个尺度下的特征图分别用于对大尺度、中尺度、小尺度目标进行预测;YOLOv3通过在这3个尺度下的特征图上分别预测得到大、中、小3个尺度下的目标,其中YOLOv3网络模型在特征图上的目标检测原理为,YOLOv3网络对特征图上的每个像素对应的网格,都会给出3个anchor进行预测,找到大小最合适的anchor,其中anchor由训练前通过对数据集进行聚类得到,之后网络输出的4个偏移量,即可得到预测框;YOLOv3对每个预测边界框,给出4个值,tx、ty、tw、th,这4个值和预测边界框(bx、by、bw、bh)的映射关系如公式(4.1)~(4.4)所示;

bx=δ(tx)+cx (4.1)

by=δ(ty)+cy (4.2)

其中,tx、ty分别表示中心点偏移的量,tw、th则表示为预测边界框的相对anchor的缩放量,其中pw、ph分别表示anchor的宽和高;δ(tx)、δ(ty)用于表示某个目标的中心点相对负责检测这个目标的网格的偏移量,其中(Cx,Cy)表示中心点坐标所在的网格;

当YOLOv3网络完成了原图加分块图片一共5张图片的预测之后,将其中4张分块图片的预测结果映射到原始图片上,最终使用NMS算法去除冗余预测结果之后得到最终的检测结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三峡大学,未经三峡大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011566195.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top