[发明专利]YOLO和分块-融合策略结合的稠密人脸检测方法在审

申请号：	202011566195.8	申请日：	2020-12-25
公开（公告）号：	CN112541483A	公开（公告）日：	2021-03-23
发明（设计）人：	徐光柱;屈金山;雷帮军;刘鸣;石勇涛	申请（专利权）人：	三峡大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06N3/08
代理公司：	宜昌市三峡专利事务所 42103	代理人：	吴思高
地址：	443002 ***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	yolo 分块融合策略结合稠密检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于包括以下步骤：

步骤1：对人脸训练数据集进行数据增广，扩充密集场景下的人脸样本；

步骤2：构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型，在检测阶段，将原图进行分块，并将分块得到的子图和原图一同输入到YOLOv3网络模型中分别进行检测；

步骤3：对NMS算法进行改进，解决大尺度人脸融合问题的同时提高小人脸检测的精度。

2.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于：所述步骤1中，人脸训练数据集采用WIDERFACE数据集，对原始WIDERFACE数据集中的原图进行分块，获得分块的子图，来实现密集场景下稠密人脸样本的扩充，同时保留有原始分辨率图像的原图。

3.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于：所述步骤1中，在分块时，分割的子图其宽度bw和高度bh的计算公式如下：

bw＝(overlap_rate+1)*w/2 (1)；

bh＝(overlap_rate+1)*h/2 (2)；

其中：w和h分别为原图的宽和高，overlap_rate为分块边缘重叠率。

4.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于：所述步骤1中，在分块的同时，对图片分块时根据不同的场景采取不同的策略，包括：

(a)对大尺度人脸不分块；

(b)人脸残缺和无人脸的分块舍弃，仅保留人脸完整的分块；

(c)密集场景下保留分块区域，但不完整的大尺度人脸标注将被舍弃；

(d)密集场景下均匀分布人脸且无明显尺度跨越则直接分块。

5.根据权利要求1所述一种YOLO和分块-融合策略结合的稠密人脸检测方法，其特征在于：所述步骤2中，构建YOLOv3和分块-融合策略相结合的YOLOv3网络模型，YOLOv3网络模型分为模型训练和目标检测两个阶段，具体如下：

模型训练：

在模型训练阶段使用YOLOv3网络模型进行训练，训练时使用步骤1中数据增广后的人脸数据集，其中；YOLOv3网络训练损失函数如公式(3.1)～(3.6)所示：

YOLOv3损失函数包含边界框中心点坐标损失Loss_center(，如公式(3.2)；

边界框宽高损失Loss_wh(，如公式(3.3)；

目标置信度损失Loss_score(式，如公式(3.4)、公式(3.5)；

目标类别损失Loss_class(，如公式(3.6)；

式中，各变量的含义如下：其中SxS为网络划分图片的网格数，B为每个网格预测的边界框数目，为网格i中第j个边界框的预测；其中各公式中变量的含义分别为：公式(3.2)λ_coord为动态参数，为中心点坐标的真值，Cxy_i为中心点坐标预测值；公式(3.3)中，和表示该目标宽度和高度的真实值，w_i和h_i分别表示该目标高度和宽度的预测值；公式(3.4)和公式(3.5)分别为包含目标时的置信度损失和不含目标时的置信度损失，其中λ_noobj为不含目标时网络的误差系数，和C_i分别代表检测目标的置信度真值和置信度预测值；式(3.6)中和为检测目标概率的真值和目标概率的预测值；

目标检测：

在目标检测阶段，利用模型训练阶段得到的权重文件进行检测，检测时首先将输入图片执行带边缘重叠的分块，得到分块与原图共5张图片，之后将分块图片与输入图片一同输入到YOLOv3网络中，在YOLOv3网络中分别对5张图片进行预测；其中，YOLOv3网络对每张图片进行预测的具体过程如下：

首先输入图片经过YOLOv3网络的特征提取网络darknet53，darknet53网络包含53个卷积层，通过darknet53卷积之后，得到输入图片1/32尺寸的特征图；以416*416*3尺寸的输入图片为例，通过darknet53网络卷积后，将得到13*13*255尺寸的特征图，在13*13*255特征图的基础上通过上采样以及与浅层特征融合又分别得到26*26*255、52*52*25尺寸的特征图，这3个尺度下的特征图分别用于对大尺度、中尺度、小尺度目标进行预测；YOLOv3通过在这3个尺度下的特征图上分别预测得到大、中、小3个尺度下的目标，其中YOLOv3网络模型在特征图上的目标检测原理为，YOLOv3网络对特征图上的每个像素对应的网格，都会给出3个anchor进行预测，找到大小最合适的anchor，其中anchor由训练前通过对数据集进行聚类得到，之后网络输出的4个偏移量，即可得到预测框；YOLOv3对每个预测边界框，给出4个值，t_x、t_y、t_w、t_h，这4个值和预测边界框(b_x、b_y、b_w、b_h)的映射关系如公式(4.1)～(4.4)所示；

b_x＝δ(t_x)+c_x (4.1)

b_y＝δ(t_y)+c_y (4.2)

其中，t_x、t_y分别表示中心点偏移的量，t_w、t_h则表示为预测边界框的相对anchor的缩放量，其中p_w、p_h分别表示anchor的宽和高；δ(t_x)、δ(t_y)用于表示某个目标的中心点相对负责检测这个目标的网格的偏移量，其中(C_x，C_y)表示中心点坐标所在的网格；

当YOLOv3网络完成了原图加分块图片一共5张图片的预测之后，将其中4张分块图片的预测结果映射到原始图片上，最终使用NMS算法去除冗余预测结果之后得到最终的检测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于三峡大学，未经三峡大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011566195.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]YOLO和分块-融合策略结合的稠密人脸检测方法在审

专利文献下载