[发明专利]一种基于卷积神经网络级联的大场景监控图像人脸检测方法有效
申请号: | 201810554292.1 | 申请日: | 2018-06-01 |
公开(公告)号: | CN109002753B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 卜伟;周传宏 | 申请(专利权)人: | 上海大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/774;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 级联 场景 监控 图像 检测 方法 | ||
1.一种基于卷积神经网络级联的大场景监控图像人脸检测方法,其特征在于包括以下步骤:
(1)收集整理大场景监控图像数据并做详细标注;
(2)融合人脸区域及其语义信息,即脸部及其周围肩膀区域的级联卷积神经网络结构设计;
(3)融合人脸区域及其语义信息的级联卷积神经网络模型训练;
所述步骤(1)收集整理大场景监控图像数据并做详细标注,包括以下步骤:
(1-1)采集广场、或车站、或体育场的大场景区域的监控图像数据;
(1-2)使用labelImg图像标注软件对步骤(1-1)采集的图像数据进行标注,标注包括“人脸矩形区域位置”和“人脸语义信息—脸部及其周围肩膀区域矩形区域位置”,标注后生成XML文件;
(1-3)对标注后生成的XML文件,使用Python编写程序,将XML文件中保存的标注位置坐标转换为对应的文本文件,将人脸区域位置坐标与对应的人脸语义信息矩形区域位置一一对应保存,作为数据集的标注文件;
所述步骤(2)融合人脸区域及其语义信息,即脸部及其周围肩膀区域的级联卷积神经网络结构设计,包括以下步骤:
(2-1)以级联卷积神经网络结构为基础,融合人脸区域语义信息特征;
(2-2)针对级联网络结构的第二级和第三级网络,增加一个人脸区域语义信息特征输入端,通过卷积神经网络同时提取人脸区域特征和对应的语义信息特征,然后在网络的高层将两种特征融合,得出检测区域属于人脸的概率;
所述步骤(3)融合人脸区域及其语义信息的级联卷积神经网络模型训练包括以下步骤:
(3-1)为了保证训练的时候人脸和人脸语义信息数据的一一对应关系,采用将训练数据整体打包为hdf5格式文件的方式来训练模型,首先制作一个TXT文件,文件中的每一行的内容为:“人脸样本路径”、“对应的头肩样本路径”,“标签值”;
(3-2)使用Python调用HDF5库将训练数据转换为“.h5”文件,即包含训练数据和标签值的hdf5格式文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810554292.1/1.html,转载请声明来源钻瓜专利网。