[发明专利]一种基于多尺度卷积神经网络的人群密度估计方法有效
申请号: | 201910186683.7 | 申请日: | 2019-03-13 |
公开(公告)号: | CN110020606B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 王素玉;付宇豪;杨滨;于晨;姬庆庆 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多尺度卷积神经网络的人群密度估计方法,在视频监控领域,为了可以提升人群密度估计的准确性,本方法提出了一种基于多尺度卷积神经网络的网络结构,可以在场景中准确地预测人群密度图。本方法通过利用空洞卷积与原始卷积进行不同感受野信息的特征融合,以及融合不同分辨率下特征图不同的层级语义信息,从而生成具有更高质量的人群密度图。实验在当前较为流行的ShanghaiTech数据集、UCF_CC_50数据集以及WorldExpo‘10数据集上进行测试,使用平均绝对误差(MAE)和均方误差(MSE)作为评价标准。结果表明,该网络模型与以往的方法进行对比,降低了MAE值和MSE值,提高了人群密度估计的准确性。 | ||
搜索关键词: | 一种 基于 尺度 卷积 神经网络 人群 密度 估计 方法 | ||
【主权项】:
1.一种基于多尺度卷积神经网络的人群密度估计方法,其特征在于:该方法的实现过程如下,S1.1人群密度图的生成由于网络模型需要经过训练才能从输入图像中估计出人群密度图,因此训练数据中给出的密度图的质量很大程度上决定了该方法的性能;这里,首先介绍如何将带有人头标注的图像转换为人群密度图;如果在像素xi处存在标注,将xi处标记的人头用狄拉克函数表示为δ(x‑xi),因此具有N个头部标注的图像可以表示为:
为了使具有标注的图像可以转换为连续的密度图,将H(x)与高斯核函数进行卷积,得到结果即为最终的密度图:ρ(x)=H(x)*Gσ(x).假设在标注的头部区域的周围,人群密度分布是均匀的,则该点与其最近的k个邻点之间的平均距离,给出了一个对于几何形变的合理估计;通过图像中每个人头部大小,确认高斯核函数中的传播参数σ;在拥挤的人群图像中,头部大小与两个相邻的头部之间的距离有一定的关系,所以,根据最近的相邻的平均距离自适应地确定每一个人头的参数;对于给定的标注位置xi,将所有与其的k个最近邻的距离表示集合Di={d1i,d2i,...,dki};平均距离
与xi相关联的像素位置对应于场景中地面上的一个区域,这个区域的半径与di成正比;因此,为了估计出xi周围的人群密度,需要把H(x)卷积一个自适应的高斯核函数,这个高斯核的方差σi是可变的且与di成正比,假设设定比例系数为β,则这个人群密度图表示为:
针对比例系数β,将带有密度核的标签H与每个标记点周围的局部几何相适应,称为几何自适应核;经过大量实验后,β=0.3是是目前所得到的最优解;得到一个相对准确能够反映出人群空间信息的人群密度图,以此为标注从而完成整个网络的监督训练,使得最终生成的网络模型具备感知图像空间几何分布的能力;S1.2网络结构与设计网络结构是人群密度估计的核心关键,为了更好的将浅层特征与深层特征融合;输入图像为3通道的RGB人群图像,首先通过4个卷积层和2个下采样层生成通道数为64、大小为原图1/4的特征图;对此时得到的特征图经过两种处理:一、经过2个卷积核为3X3的卷积层,将其结果保留并进行下采样;二、经过2个卷积核为3×3,扩张率为2的空洞卷积,将其结果保留连接至网络末端;将此操作重复两次,此时,得到通道数为512,大小为原图1/32的特征图,对其进行上采样和卷积,将得到的特征图、上一阶段通过卷积生成的特征图及通过空洞卷积生成的特征图,进行特征融合,生成通道数为512,尺寸大小为1/16的特征图,以此类推,将每一层经过上采样层生成的特征图与上一阶段的两种特征图进行融合,重复两次,最后通过一个1X1的卷积核进行卷积,输出一张尺寸为1/4原图大小的人群密度图;在网络中,所有的卷积层都使用填充来保持以前的大小不变,选择ReLU作为每个卷积层后的激活函数;在网络结构提取特征的过程中,采用空洞卷积进行了特征提取;参数为扩张率rate代表了空洞的大小;空洞卷积与普通卷积的不同点在于具有更大的感受野;S1.3损失函数本方法采用损失函数的表达式为:
x表示网络预测值与真实值之间的损失,SmoothL1损失函数是L1损失函数与L2损失函数结合的复合函数;具有L1损失函数对离群点不敏感的特性,同时具备L2损失函数使网络更快收敛的特点,SmoothL1损失函数广泛应用于神经网络的回归问题;网络训练:网络训练对深度学习来说是非常重要的,相同的网络结构如果使用不同的训练方法训练,结果也会有很大的差异;训练过程中要先对数据集进行图像预处理,将训练集中的图像进行水平翻转、裁剪几何变换方式,扩增训练样本数量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910186683.7/,转载请声明来源钻瓜专利网。
- 上一篇:提示方法、装置及系统
- 下一篇:一种基于空间分维理论寻找相似流域的方法