[发明专利]一种基于多维融合特征的视频群体人物定位检测方法有效
申请号: | 201910235608.5 | 申请日: | 2019-03-26 |
公开(公告)号: | CN109903339B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 陈志;掌静;岳文静;周传;陈璐;刘玲;任杰;周松颖;江婧 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06K9/00 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 刘珊珊 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多维 融合 特征 视频 群体 人物 定位 检测 方法 | ||
本发明公开一种多维融合特征的视频群体人物定位检测方法。该发明首先抽取多层级视频特征图,建立自顶向下和自底向上的双向特征处理通道充分挖掘视频的语义信息,接着融合多层级视频特征图获取多维融合特征,抓取视频候选目标,最后并行处理候选目标位置回归和类别分类,完成视频群体人物定位检测。本发明通过融合多层级特征获得丰富的视频语义信息,同时进行多任务预测操作,有效提升群体人物定位检测的速度,具有良好的准确率和实施性。
技术领域
本发明涉及计算机视觉、模式识别等交叉技术领域,尤其是一种基于多维融合特征的视频群体人物定位检测方法。
背景技术
随着视频采集和图像处理技术的发展,视频群体人物定位检测是当前计算机视觉领域的一个热门的研究方向,具有广泛的应用价值,并且它也是更多高层计算机视觉问题的基础,比如密集人群监控、社交语义分析等。
视频群体人物定位检测的任务内容对人眼来说不是难事,主要是通过对不同颜色区块的感知定位、分类出目标人物的所在位置,但是对于计算机来说处理的是RGB矩阵,如何从场景中分割出群体人物所在的区域位置,并减少背景区域对定位检测的影响是件难事。
视频群体人物定位检测算法的发展经历了边界框回归、深度神经网络兴起、多参考窗口发展、难样本挖掘与聚焦和多尺度多端口检测这几个跨越式技术的进步,按照算法核心可以分为两个类型,一种是基于传统手工特征的定位检测算法,另一种是基于深度学习的定位检测算法。在2013年以前,对视频或图像中人物的定位检测主要基于传统的手工特征,受到特征描述和计算能力的限制,计算机视觉研究人员尽其所能设计多元化的检测算法弥补手工设计特征在图像特征表达能力上的不足,并使用精巧的计算方法对检测模型加速,降低时空消耗。在这其中出现了几种代表的手工特征检测算法,Viola-Jones检测器、HOG检测器、可变形部件模型检测器。
随着深度神经网络的兴起,基于深度学习的检测模型克服了传统手工特征检测算法对特征描述有限的缺点,从大数据中自动学习特征的表示,其中包含成千上万的参数,针对新的应用场景经过训练学习很快能够获取新的有效的特征表示,基于深度学习的检测模型主要分为基于区域提名和基于端到端两个方向。基于区域提名的检测模型首先对待检测图像选出大量的区域候选框,这些候选框中可能包含要检测的目标,再提取每个候选框的特征获取特征向量,分类特征向量获取类别信息,最后进行位置回归得到对应的坐标信息。基于端到端的检测舍弃了候选框提取,直接将特征提取、候选框回归和分类放在一个卷积网络中完成。
由于群体人物行为具有集体性和多元性的特征,是人与人之间的行为交互和人与环境之间的行为交互的集合,所以在群体人物行为发生过程中易发生人与人相互遮挡或人与物的相互遮挡,再加之视频成像时光照变化等因素的干扰,现有的基于深度学习的检测模型在检测过程中会因为这些干扰因素不能准确定位人物位置,甚至造成人物漏检。
发明内容
发明目的:在群体人物场景中,由于同时存在多个人物,为了能够有效地定位检测群体人物,需要对每个人物进行精准地特征描述。现有的基于深度学习的检测模型通常采用单层级顶层视频特征作为检测依据,虽然顶层视频特征包含丰富的视频语义,但是回归出的人物位置比较粗糙。近年来,也出现了一些使用多层级融合视频特征的检测模型,这些模型的视频特征虽然融合底层视频特征以提升检测准确率,但在特征融合的过程中只使用了单向融合结构,这会导致每个层级特征图只包含当前层级以及更高层级的特征信息,不能体现所有层级特征的映射结果,从而使检测结果不能达到最优。为克服现有技术的缺陷,本发明提出一种基于多维融合特征的视频群体人物定位检测方法,该方法提取多层次的视频特征,采用双向处理通道融合多层次视频特征形成多维融合特征,能够有效地利用所有层级的特征信息获得丰富的视频语义信息,从而对视频中的人物特征进行更加全面的描述,同时并行进行多任务预测操作,有效提升群体人物定位检测的速度,具有良好的准确率和实施性。
技术方案:为实现上述目的,本发明提出的技术方案为:
一种基于多维融合特征的视频群体人物定位检测方法,包括顺序执行的步骤(1)至(8):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910235608.5/2.html,转载请声明来源钻瓜专利网。