[发明专利]一种基于可视化编译器的人物和姿势检测方法在审
申请号: | 201710103927.1 | 申请日: | 2017-02-24 |
公开(公告)号: | CN106897697A | 公开(公告)日: | 2017-06-27 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 可视化 编译器 人物 姿势 检测 方法 | ||
技术领域
本发明涉及人物姿势检测领域,尤其是涉及了一种基于可视化编译器的人物和姿势检测方法。
背景技术
人体动作姿势的检测在视频监控、虚拟现实、人际智能交互等领域的广泛应用而成为计算机视觉领域的研究热点,其可以用于公共场合的智能监控和人群中危险姿势的监控等。虽然近年来国内人体姿势检测的研究取得了重要进展,但人体姿势的高复杂性和多变化性使得识别的精确性和高效性并没有完全满足相关行业的使用要求。不同的光照、视角和背景等条件会使得人体行为在姿势和特性上产生差异,此外人体自遮挡、部分遮挡、人体个体差异、多人物识别等都是人体姿势检测复杂性在空间上的体现,所以人物和姿势检测方法需要进一步研究。
本发明提出了一种基于可视化编译器的人物和姿势检测方法,先用场景描述作为可视化编译器的输入,用标定好的真实数据注释来训练行人检测系统和姿态估计系统,再通过合成数据学习网络;接着使用剩余模块和空间置信模块这两个基本单位来定义网络,最后用姿势网络定位行人。本发明可以自动获得检测的注释、身体部位位置和分割掩码,通过使用摄像机来对行人进行定位,估计其姿势并进行活动分析;减少了光照、遮挡等对检测的影响,有效地提高了识别效率。
发明内容
针对光照、遮挡等会产生影响的问题,本发明的目的在于提供一种基于可视化编译器的人物和姿势检测方法,先用场景描述作为可视化编译器的输入,用标定好的真实数据注释来训练行人检测系统和姿态估计系统,再通过合成数据学习网络;接着使用剩余模块和空间置信模块这两个基本单位来定义网络,最后用姿势网络定位行人。
为解决上述问题,本发明提供一种基于可视化编译器的人物和姿势检测方法,其主要内容包括:
(一)场景描述的数据合成;
(二)通过合成数据学习网络;
(三)采用基本块定义网络;
(四)姿势网络(Pose Net)联合定位。
其中,所述的可视化编译器,用于生成场景特定的人类检测和姿态估计系统;其已知信息有:
(1)相机的内在参数和外在参数;
(2)场景粗略的物理几何布局(行走、坐着、站立)和可能被遮挡(障碍)或物理上不存在的区域(墙)的场景区域;
(3)场景各个区域行人的姿势和方向;
与单个图像一起,场景描述作为编译器的输入,在场景的有效区域中合成物理上接地和几何上精确的人;编译器学习区域特定模型的集合,用于人的检测、姿态估计和分割;在推理期间,这些特定模型中的每一个区域在其对应的区域上同时运行。
其中,所述的场景描述的数据合成,需要高质量的标定好的真实数据注释来训练行人检测系统和姿态估计系统;无需复杂的人工手动标记过程,可视化编译器使用场景描述模拟适用于场景每个区域的行人外观,从而扩展到大量场景中。
进一步地,所述的场景描述,给定场景描述,编译器首先生成场景的平面3D模型来包围障碍物,即拟合地平面,平面壁和立方体;然后使用相机参数来考虑相机镜头特性(例如,广角相机中的透视失真)和用于渲染几何精确的人的场景;除了在场景的每个“有效行人位置”呈现人的外观之外,渲染管道还可以精确地控制人类外观的变化,如性别、高度、宽度、取向和姿态;虚拟人类数据库包括139个不同的模型,涵盖性别、服装颜色和种族;编译器可从0度到360度,也可以由任何先前的可用信息引导;
为了给渲染图像中的人生成标定好的真实数据标记,首先使用以下标签将属性关联到每个3D虚拟模型:分割掩码27个部分的3D位置以及用于检测的人的中心位置;然后从3D注释和相机投影参数自动提取用于训练的2D标签,这个过程允许生成一致的无噪声标签;此外,还可以均匀地跨越所有的外观、方向、姿势或位置的变化。
其中,所述的通过合成数据学习网络,使用产生的场景特定数据,可视化编译器产生深度神经网络形式的可视化程序,根据场景描述的规范操作训练;
由可视化编译器生成的可视化程序共同完成以下任务:行人的本地化,定义其姿势的界标,并分割定义它们的像素;为了预测行人位置、姿态和分割掩模,网络必须对行人的全貌,地标的局部外观以及这些部件的有效空间配置之前的模型进行建模;为了捕获外观、完整的行人和当地地标外观,学习将RGB输入映射用于行人、局部地标和分割掩码的精确定位的热图回归问题;通过空间置信(SB)模块学习部件位置之间的空间关系上的先验,空间置信模块考虑行人、局部地标和分割掩码的热图之间的相关性;将这种可视化程序的特定实例化称为姿势网络(Pose Net)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710103927.1/2.html,转载请声明来源钻瓜专利网。