[发明专利]基于时空混合卷积网络的跌倒检测方法与系统有效
申请号: | 201911152346.2 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110942009B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 杨帆;冯帅;刘利卉;胡建国 | 申请(专利权)人: | 南京甄视智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 南京行高知识产权代理有限公司 32404 | 代理人: | 王培松 |
地址: | 211000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时空 混合 卷积 网络 跌倒 检测 方法 系统 | ||
本发明提供一种基于时空混合卷积网络的跌倒检测方法与系统,采用时空混合卷积网络的检测方法,把检测分为定位(坐标回归)和分类两部分,结合2D CNN和3D CNN的时空混合卷积网络,同时获取到优质的位置特征和类别特征,坐标回归完的特征全由2D CNN生成,分类的特征则是由3D CNN特征生成。然后将位置特征和类别特征进行融合,进行模型训练得到预测模型。利用预测模型对视频流输入进行检测最终得到预测结果,即是否有人跌倒。本发明具有便捷的扩充网络的识别能力,解决了现有检测方法的精度低,速度慢,扩展性差的问题。
技术领域
本发明涉及人脸与行为识别技术领域,具体而言涉及一种基于时空混合卷积网络的跌倒检测方法与系统。
背景技术
现有跌倒检测技术主要有两种,第一种是通过单张图片进行检测,这种技术只考虑单张图片信息,即只考虑空域信息,没有考虑到时序信息,通常很难得到较好的精度。第二种是基于二阶段的单帧目标检测器进行设计,将二阶段检测器的2D CNN主干网络用3DCNN主干网络替换,3D CNN用于提取视频序列的时序特征,区域提出网络直接使用独立的单帧目标检测器在关键帧上回归出的坐标进行替换,然后把坐标映射到提取的视频流特征上,最后通过三维区域降采样进行行为分类,即识别出是否跌倒。这种方法存在会丢失过多的目标上下文信息、不能端到端训练,以及计算量大的缺点。
因此可见,目前的检测方法的缺陷都给跌倒检测的应用都造成了很大的障碍。
发明内容
本发明目的在于提供一种基于时空混合卷积网络的跌倒检测方法,包括:
步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,
步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注;
步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;
步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
步骤5、利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型;
步骤6、基于步骤5输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测。
优选地,所述步骤2中,标注信息包含坐标和类别,坐标信息为人所在矩形区域左上角(xmin,ymin)和矩形区域的右下角(xmax,ymax),类别为跌倒(fall down),跌倒的标注取决于关键帧之前的动作。
优选地,所述步骤3中,所述2D CNN网络采用ResNet50作为主干网络,定位分支的输入为一张视频帧,即关键帧。
优选地,所述步骤3中,所述3D CNN网络采用SlowFast网络作为主干网络,SlowFast网络分别由slow和fast两部分组成,输入视频帧数分别为4帧和32帧,slow和fast部分提取到的特征维度均为1x1024x10x10,将slow和fast部分提取到的特征合并到一起得到1x2048x10x10维的特征,再将得到1x2048x10x10维的特征通过两层2D卷积Conv1和Conv2,使得3D CNN部分最终得到的特征维度为1x30x10x10。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京甄视智能科技有限公司,未经南京甄视智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911152346.2/2.html,转载请声明来源钻瓜专利网。