[发明专利]基于时空混合卷积网络的跌倒检测方法与系统有效
申请号: | 201911152346.2 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110942009B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 杨帆;冯帅;刘利卉;胡建国 | 申请(专利权)人: | 南京甄视智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 南京行高知识产权代理有限公司 32404 | 代理人: | 王培松 |
地址: | 211000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时空 混合 卷积 网络 跌倒 检测 方法 系统 | ||
1.一种基于时空混合卷积网络的跌倒检测方法,其特征在于,包括:
步骤1、通过数据截取将原始视频数据按照每一秒间隔截取成3秒的视频片断,然后截取视频片段,得到N张图片,
步骤2、将图片的最后一帧,即第N张图片作为关键帧,只对关键帧里面的人进行标注,其中标注信息包含坐标和类别,坐标信息为人所在矩形区域左上角(xmin,ymin)和矩形区域的右下角(xmax,ymax),类别为跌倒(fall down),跌倒的标注取决于关键帧之前的动作;
步骤3、特征融合,包括两个分支,第一个分支作用是人体定位,使用2D CNN网络,第二个分支是作用是分类,采用3D CNN网络,其中2D CNN网络提取位置特征,3D CNN网络提取运动特征,对提取的位置特征和运动特征进行融合后,基于融合特征进行位置回归和行为分类;所述2D CNN网络采用ResNet50作为主干网络,定位分支的输入为一张视频帧,即关键帧;
步骤4、基于行为分类和位置回归进行模型训练,模型输入图片数量为L,从步骤1得到的第1至第N-1张图片进行随机采样,同时确保最后一帧被选到,之后进行数据扩增并归一化到0-1之后输入到卷积神经网络进行初始化训练,得到预测模型;
步骤5、利用测试集对训练的预测模型进行评估,选择模型精度最高的作为最终的跌倒检测模型;
步骤6、基于步骤5输出的跌倒检测模型,输入用户的视频和/或图片进行跌倒检测;
其中,在所述步骤3中,所述3D CNN网络采用SlowFast网络作为主干网络,SlowFast网络分别由slow和fast两部分组成,输入视频帧数分别为4帧和32帧,slow和 fast部分提取到的特征维度均为1x1024x10x10,将slow和fast部分提取到的特征合并到一起得到1x2048x10x10维的特征,再将得到1x2048x10x10维的特征通过两层2D卷积Conv1和Conv2,使得3D CNN部分最终得到的特征维度为1x30x10x10。
2.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤1中,对于视频片段的截取,得到的N张图片,其中N=3*M,M为视频片段的帧率。
3.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤3中,图片输入尺寸缩放为320x320,3D CNN网络和2D CNN网络使用五次最大池化(Maxpooling),2D CNN网络和3D CNN网络最终提取的特征均为1x30x10x10,其中在特征融合过程中采用YOLO一阶段检测器。
4.根据权利要求1所述的基于时空混合卷积网络的跌倒检测方法,其特征在于,所述步骤4中的模型训练过程中,优化器采用ADAM,并对2D CNN网络和3D CNN网络的初始学习率(learning rate)和权重衰减参数(weight decay)进行单独设置:
2D CNN的基础学习率设置为0.0001,权重衰减参数设置为0.00005;
3D CNN的基础学习率设置为0.00006,权重衰减参数设置为0.0001;
其中,在随机采样和初始化训练过程中,批大小(batch size)设置成64,一共迭代90轮,每30轮两个分支的学习率同时降低一半。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京甄视智能科技有限公司,未经南京甄视智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911152346.2/1.html,转载请声明来源钻瓜专利网。