[发明专利]基于骨架和视频特征融合的行为分类方法有效
| 申请号: | 202011419698.2 | 申请日: | 2020-12-06 |
| 公开(公告)号: | CN112560618B | 公开(公告)日: | 2022-09-16 |
| 发明(设计)人: | 路红;汪子健;杨博弘;冉武;沈梦琦;任浩然 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 骨架 视频 特征 融合 行为 分类 方法 | ||
1.一种基于骨架和视频特征融合的行为分类方法,其特征在于,具体步骤如下:
(1)获取深度学习的训练数据;
(2)训练深度学习模型;
(3)用训练好的模型对视频进行行为分类;
步骤(1)中所述获取深度学习训练数据的具体流程为:
(11)首先处理视频数据;所有的视频数据都按30FPS处理,所有视频缩放至256×256,并同时从视频中随机抽取一段视频帧,长度为T,采样率为2,即每隔一帧采样一次;
(12)以ResNet-101-FPN为骨干的Faster-RCNN模型对流程(11)中处理好的视频数据进行人体检测,得到人体检测框;该ResNet-101-FPN为骨干的Faster-RCNN模型是在ImageNet和COCO人体关键点数据集上预训练得到的;
(13)对流程(12)中获取的人体检测框数据,在每个人体框内使用OpenPose的2D姿态估计来获取骨架数据,其数据结构为18个关节的2D空间坐标;
步骤(2)中所述训练深度学习模型,具体包括:
对于视频数据使用前景与背景特征融合网络进行训练;所述前景与背景特征融合网络是由3DCNN网络提取的背景特征与人体检测框内的前景特征进行融合的网络,其中3DCNN网络使用SlowFast网络;
对于骨架数据使用个体与群体特征融合网络进行训练;所述个体与群体特征融合网络主要由ST-GCN网络构成,通过注意力机制自适应调整个体行为在群体行为中的权重;
训练深度学习模型的具体流程为:
(21)设置模型超参数;
模型中主要超参数有:GPU个数,批次大小,动量参数,权重衰减项,学习率,丢弃率,迭代次数;
(22)超参数设置好后,开始训练,注意训练时的训练损失和验证损失值,两者同时减小说明网络预测能力正逐步增加,当两者不再减小时,说明网络已经收敛,结束训练;
(23)多次调整超参数,得到泛化性能最好的模型;
步骤(3)用训练好的模型对待分类视频进行行为分类,包括:对视频数据的处理,与步骤(1)相同;其中视频数据和人体检测框输入到前景与背景特征融合网络,骨架数据输入到个体与群体特征融合网络;最后对两者的输出结果进行平均,得到最后的分类结果。
2.根据权利要求1所述的基于骨架和视频特征融合的行为分类方法,其特征在于,步骤(2)中,对于数据集较小的情形,对数据进行数据增强处理;包括对视频数据和骨架数据同时做随机缩放,随机旋转-20度至20度,随机裁剪以及随机水平翻转操作;对视频数据做随机颜色抖动操作;针对每个骨架节点的空间位置做轻微随机抖动。
3.根据权利要求1或2所述的基于骨架和视频特征融合的行为分类方法,其特征在于,步骤(2)中,模型中超参数具体设置如下:GPU个数:设置为8;批次大小:设置为64;动量参数:这个值影响着梯度下降到最优值的速度,设置为0.9;权重衰减项:权重衰减正则项值越大对过拟合的抑制能力越大,设置为0.0001;学习率调整策略:使用带有线性warmup策略的SGDR,计算方式为η·[cos(1+i/imax·π)];其中η为初始学习率,设置为0.1,imax为总迭代次数,i为第i次迭代;丢弃率:设置为0.5;迭代次数:训练的总次数,10万次以上。
4.根据权利要求3所述的基于骨架和视频特征融合的行为分类方法,其特征在于:
前景与背景特征融合网络实现的具体流程为:
设视频片段RGB数据经过时空卷积神经网络的前向传播后得到的特征图为其中B为批大小,C为通道数,T、H和W分别为特征图的时长、高以及宽;首先对XST进行时序全局池化消去时序维度,得到接着用提前训练好的人体检测器检测出该视频段内关键帧的人体边界框,设为n×[x1,y1,x2,y2,score],其中n为检测框的数量,score为检测框的置信度;前景特征图Xf为经过ROIAlign操作后的特征;Xb为下采样后的X,也是全局特征,前景特征与背景特征的融合操作在第二维度上进行;
个体与群体特征融合网络实现的具体流程为:
使用ST-GCN作为骨架特征抽取的基本模块;对于群体骨架序列,其输入的数据为其中B代表批次大小,N代表固定的群体人数,T为时间序列长度,V为骨架节点个数;当视频帧中人数大于N时,取其中N个置信度最大的骨架序列;当视频中人数小于N时,对于缺少的人数的骨架序列都设为{B,N′,T,V}=1e-8,其中N′为缺少的人数;对于个体骨架序列,每个骨架序列Xi,1≤i≤N的维度都为{B,1,T,V};对于群体骨架序列,使用ST-GCNg进行时空图卷积,获取群体骨架特征Fg;对于每个个体骨架序列,使用ST-GCNi,1≤i≤N进行时空图卷积,获取个体骨架特征Fi;然后对不同个体的骨架特征进行融合,这里直接进行特征拼接;为了对时序维度T’和骨架节点维度V调整时空权重,先站着通道维度进行最大池化;接着将个体特征通过Sigmoid运算,把所有值转化到0到1之间,得到注意力特征,然后通过注意力特征与群体特征的点乘,使群体特征图进行一次权重重新分配,增加重要个体行为在群体行为中的权重,同时弱化非相关个体行为在群体行为中的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011419698.2/1.html,转载请声明来源钻瓜专利网。





