[发明专利]一种基于三维交替更新网络的视频行为识别方法有效
申请号: | 202010105277.6 | 申请日: | 2020-02-20 |
公开(公告)号: | CN111353394B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 胡建国;蔡佳辉;王金鹏;陈嘉敏;林佳玲 | 申请(专利权)人: | 中山大学;广州智慧城市发展研究院 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/774;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 广州专理知识产权代理事务所(普通合伙) 44493 | 代理人: | 王允辉 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 三维 交替 更新 网络 视频 行为 识别 方法 | ||
本发明公开了一种基于三维交替更新网络的视频行为识别方法,涉及计算机视觉领域。该视频行为识别方法包括步骤:S1、将视频分为连续的帧,对数据集进行预处理;S2、对参与训练的视频片段执行数据增强操作;S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练,获得网络的预训练模型;S4、输入测试数据得到测试数据集的行为分类结果,对经过训练的网络进行测试。本发明的方法使用3D CliquNet来提取时空信息,该网络能最大化提升深度网络中的信息流的流动,可以减少训练困难以及更有效的利用参数。通过在Kinetics数据集上进行预训练,该方法具有较高的行为识别表现以及对于复杂环境具有更好的鲁棒性。
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于三维交替更新网络的视频行为识别方法。
背景技术
人类行为识别是一项基本但具有挑战性的任务,已经进行了数十年的研究。受到卷积神经网络(ConvolutionalNeural Networks,CNNs)在图像域中取得了较大的成功所获得的启发,人们将卷积神经网络应用到行为识别中,引入深度模型用于视频域的行为识别以取代传统的手工识别方法,取得了较好的效果。
视频可以看成是由一系列具有时域关系的静态图片堆叠而成,它是三维时空信号。不同于静态图像识别只需要获取图片的空间信息,视频中的行为识别需要捕获视频的三维时空信息,包括每一帧图片所包含的空间信息以及多帧图片之间的时域信息。
行为识别中经典的识别方法包括两流卷积神经网络(two-stream)和三维卷积神经网络(3D ConvolutionalNeural Networks,3D CNNs)。两流卷积神经网络采用两个深度网络分别对视频的rgb图像和光流图像进行训练,三维卷积神经网络则利用三维卷积操作去提取视频的时间和空间特征。
两流卷积神经网络的三个主要缺点:1、两个网络的融合操作只是在最后分类评分上使用平均法或SVM执行,因此不能学习时域和空域之间像素的对应关系;2、在时间尺度上受限,空间卷积神经网络(ConvNet)仅在单个帧上操作,而时间ConvNet仅在L个时域相邻光流帧(例如L=10)的堆叠上操作,不能很好地建模视频帧之间的时域关系;3、这种方法需要提前计算光流,因此网络不能实现端到端的训练,而且计算光流需要付出昂贵的代价。
3D卷积神经网络使用3D卷积和3D池化操作直接从堆叠的视频帧中学习时空特征,但3D卷积神经网络包含过多的参数,随着层数的增加,优化难度急剧增大,因此是3D卷积神经网络的识别表现一直不如两流卷积神经网络。同时卷积神经网络(2D卷积和3D卷积)一直以来都存在一个问题,随着网络层数的增加,会遇到梯度消失和梯度爆炸的问题,即数据在多层传播后很可能会逐渐消失。残差网络(ResNet)通过“捷径连接(skip connection)”将上一层的数据直接传送到下一层或下面几层,该结构一定程度上在促进了数据在层间的流通,但接近输出的网络层还是没有充分获得网络前面的特征图。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于三维交替更新网络的视频行为识别方法。
一种基于三维交替更新网络的视频行为识别方法,其包括以下步骤:
S1、将视频分为连续的帧,对数据集进行预处理;
S2、对参与训练的视频片段执行数据增强操作;
S3、将执行数据增强操作后的训练数据放入3D CliqueNet架构中进行训练,获得网络的预训练模型;
S4、输入测试数据得到测试数据集的行为分类结果,对经过训练的网络进行测试。
优选地,在上述的基于三维交替更新网络的视频行为识别方法中,所述步骤S1的具体步骤包括:提取Kinetics数据集上每个视频的RGB帧并保存为.jpg格式的图片,然后对需要训练的视频帧通过统一采样选择一个时域位置,围绕该时域位置获得一个包含16帧的视频片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学;广州智慧城市发展研究院,未经中山大学;广州智慧城市发展研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010105277.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及电子设备
- 下一篇:装配式设备方舱圈梁型材