[发明专利]基于Transformer的行为识别算法在审
申请号: | 202110916002.5 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113591774A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 徐曹洁;王紫旋;朱艾春;胡方强;李义丰 | 申请(专利权)人: | 南京工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211816 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 行为 识别 算法 | ||
本发明公开了基于Transformer的行为识别算法。它完全基于一种避免重复和卷积的注意机制,它利用了计算机视觉和自然语言处理的最新进展,并将它们应用于视频理解,可以识别微妙的动作。我们首先从视频中提取人体姿态信息,然后进行位置编码,把提取的信息放到Transformer的编码模块,编码模块中的输出变成解码模块的输入,然后通过前馈网络模块进行行为识别。每个解码器都有一个自注意层和一个完全连接的网络层。每个解码器都有一个自注意层、一个正常注意层和一个完全连接层。普通注意层使解码器在解码时考虑到最后一层编码器的所有时刻的输出,所以最后一层编码器的输出需要馈给所有解码器来完成这个普通注意。同时,自我注意不包含位置关系,需要进行位置编码。从姿态估计部分提取原始视频的时空信息,输入神经网络进行提取,然后对骨架数据的时空信息进行处理,最后输出,从而实现更好的动作识别。
技术领域
本发明涉及关于姿态的人体识别方面的技术,尤其设计在一个场景下,人体行为姿态过多,存在冗余的情况下对人体姿态识别的方法改进。
背景技术
随着人体姿态估计和动作识别在智能监控、人机交互等领域的广泛应用,计算机视觉越来越受到人们的关注。现有的一些方法,其本质特性是将视频转换为动作标签,不能直接区分视频中的人体,因此来自背景的杂波和非动作动作容易导致效果不佳。为了解决这个限制,一个替代的解决方案是检测一个人,并估计在每帧的身体姿势。众所周知,一系列连续的人体姿势,为识别人类行为提供了微妙而可信的线索,有助于人类行为的形成。因此,我们可以将人体姿态估计作为人体动作识别的基础。然而,常见的动作识别方法过分强调视频中整体特征的重要性,往往忽略了人体关节的细微差异,因为视频中包含了很多不重要的信息。据我们所知,人类的行为是复杂的,并且建立在不受约束的背景之上。为了避免复杂背景和拍摄角度的负面影响,从人体姿态中提取的骨骼关节可以更有效地表征人体动作。
目前基于深度学习的方法通常将骨架构造成联合坐标向量或伪图像,然后输入到递归神经网络(RNNs)或卷积神经网络(CNNs)中。递归神经网络,尤其是长短时间记忆,已被确立为序列建模中最先进的方法,但这些基于rnn的方法往往过分强调时间信息。为此,我们提出了一种新的基于姿态的动作识别模型——Transformer。
与卷积神经网络(CNNs)和递归神经网络(RNNs)相比,卷积神经网络引入了卷积层和池化层来处理图像不变数据,递归神经网络使用循环单元来处理时间序列数据。Transformer性能更好。注意机制代替了RNN和CNN,具有较高的并行度。从注意力上看,长距离依赖强于RNN。Transformer网络连接要简单得多.它最显著的特征是多头注意机制,可以看作是一个整体。它们可以将相同的输入向量映射到不同的表达式空间,从而提高模型的表达能力。
发明内容
本发明要解决的技术问题在于,现有的基于姿态的动作识别方法很难从视频中捕捉到姿态,也不能解决人体边界帧不准确的困难。目前最先进的动作识别方法是基于CNN或LSTM的。虽然有一定的前景,但是通过实验发现在对骨架信息进行编码时,通常会丢失CNN中重要的时间信息。CNN引入的卷积层和池化层只能处理位移恒定的数据。同时,LSTM也忽略了骨架序列的空间特性,只使用循环单元来处理顺序数据或时间序列数据。与此同时,并行计算也很难获得有效的并行计算能力。因此,目前主要目的是探索新的网络架构,提高姿态识别的准确率。
本发明解决其技术问题所采用的关键技术是:
(1)基于人体姿态的行为识别
近年来,高精度的姿态估计算法和精确的深度传感器的发展为动作识别做出了许多贡献,这些方法在图像和视频的二维姿态估计方面取得了显著的改进。为了解决来自背景的杂波和非动作运动所带来的问题,检测并在每一帧中估计身体姿势作为替代解决方案,该方法在深度视频中的人体动作识别领域有很好的性能。
(2)基于骨架点的行为识别
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学,未经南京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110916002.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种梁下加固模板及浇筑方法
- 下一篇:簇绒机、簇绒方法和针距部件组件
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法