[发明专利]基于Transformer的行为识别算法在审

申请号：	202110916002.5	申请日：	2021-08-10
公开（公告）号：	CN113591774A	公开（公告）日：	2021-11-02
发明（设计）人：	徐曹洁;王紫旋;朱艾春;胡方强;李义丰	申请（专利权）人：	南京工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	211816 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 transformer 行为识别算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于Transformer的行为识别算法。它完全基于一种避免重复和卷积的注意机制，它利用了计算机视觉和自然语言处理的最新进展，并将它们应用于视频理解，可以识别微妙的动作。我们首先从视频中提取人体姿态信息，然后进行位置编码，把提取的信息放到Transformer的编码模块，编码模块中的输出变成解码模块的输入，然后通过前馈网络模块进行行为识别。每个解码器都有一个自注意层和一个完全连接的网络层。每个解码器都有一个自注意层、一个正常注意层和一个完全连接层。普通注意层使解码器在解码时考虑到最后一层编码器的所有时刻的输出，所以最后一层编码器的输出需要馈给所有解码器来完成这个普通注意。同时，自我注意不包含位置关系，需要进行位置编码。从姿态估计部分提取原始视频的时空信息，输入神经网络进行提取，然后对骨架数据的时空信息进行处理，最后输出，从而实现更好的动作识别。

技术领域

本发明涉及关于姿态的人体识别方面的技术，尤其设计在一个场景下，人体行为姿态过多，存在冗余的情况下对人体姿态识别的方法改进。

背景技术

随着人体姿态估计和动作识别在智能监控、人机交互等领域的广泛应用，计算机视觉越来越受到人们的关注。现有的一些方法，其本质特性是将视频转换为动作标签，不能直接区分视频中的人体，因此来自背景的杂波和非动作动作容易导致效果不佳。为了解决这个限制，一个替代的解决方案是检测一个人，并估计在每帧的身体姿势。众所周知，一系列连续的人体姿势，为识别人类行为提供了微妙而可信的线索，有助于人类行为的形成。因此，我们可以将人体姿态估计作为人体动作识别的基础。然而，常见的动作识别方法过分强调视频中整体特征的重要性，往往忽略了人体关节的细微差异，因为视频中包含了很多不重要的信息。据我们所知，人类的行为是复杂的，并且建立在不受约束的背景之上。为了避免复杂背景和拍摄角度的负面影响，从人体姿态中提取的骨骼关节可以更有效地表征人体动作。

目前基于深度学习的方法通常将骨架构造成联合坐标向量或伪图像，然后输入到递归神经网络(RNNs)或卷积神经网络(CNNs)中。递归神经网络，尤其是长短时间记忆，已被确立为序列建模中最先进的方法，但这些基于rnn的方法往往过分强调时间信息。为此，我们提出了一种新的基于姿态的动作识别模型——Transformer。

与卷积神经网络(CNNs)和递归神经网络(RNNs)相比，卷积神经网络引入了卷积层和池化层来处理图像不变数据，递归神经网络使用循环单元来处理时间序列数据。Transformer性能更好。注意机制代替了RNN和CNN，具有较高的并行度。从注意力上看，长距离依赖强于RNN。Transformer网络连接要简单得多.它最显著的特征是多头注意机制，可以看作是一个整体。它们可以将相同的输入向量映射到不同的表达式空间，从而提高模型的表达能力。

发明内容

本发明要解决的技术问题在于，现有的基于姿态的动作识别方法很难从视频中捕捉到姿态，也不能解决人体边界帧不准确的困难。目前最先进的动作识别方法是基于CNN或LSTM的。虽然有一定的前景，但是通过实验发现在对骨架信息进行编码时，通常会丢失CNN中重要的时间信息。CNN引入的卷积层和池化层只能处理位移恒定的数据。同时，LSTM也忽略了骨架序列的空间特性，只使用循环单元来处理顺序数据或时间序列数据。与此同时，并行计算也很难获得有效的并行计算能力。因此，目前主要目的是探索新的网络架构，提高姿态识别的准确率。

本发明解决其技术问题所采用的关键技术是：

(1)基于人体姿态的行为识别

近年来，高精度的姿态估计算法和精确的深度传感器的发展为动作识别做出了许多贡献，这些方法在图像和视频的二维姿态估计方面取得了显著的改进。为了解决来自背景的杂波和非动作运动所带来的问题，检测并在每一帧中估计身体姿势作为替代解决方案，该方法在深度视频中的人体动作识别领域有很好的性能。

(2)基于骨架点的行为识别

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京工业大学，未经南京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110916002.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Transformer的行为识别算法在审

专利文献下载