[发明专利]一种基于注意力机制的行为识别系统有效

申请号：	201910064529.2	申请日：	2019-01-23
公开（公告）号：	CN109871777B	公开（公告）日：	2021-10-01
发明（设计）人：	招继恩;朱勇杰;王国良;张海;谭大伦;周明	申请（专利权）人：	广州智慧城市发展研究院;中山大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04
代理公司：	广州专理知识产权代理事务所(普通合伙) 44493	代理人：	谭昉
地址：	510000 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制行为识别系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于注意力机制的行为识别系统，由输入、中间Block、输出构成；所述系统整个网络结构基于Inception V3,选择在其中一个Block加入提出的两个Attention Module；其中使用Channel Attention模块来提取通道间依赖，通过使用Spatial Attention来获取空间的依赖。本发明为了克服错误标签和背景信息的影响。使用残差学习将通道注意力和空间注意力结合起来。并使用自我注意作为网络的一部分来获取更长期的时间信息。在模型中，利用了空间和通道的注意力，并且在模块设计中只使用二维通道的注意力。

技术领域

本发明涉及行为识别，具体涉及一种基于注意力机制的行为识别系统。

背景技术

目前，由于Convolutional Neural Network(CNN)已经在图像分类方面取得了巨大成功，因此学界已经提出了许多基于CNN的方法来推动动作识别的性能。这些神经网络可以分为两种类型，2D卷积网络(通常使用一个RGB帧或多个流帧作为输入)和3D卷积网络(使用多个帧作为输入并同时整合空间和时间信息)。由于缺乏时间信息，一些基于2D的CNN使用并行结构来处理多RGB帧并在最后一层融合以获得时间信息。

通过堆叠一系列卷积层，CNN能够捕获远程依赖性信息。特殊层中的每个学习过滤器在本地感知域中操作，因此变换输出的每个单元不能利用该区域之外的全局信息。在网络的较低层中问题变得更加严重。但人类动作识别通常需要对整个身体和周围场景进行连贯的理解。发现远程依赖性是视频动作识别的核心。除了这个问题，视频在帧内和帧间有许多与人类行为的无关信息。

事实证明，注意力机制是帮助网络关注重要部分并减少背景响应的有效方法。在认知理论里，人们依次关注场景的不同部分来提取相关信息。注意力机制已被证明在如图像标题生成，机器翻译，图像识别等领域有较好的效果。其中大多数方法都是基于循环神经网络。SENet设计了类似与注意力的权重分布模块，可以在卷积神经网络中使用，并通过使用注意机制而不考虑空间来关注信道注意和重新加权信道权重。

我们的目标是通过使用注意机制来提高网络的表达能力：捕获远程依赖关系并关注特征中的重要部分。此外，从头开始训练3D CNN需要大型标记数据集，如Kinetics，然后在目标数据集上进行微调。我们提出了一种新的微调策略来提高性能。

现有的技术方案一为深度残差网络ResNet,深度残差学习是为了学习恒等映射而设计的。该方法是一种有效的防止过拟合和增加前向神经元网络深度的方法。最近的研究表明，可以通过显式地嵌入学习机制来改善网络的性能，这些学习机制有助于捕获空间相关性，而不需要额外的监督。这种方法在先启体系结构中得到了推广，它表明网络可以通过在模块中嵌入多尺度过程来实现具有竞争力的精度。

现有的技术方案二为Attention Network，人类的感知并不倾向于一次处理整个场景，而是有选择地将注意力集中在视觉空间的某些部分，以便在需要的时候和地方获取信息。注意机制的硬注意和软注意是两种典型的注意机制。最近工作中开发的软注意力可以端到端的训练卷积神经网络。Self-attention在机器翻译中得到了广泛的应用，它绘制了输入和输出之间的全局依赖关系。

现有技术方案一中没有考虑注意力机制，对不同的通道没有进行权重再分配，使得很容易受到背景信息和错误标签的影响。尤其是由于人为原因，在数据打标签的过程中产生了错误，神经网络仍然会当作正确的数据进行拟合。

现有技术方案二中，没有综合考虑两个不同的方面：通道之间和空间位置之间的信息，每一个通道代表一类特别的视觉关注类型，而通道内的每一个部分也应该赋予不同的权重。现有的方法把它们当作一样进行处理。

发明内容

本发明针对上述问题，提供了一种基于注意力机制的行为识别系统。

本发明采用的技术方案是：一种基于注意力机制的行为识别系统，由输入、中间Block、输出构成；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州智慧城市发展研究院;中山大学，未经广州智慧城市发展研究院;中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910064529.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于注意力机制的行为识别系统有效

专利文献下载