[发明专利]一种基于堆叠递归单元的多级残差网络的动作识别方法在审
申请号: | 201810081796.6 | 申请日: | 2018-01-29 |
公开(公告)号: | CN108280436A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/08;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 残差 递归 堆叠 动作识别 网络 映射 激活 动作预测 光照变化 快速移动 时间步骤 视点变化 视频表示 网络表示 信息结合 预测结果 整体效率 残差块 堆叠层 数据集 构建 推入 遮挡 融合 输出 预测 | ||
1.一种基于堆叠递归单元的多级残差网络的动作识别方法,其特征在于,主要包括残差网络(一);堆叠递归单元(二);数据集(三)。
2.基于权利要求书1所述的残差网络(一),其特征在于,残差网络(ResNet)将所需的残差映射表示为Φ(x),并且针对每个被称为构建块的堆叠层描述F(x)=Φ(x)-x的另一映射;每个块根据深度的要求包含两层或三层,其中两层为3×3和3×3卷积核,三层分别为1×1,3×3和1×1的卷积核;修正线性单元(ReLU)激活层之间用于引入非线性;采用1×1卷积核的目的是在保持相似时间复杂度的同时降低计算复杂度;通过参照层的输入,学习残差函数可以解决随深度增加而引起的退化问题,且易于优化;一般情况下,ResNet由多个残留块组成,每个块从下到上执行短连接,其信息从浅层流向深层;使用ResNet-34来构建不同级别的表示。
3.基于权利要求书2所述的ResNet-34,其特征在于,选择最后三组残差块的输出激活作为Al,Am,Ah的低、中、高级表示,并分别命名ResNet-34的不同层的低、中、高级;然后将这些外观表示推入堆叠递归单元(SRU)中以获得时间和深度上的视频表示;
考虑ResNet-34层,输出激活张量A∈RC×H×W可以表示为:
Alevel=[Al1,Al2,…,AtN],Al,i∈RC (1)
其中,level∈[低,中,高],N=H×W;特别地,Al∈R128×28×28,Am∈R256×14×14,Al∈R512×7×7;平均这些激活张量A∈RC×H×W,并产生描述符xfeature∈RC,馈入SRU。
4.基于权利要求书1所述的堆叠递归单元(二),其特征在于,递归过程中门状态的计算依赖于前一个时间隐藏状态ht-1,这大大缓解了计算速度;门状态的计算如下所示:
Statei,t=σ(Wxixt+Whiht-1+bi) (2)
其中,在时刻t,Statei,t表示输入门状态、隐藏门状态和忘记门状态;显然,最后一步的隐藏ht-1被用于确定门状态;基于此,使用SRU来处理帧的时间信息;SRU架构如下所示:
ft=σ(Wfxt+bf) (4)
rt=σ(Wrxt+br) (5)
其中,ft和rt是S型函数门,称为遗忘门和复位门;g(·)是双曲正切函数;SRU通过在递归过程中舍弃ht-1,简化状态计算;内部状态ct的更新仍然取决于之前的状态ct-1;输入向量xt被传递到SRU模块,ft,Rt可以同时计算出来;公式(6)和公式(7)的操作是元素级别的;之后进行平均激活张量。
5.基于权利要求书4所述的平均激活张量,其特征在于,如公式(1),平均激活张量如下式所示:
作为framet的定长矢量表示,并在时间步t将其放入SRU中;使用不同方法来融合每个时间步骤的所有预测,采用平均池和最大池来进行最终的动作预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810081796.6/1.html,转载请声明来源钻瓜专利网。