[发明专利]一种基于时序注意力模型的动作预测方法在审

专利信息
申请号: 202210610980.1 申请日: 2022-05-31
公开(公告)号: CN114913465A 公开(公告)日: 2022-08-16
发明(设计)人: 徐涛;黄焯旭;韩军功;范振坤;雷超;程王婧 申请(专利权)人: 谙迈科技(宁波)有限公司
主分类号: G06V20/40 分类号: G06V20/40;G06V40/20;G06V10/82;G06V10/80;G06V10/764;G06V10/20;G06N3/04;H04N19/172
代理公司: 嘉兴启帆专利代理事务所(普通合伙) 33253 代理人: 林鸳
地址: 315043 浙江省宁波市鄞*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 时序 注意力 模型 动作 预测 方法
【权利要求书】:

1.一种基于时序注意力模型的动作预测方法,其特征在于:包括以下步骤:

1)视频数据采样:选用带每帧对应动作标注的稠密视频流作为训练视频,在视频流数据中采样一定帧数的图像;

2)图像预处理:对步骤1)中采样的图像进行归一化处理,再对图像进行缩放、裁剪、翻转处理;

3)时序注意力模型的建立与训练:时序注意力模型包括编码器、解码器以及预测分类器三部分;

①编码阶段,利用transformer模型对图像的强大解析能力,使用预训练VisionTransformer(ViT)模型对帧图像进行编码;Vision Transformer模型包括PatchEmbedding(PE)模块、Self-Attention(SA)模块、前馈网络(FFN)模块以及残差连接几部分;

Self-Attention模块通过注意力机制计算各个分块两两之间的权重并进一步进行特征融合;使用多层线性层将X映射到高维度空间,分别表示为:

Q=Wq*X

K=Wk*X

V=Wv*X

其中X为输入图像,Q是查询矩阵,K是关键字矩阵,V是值矩阵,Wq、Wk、Wv分别表示Q、K、V所对应的学习参数,通过Q、K可计算得到各个分块两两之间的关系,即注意力图Am,再通过注意力图Am与V即可计算得到每个分块的权重;

Am=SoftMax((Q*K)/sqrt(D)

其中SoftMax指对于计算结果使用指数归一化,D表示Q、K、V的特征通道数,sqrt表示开方操作;

Self-Attention模块计算得到特征F1可表示为:

F1=Am*V;

②解码阶段:解码器包括Multi-Head Self-Attention模块、虚拟帧结构以及时序推理结构;

I)Multi-Head Self-Attention模块:解码过程中的输入为编码后的帧图像的高维特征表示;所计算的特征为解码过程中帧与帧之间的时空上下文信息;

Multi-Head机制的引入如下:

Q=[Q1,Q2,...,Qh],Qh=Wq_h*X

K=[K1,K2,...,Kh],Kh=Wk_h*X

V=[V1,V2,...,Vh],Vh=Wv_h*X

II)位置编码:引入帧位置编码与注意力图编码,以增强帧图像特征;帧位置编码,将帧图像按先后顺序编号并通过标准embedding层编码为高维特征Pe;

注意力图编码将步骤①计算得到的注意力图Am通过标准多层感知器进行编码,得到高维特征Ae,

则解码器的初始输入为:

Input=Pe+Fe

其中,Fe为编码阶段的最终输出;

设定第一层Transformer的计算过程为:

TF_1=FFN(MHSA(Input))

MHSA是Multi-Head Self-Attention模块的计算过程,FFN为前馈网络模块的计算过程;

则第n层Transformer的计算过程为:

TF_n=FFN(MHSA(TF_n-1+Ae))

如上所述,Ae为来自第n-1层Transformer的注意力图编码;

III)虚拟帧结构,将初始化的虚拟帧等同于真实帧图像特征,并根据预测目的赋予其对应的位置编码,再一同输送到多头注意力模型中进行解码;

定义该虚拟帧为Vf,则引入虚拟帧结构后解码器初始输入为:

Input=Pe+Concatenate(Fe,Vf)

其中Concatenate()为标准拼接操作;

IV)时序推理结构:

将完整的T帧图像特征序列划分为互不重合的序列片段,每个片段包含t帧序列,再分别输入到多头注意力模型中,即多头注意力模型的输入序列长度被限制为t;通过递归的推理方式可以将完整的序列循环解码,最终得到所需的解码特征;

③预测分类器:通过标准MLP将解码得到的帧图像特征的通道数映射为具体动作类别数,取通道最大值作为分类结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谙迈科技(宁波)有限公司,未经谙迈科技(宁波)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210610980.1/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top