[发明专利]一种基于时序注意力模型的动作预测方法在审
申请号: | 202210610980.1 | 申请日: | 2022-05-31 |
公开(公告)号: | CN114913465A | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 徐涛;黄焯旭;韩军功;范振坤;雷超;程王婧 | 申请(专利权)人: | 谙迈科技(宁波)有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/82;G06V10/80;G06V10/764;G06V10/20;G06N3/04;H04N19/172 |
代理公司: | 嘉兴启帆专利代理事务所(普通合伙) 33253 | 代理人: | 林鸳 |
地址: | 315043 浙江省宁波市鄞*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时序 注意力 模型 动作 预测 方法 | ||
本发明公开了一种基于时序注意力模型的动作预测方法,基于深度学习,搭建时序注意力模型,该模型通过self‑attention模块对来自视频的图像帧数据进行特征解析,并融合时序模型,递归式地整合时空上下文信息,并通过自监督方式进行推理并拟合,从而可预测长期的未来动作;引入虚拟帧结构,将复杂的预测任务简化为针对虚拟帧的动作分类任务,进而最大程度发挥现有模型整合信息与分类的能力,更有效地能够解决现有算法检测准确性低、预测时长短等问题。
技术领域
本发明涉及计算机视觉图像处理领域,特别涉及一种基于时序注意力模型的动作预测方法。
背景技术
人体动作预测是计算机视觉与人工智能领域的新兴任务,其应用场景包括且不限于,自动驾驶中的行人轨迹预测、家用辅助机器人、游戏VR感知等。同时,针对居家养老的视频检测而言,能够对人体进行未来动作的预测在预防摔倒与紧急救助等场景下有着重要作用。人体动作预测要求算法模型超越当前的时空视觉分类建模,从而预测未来动作的多模态分布。不同于动作识别任务可以规避时间推理而合理地整合完整上下文信息,动作预测任务要求对过去的动作进行建模而对下一动作进行预测,使得人体动作预测任务十分复杂困难,而长期的时空上下文进行建模是该任务的核心。
典型的长期时空上下文建模方式包括对采样的帧图像或片段进行特征提取,再利用基于聚类、递归或注意力机制的模型进行特征聚合,并直接输出预测动作的分类结果。大多数此类模型仅在时间范围内聚合特征,而缺少考虑对视频帧的时间序列演化进行建模,因而往往无法预测准确。
另一种方案是基于时序LSTM模型对短期动作进行预测(如下一帧发生的动作),该类方案使用递归的方式整合上一帧信息并预测下一帧信息,不断向前推理从而实现预测。但由于长期预测过程中模型产生的误差不断积累,这种方案在长期预测的场景下失去作用,无法满足居家养老场景中以预测为核心的需求功能。
最新的方案利用注意力机制的长期感知能力,构建Transformer模型对视频数据进行分析并预测下一步动作,该类方案能够很好地整合上下文信息,同步地对帧信息进行整合预测,并采用自监督的方式最大程度地消除长期预测过程中模型产生的误差,能够较好地实现预测功能。但注意力模型要求较大算力(如大规模GPU集群运算),计算复杂度随处理的数据量以平方的速率增长,因而难以处理大批视频数据,且难以部署到产品中。受限于此,这种方案同样难以进行更长期预测。
另一方面,深度学习模型的性能很大程度取决于所用的训练数据对特定任务的拟合程度,而由于缺少相关场景数据用于模型训练,现有动作预测方案并不能直接应用到居家养老中来。
综上所述,人体动作预测的现有技术方案仍存在预测时长短、预测精度不足、计算量大等缺陷,且受限与特殊应用场景,无法满足居家养老场景中的预防摔倒与紧急救助需求。
发明内容
为了解决上述问题,本发明提供了一种基于时序注意力模型的动作预测方法,利用时序注意力模型,可对视频数据进行分析,预测精度高。
为此,本发明的技术方案是:一种基于时序注意力模型的动作预测方法,包括以下步骤:
1)视频数据采样:选用带每帧对应动作标注的稠密视频流作为训练视频,在视频流数据中采样一定帧数的图像;
2)图像预处理:对步骤1)中采样的图像进行归一化处理,再对图像进行缩放、裁剪、翻转处理;
3)时序注意力模型的建立与训练:时序注意力模型包括编码器、解码器以及预测分类器三部分;
①编码阶段,利用transformer模型对图像的强大解析能力,使用预训练VisionTransformer(ViT)模型对帧图像进行编码;Vision Transformer模型包括PatchEmbedding(PE)模块、Self-Attention(SA)模块、前馈网络(FFN)模块以及残差连接几部分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谙迈科技(宁波)有限公司,未经谙迈科技(宁波)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210610980.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种全自动机器人卸盒机
- 下一篇:一种消防水枪用枪架及水枪