[发明专利]视频动作识别模型的训练、识别方法、装置以及介质在审
申请号: | 202210630186.3 | 申请日: | 2022-06-06 |
公开(公告)号: | CN114863570A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 杨一博;徐洋洋 | 申请(专利权)人: | 京东科技信息技术有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/80;G06V10/82;G06V10/84;G06N3/04;G06N3/08 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 方亮 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 动作 识别 模型 训练 方法 装置 以及 介质 | ||
本公开提供了一种视频动作识别模型的训练方法、视频动作识别方法、装置以及存储介质,涉及计算机技术领域,其中的训练方法包括:使用残差注意力网络模型并基于样本帧特征信息,获得样本帧空间特征信息;根据样本帧特征信息和样本帧空间特征信息生成样本帧融合特征信息,并使用隐马尔可夫网络模型获得样本帧时序特征信息;利用融合模型进行融合以及识别处理,获得动作类别;根据总体损失函数对残差注意力网络模型、隐马尔可夫网络模型进行调整。本公开的方法、装置以及存储介质,提供包括残差注意力网络模型和隐马尔可夫网络模型的双流耦合网络模型,可以实现视频动作的时空特征融合,能够提升视频动作识别中对于时空信息提取和有效表征。
技术领域
本公开涉及计算机处理技术领域,尤其涉及一种视频动作识别模型的训练方法、视频动作识别方法、装置以及存储介质。
背景技术
视频理解是机器学习和计算机视觉在监控、安全、病人监护、体育视频分析等领域的重要组成部分。对于视频动作的识别通常需要一段时序的图像,不仅需要个别关键帧的特征,而且还需要对整个视频的上下文进行理解和捕捉关键帧之间的关系,才能获得高精度的视频动作识别模型。由于在视频动作识别任务中,一个视频中的一个完整动作是由连续的多帧图像组成,往往会造成时序信息冗余。2D卷积神经网络在空间特征提取上无法完成时序信息(帧与帧之间关系)提取操作。3D卷积神经网络虽然在动作识别任务上取得了非常好的结果,但它的计算成本非常昂贵。因此,需要新的对视频动作进行识别的技术方案,在视频动作识别上有较好性能。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种视频动作识别模型的训练方法、视频动作识别方法、装置以及存储介质。
根据本公开的第一方面,提供一种视频动作识别模型的训练方法,其中,视频动作识别模型包括:残差注意力网络模型、隐马尔可夫网络模型和融合模型;所述方法包括:使用所述残差注意力网络模型并基于与视频样本相对应的样本帧特征信息,获得与所述视频样本相对应的样本帧空间特征信息;根据所述样本帧特征信息和所述样本帧空间特征信息生成样本帧融合特征信息,使用所述隐马尔可夫网络模型并基于所述样本帧融合特征信息,获得与所述视频样本相对应的样本帧时序特征信息;利用所述融合模型对所述样本帧空间特征信息和所述样本帧时序特征信息进行融合以及识别处理,获得与所述视频样本相对应的动作类别;根据与所述视频动作识别模型相对应的总体损失函数,对所述残差注意力网络模型、所述隐马尔可夫网络模型进行调整。
可选地,构建与所述残差注意力网络模型相对应的第一损失函数;构建与所述隐马尔可夫网络模型相对应的第二损失函数;基于所述第一损失函数、所述第二损失函数以及对应的平衡系数,生成所述总体损失函数。
可选地,所述构建与所述隐马尔可夫网络模型相对应的第二损失函数包括:确定所述隐马尔可夫网络模型对于所述样本帧融合特征信息进行处理的后验概率信息;基于所述后验概率信息生成目标函数;根据所述目标函数构建所述第二损失函数;其中,所述第二损失函数用于表征所述隐马尔可夫网络模型的参数值使所述目标函数为最小值时的参数值。
可选地,所述残差注意力网络模型包括:不变分支子模型和变体分支子模型;所述使用所述残差注意力网络模型并基于与视频样本相对应的样本帧特征信息,获得与所述视频样本相对应的样本帧空间特征信息包括:使用所述不变分支子模型并基于所述样本帧特征信息,获得与所述视频样本相对应的不变分支特征信息;使用所述变体分支子模型并基于所述样本帧特征信息,获得与所述视频样本相对应的变体分支特征信息;使用第一激活函数并基于所述不变分支特征信息和所述变体分支特征信息,生成所述样本帧空间特征信息。
可选地,所述不变分支子模型包括:DW卷积层和PW卷积层;使用所述不变分支子模型并基于所述样本帧特征信息,获得与所述视频样本相对应的不变分支特征信息包括:使用所述DW卷积层并基于所述样本帧特征信息,获得第一特征信息;将所述第一特征信息输入所述PW卷积层,输出所述不变分支特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技信息技术有限公司,未经京东科技信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210630186.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:控制方法
- 下一篇:一种医疗应急救援的折叠便携式担架