[发明专利]一种行为识别方法及装置、电子设备和存储介质有效
申请号: | 202110974723.1 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113688729B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 李帅成;杨昆霖;侯军;伊帅 | 申请(专利权)人: | 上海商汤科技开发有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/762;G06V10/74;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 201306 上海市自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 行为 识别 方法 装置 电子设备 存储 介质 | ||
本公开涉及一种行为识别方法及装置、电子设备和存储介质,所述方法包括:接收输入的视频帧,并提取所述视频帧中的人物特征;对所述视频帧中的多个所述人物特征进行聚类,得到聚类结果;基于所述聚类结果确定所述视频帧中人物特征的注意力分配权重;基于所述注意力分配权重更新所述人物特征;基于所述更新后的人物特征,提取人物时空特征;基于所述人物时空特征,对所述视频帧进行行为识别,得到识别结果。本公开实施例可提高行为识别的准确度。
技术领域
本公开涉及计算机技术领域,尤其涉及一种行为识别方法及装置、电子设备和存储介质。
背景技术
在人群行为识别(Group Activity Recognition)技术中,会通过计算机视觉算法来识别视频画面中不同人的动作类别,以及该画面描述的人群行为类别,常用于体育赛事等场景的行为识别。例如,对于排球比赛视频,该任务需要识别每位排球运动员的动作类别以及该段视频所描述的人群活动类别(左边传球、右边传球、左边扣球等)。对于该任务,我们通常可以先检测视频中的人体,再通过个体动作识别(Individual ActionRecognition),根据个体的动作进一步的推断该视频的人群行为类别。
近年来随着深度学习在计算机视觉上的发展,过去许多工作通常利用卷积神经网络来检测视频中每个人的动作,并利用全局池化来得到人群总体特征来识别人群行为类别。人群行为识别除依赖于个体动作和视频背景信息之外,也依赖于个体动作之间的关系信息。除了使用卷积神经网络以为,一些方法还利用图卷积网络、循环神经网络、Transformer等模型,来捕获并分析个体动作之间的关系信息。
但是传统的基于深度学习的方法都是尝试建立更大规模的时空关系模型和更多样的输入特征(视频光流、人体关键点信息)来提升人群行为识别的准确性,人群行为识别的准确性有待进一步提高。
发明内容
本公开提出了一种行为识别技术方案。
根据本公开的一方面,提供了一种行为识别方法,包括:
接收输入的视频帧,并提取所述视频帧中的人物特征;
对所述视频帧中的多个所述人物特征进行聚类,得到聚类结果;
基于所述聚类结果确定所述视频帧中人物特征的注意力分配权重;
基于所述注意力分配权重更新所述人物特征;
基于所述更新后的人物特征,提取人物时空特征;
基于所述人物时空特征,对所述视频帧进行行为识别,得到识别结果。
在一种可能的实现方式中,所述基于所述聚类结果确定所述视频帧中人物特征的注意力分配权重,包括:
基于所述聚类结果中所述人物特征之间的关联关系,确定所述人物特征之间的注意力分配权重。
在一种可能的实现方式中,所述基于所述聚类结果中所述人物特征之间的关联关系,确定所述人物特征之间的注意力分配权重,包括:
确定聚类得到的同一组内的人物特征之间的第一相似度;
基于所述第一相似度,确定组内人物特征之间的第一注意力分配权重。
在一种可能的实现方式中,确定聚类得到的同一组内的人物特征之间的第一相似度,包括:
将所述人物特征的特征矩阵划分为N份;
对不同的人物特征的N份特征分别对应计算相似度,得到N个第一相似度;
所述基于所述第一相似度,确定组内人物特征之间的第一注意力分配权重,包括:
基于所述N个第一相似度,确定组内人物特征之间的N个第一注意力分配权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海商汤科技开发有限公司,未经上海商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110974723.1/2.html,转载请声明来源钻瓜专利网。