[发明专利]行为识别方法、装置、设备、存储介质及程序产品在审
| 申请号: | 202310147313.9 | 申请日: | 2023-02-09 |
| 公开(公告)号: | CN116206363A | 公开(公告)日: | 2023-06-02 |
| 发明(设计)人: | 姚毅 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/58;G06V20/40;G06V10/25;G06V10/62;G06V10/74;G06V10/80;G06V10/82;G06T7/246;G06T7/277 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 李敏灵;黄健 |
| 地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 行为 识别 方法 装置 设备 存储 介质 程序 产品 | ||
1.一种行为识别方法,其特征在于,包括:
实时获取具有连续帧的目标图像;
基于目标检测网络,依次识别出每帧目标图像中的行人信息,所述行人信息包括至少一个行人,以及每个所述行人对应的行人检测框;
对于每个行人,根据所述行人对应的行人检测框,采用目标跟踪算法依次在所述连续帧的目标图像中进行匹配,以获取与所述行人匹配的候选目标图像序列;
在所述行人对应的候选目标图像序列的帧数达到预设阈值时,采用行为识别网络对所述行人对应的候选目标图像序列进行识别,以获取所述行人对应的行为类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述行人对应的行人检测框,采用目标跟踪算法依次在所述连续帧的目标图像中进行匹配,包括:
为所述行人对应的行人检测框分配标识ID;
根据所述标识ID,采用目标跟踪算法依次在所述连续帧的目标图像进行行人检测框的匹配,其中匹配成功的行人检测框具有相同标识ID;
将具有相同标识ID的行人检测框对应的目标图像分别进行保存,得到与所述行人匹配的候选目标图像序列。
3.根据权利要求2所述的方法,其特征在于,所述目标跟踪算法为实时多目标ByteTrack跟踪算法,所述连续帧的目标图像包括当前帧的目标图像和前续帧的目标图像,
所述采用目标跟踪算法依次在所述连续帧的目标图像进行行人检测框的匹配,包括:
根据第一置信度阈值将所述行人对应的行人检测框划分为高分检测框和低分检测框;
将所述当前帧目标图像中的高分检测框与前续帧目标图像的行人对应的行人检测框所形成的行人轨迹进行匹配,在所述高分检测框与所述行人轨迹中的第一行人轨迹匹配成功的情况下,判定匹配成功的所述高分检测框与所述第一行人轨迹中对应的行人检测框相匹配;和/或
将所述当前帧目标图像中的低分检测框与前续帧目标图像的行人对应的行人检测框所形成的行人轨迹中未匹配成功的第二行人轨迹进行匹配,在所述低分检测框与所述行人轨迹中第二行人轨迹匹配成功的情况下,判定所述低分检测框与所述第二行人轨迹中对应的行人检测框相匹配。
4.根据权利要求3所述的方法,其特征在于,所述采用目标跟踪算法依次在所述连续帧的目标图像进行行人检测框的匹配,还包括:
在当前帧目标图像与前续帧目标图像之间存在没有匹配成功且达到第二置信度阈值的高分检测框的情况下,基于所述高分检测框生成新建行人轨迹;
其中,所述新建行人轨迹用于后续帧目标图像与当前帧目标图像的行人检测框之间的匹配,所述第二置信度阈值大于或等于所述第一置信度阈值。
5.根据权利要求2所述的方法,其特征在于,所述连续帧的目标图像包括当前帧的目标图像和前续帧的目标图像,
所述采用目标跟踪算法依次在所述连续帧的目标图像进行行人检测框的匹配,还包括:
在当前帧目标图像与前续帧目标图像之间存在没有匹配成功的行人检测框的情况下,为对应的行人检测框分配新的标识ID,所述新的标识ID用于后续帧目标图像与当前帧目标图像的行人检测框之间的匹配。
6.根据权利要求1所述的方法,其特征在于,在依次在所述连续帧的目标图像中进行匹配之后,还包括:
在所述行人对应的候选目标图像序列的帧数未达到预设阈值时,返回执行实时获取具有连续帧的目标图像的步骤,直到所述候选目标图像序列的帧数达到预设帧数,并采用行为识别网络对所述行人对应的候选目标图像序列进行识别。
7.根据权利要求1所述的方法,其特征在于,所述目标检测网络为YOLOX-L目标检测网络,包括主干网络、路径聚合结构和预测端,
所述基于目标检测网络,依次识别出每帧目标图像中的行人信息,包括:
基于所述主干网络依次提取出每帧目标图像中的多尺度特征语义信息,并将每帧目标图像的多尺度特征语义信息传输至所述路径聚合结构;
基于所述路径聚合结构分别融合每帧目标图像的多尺度特征语义信息,得到每帧目标图像的多尺度融合信息;
在所述预测端中分别基于每帧目标图像的多尺度融合信息识别出每帧目标图像中的行人信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310147313.9/1.html,转载请声明来源钻瓜专利网。





