[发明专利]基于多尺度特征的人类动作识别方法及系统在审
申请号: | 202210373621.9 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114743265A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 焦敏;亓振亮;谭冲;张伟;李晓磊;亓鹏;陈顺东;崔建;丁利朝;何鹏;王洪瑞;张文利 | 申请(专利权)人: | 国网山东省电力公司莱芜供电公司;国家电网有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/44;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250000 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 尺度 特征 人类 动作 识别 方法 系统 | ||
1.基于多尺度特征的人类动作识别方法,其特征是,包括:
利用卷积网络获取视频序列的空间特征;
针对空间特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于初级局部特征的最大响应;
对基于初级局部特征的最大响应进行处理获得次级特征;
对于次级特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于次级局部特征的最大响应;
对于基于初级局部特征的最大响应及基于次级局部特征的最大响应过加权融合的方式获得最终动作分类,所获得的特征对应着视频序列的短期、中期、长期特征。
2.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,利用卷积网络获取视频序列的空间特征,具体为:
对于含有T帧的视频序列,通过2D卷积神经网络对每一帧进行特征提取,获得T×HW维度的特征表示。
3.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,对于基于初级局部特征的最大响应进行移位操作,并进行self-attention计算,以扩大模型感受野。
4.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,利用第一层Swin Transformer单元对移位操作后的特征进行处理,生成的次级特征,对次级特征进行局部的特征融合,融合比例为N,则生成大小为T/N×HW维度特征。
5.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,对于次级特征,进行移位操作,并进行self-attention计算,以扩大模型感受野。
6.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,利用第二层Swin Transformer单元对移位操作后的特征进行处理,生成的次级特征,对次级特征进行局部的特征融合,融合比例为N,则生成大小为T/N2×HW维度特征。
7.如权利要求1所述的基于多尺度特征的人类动作识别方法,其特征是,对于不同层次的特征所对应的分类结果,采取加权方式融合,具体实现形式的数学表示为:
C=argmax(softmax(R1)+α·softmax(R2)+β·softmax(R3))。
8.基于多尺度特征的人类动作识别系统,其特征是,包括:
空间特征获取模块,被配置为:利用卷积网络获取视频序列的空间特征;
初级局部特征的最大响应获取模块,被配置为:针对空间特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于初级局部特征的最大响应;
次级局部特征的最大响应获取模块,被配置为:对基于初级局部特征的最大响应进行处理获得次级特征;
对于次级特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于次级局部特征的最大响应;
动作分类模块,被配置为:对于基于初级局部特征的最大响应及基于次级局部特征的最大响应过加权融合的方式获得最终动作分类,所获得的特征对应着视频序列的短期、中期、长期特征。
9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司莱芜供电公司;国家电网有限公司,未经国网山东省电力公司莱芜供电公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210373621.9/1.html,转载请声明来源钻瓜专利网。