[发明专利]一种人体动作识别系统及方法有效
申请号: | 202010186272.0 | 申请日: | 2020-03-17 |
公开(公告)号: | CN111460928B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 夏时洪;温玉辉;高林;钟重阳 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/62;G06V10/764;G06V10/77;G06V10/82;G06N3/042;G06N3/045;G06N3/0464;G06N3/048 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人体 动作 识别 系统 方法 | ||
本发明提供了一种基于胶囊网络的人体动作识别系统及方法,构建包含基于语义图式图卷积的语义时空模块、广义注意力非局部模块、初级胶囊层和分类胶囊层组成的网络架构,将基于胶囊网络的架构用于基于骨架序列数据的动作识别,该网络架构利用图卷积和时间域卷积层提取骨架数据的时空特征,胶囊机制能够保持更为丰富的用于动作分类的信息,本发明进一步将广义注意力机制引入到胶囊网络架构中,建立细粒度全局依赖更好地表达时空特征,用于引导更为有效的初级胶囊的生成,初级胶囊通过路由算法与最相关的分类胶囊之间建立联系,从而提高人体动作识别准确性。
技术领域
本发明涉及计算机视觉领域以及人工智能领域,具体来说,涉及人工智能领域中的人体动作识别,更具体地说,涉及一种人体动作识别系统及方法。
背景技术
人体动作识别是人工智能领域中一个重要的研究部分,现有技术下,主要是基于卷积神经网络对人体动作进行识别,但是,现有的基于卷积神经网络的人体动作识别方法,基于卷积神经网络对骨架数据特征进行学习,均会将卷积层提取的特征在最终输出到全局池化层得到标量输出,最后经过全连接层和Softmax(归一化指数函数)分类器得到最终的分类估计以实现对人体动作的识别。常用的基于卷积神经网络的人体动作识别方法:将骨架序列数据表示为一系列三维坐标,并通过传统卷积神经网络进行学习;将骨架序列数据人为设计成图片表示,并通过传统卷积神经网络进行学习;将骨架序列数据通过图结构表示,并利用图卷积神经网络进行学习。
现有的基于图卷积神经网络架构的人体动作识别方法,采用基于图卷积神经网络的结构,例如,如图1所示基于图卷积神经网络的人体动作识别网络包括初始层基本时空模块、9层叠加的基本时空模块、全局池化层、全连接层,每一个基本时空模块中均包含有图卷积和时间域卷积用于提取骨架数据的特征,叠加的卷积层提取的特征最后经过全局池化层,全局池化层会将每个特征通道转化为标量,重要信息(例如,位置,朝向,连接等)将会损失掉,因而限制了分类准确率。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的能够保留骨架数据重要信息的人体动作识别系统及方法。
根据本发明的第一方面,本发明提供一种人体动作识别系统,包括:多个语义时空模块,用于对基于语义图式的骨架图表示的骨架序列数据进行语义图式图卷积操作以编码人体骨架中固有连接关系的关节之间的层级结构和包含高阶语义信息的潜在连接关系,得到骨架空间结构特征,并对经语义图式图卷积操作后的骨架序列数据进行时间域卷积操作得到其时空特征;其中,每个语义时空模块包括依次连接的语义图卷积模块、批量池化和非线性激活模块、时间域卷积模块、批量池化和非线性激活模块;广义注意力非局部模块,用于对经多个语义时空模块处理后的骨架序列数据的时空特征进行增强处理,构建骨架序列数据中任意位置之间的全局依赖关系;初级胶囊层,用于将经广义注意力非局部模块处理后的骨架序列数据按动作类别分别生成胶囊;分类胶囊层,包括多个分类胶囊,用于对经初级胶囊层生成的胶囊进行分类,每个分类胶囊对应一个动作类别。
其中,所述多个语义时空模块包括一个初始层语义时空模块和9个叠加的语义时空模块,初始层语义时空模块的输出为9个叠加的语义时空模块的输入,在9个叠加的语义时空模块中,上一个语义时空模块的输出为下一个时空模块的输入;其中,9个叠加的语义时空模块分别为第1层至第3层语义时空模块、第4层至第6层语义时空模块、第7层至第9层语义时空模块。优选的,所述初始层语义时空模块用于将骨架序列数据的三维时空特征的特征维度转换为64维同时保持其时间维度不变然后传输给第1层至第3层语义时空模块;所述第1层至第3层语义时空模块将经初始层语义时空模块处理后的骨架序列数据的特征维度转换为128维同时将其时间维度减半然后传输给第4层至第6层语义时空模块;所述第4层至第6层语义时空模块将经第1层至第3层语义时空模块处理后的骨架序列数据的特征维度转换为256维同时将其时间维度再减半,然后传输给广义注意力非局部模块。
根据本发明的第二方面,提供一种基于本发明第一方面的人体动作识别系统的人体动作识别方法,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010186272.0/2.html,转载请声明来源钻瓜专利网。