[发明专利]一种基于深度学习的动作识别方法在审
申请号: | 202010167013.3 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111401209A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 张宏;叶汉京;何力;管贻生;黄兴鸿;陈广诚 | 申请(专利权)人: | 佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 江金城 |
地址: | 528225 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 动作 识别 方法 | ||
本发明公开了一种基于深度学习的动作识别方法,包括如下步骤:对视频帧F进行提取,划分为T*16帧;对每16帧fi进行光流提取得到相应光流图;利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取,分别得到两个特征向量xoriginal和xoptical;将获得的两个特征向量串联在一起得到特征向量xi,维度为d1;重复上述步骤并行处理T次,最终得到一个维度为(d1,T)的特征矩阵X;通过一个以注意力机制为核心构建的一个网络,得到权值矩阵A;将权值矩阵A代入公式M=A*XT获得新的特征矩阵M;将新的特征矩阵M输入至LSTM网络,再经过全连接层的降维,得到特征向量Xfinal;最后利用softmax进行分类,取最大值对应的类别为所识别的动作类别。
技术领域
本发明涉及计算机视觉识别技术领域,尤其涉及一种基于深度学习的动作识别方法。
背景技术
随着计算机视觉技术、机器学习技术、特别是深度学习技术的发展,人体行为识别领域得到了长足的进步,并且该领域具有广阔的应用前景,如人机交互、监控无人化、健身训练、医学仿真等等。
随着健身产业的兴起,越来越多的人希望能够得到更多的健身动作指导,但是由于场地和专业人员的有限,人们往往未能够得到实时且准确的指导。但是,我们可以借助于人体行为识别技术,做到足不出户便可以知道所做的健身动作正确与否。且相较于较为复杂多样的行为动作识别,健身动作识别的可操作性更强。因为健身动作通常是在固定视角下,且主体在做重复且频率相对一致的健身动作,如深蹲、俯卧撑、桥等等。如此背景单一、主体运动单一的健身动作可以较为轻易地被机器学习模型所学习。
传统的动作识别与评判方法,通常是利用基于光度梯度的局部特征检测算法从视频中提取显著光度变化的兴趣点,然后运用专家知识对其进行空间特性、时间特性或时空特性进行描述;最后在特征空间中建立模型进行学习,如支持向量机、高斯判别模型等。但是此类方法得到的模型泛化性不强。
近年来,深度学习的发展十分迅猛,深度学习能够有效地从信息中提取特征,特别是卷积神经网络在图像领域的特征表示,但是其不能直接应用于人体行为此类具有三维信息的视频。
且由于健身视频中拍摄的角度不同、动作人的频率不同、动作的多样性等等,使得同一健身动作具有多义性。所以现有的技术根据人体关节点如流程图般定义的判断方法是难以泛化的。
而一段健身视频中的有效健身片段是不确定的,所以现有的技术仅仅利用递归模型,如LSTM、贝叶斯滤波、GNU等,往往效果不好,因为它们将无效片段也引入递归模型,使得模型的表现不佳。因此,现有技术需要进一步改进和完善。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习的动作识别方法。
本发明的目的通过下述技术方案实现:
一种基于深度学习的动作识别方法,该识别方法主要包括如下步骤:
步骤S1:对视频帧F进行提取,划分为T*16帧,即F=(f1,f2,...,fT);
步骤S2:对每16帧fi进行光流提取得到相应的16张光流图;
步骤S3:利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取,分别得到两个特征向量xoriginal和xoptical;
步骤S4:将获得的两个特征向量串联在一起得到特征向量xi,维度为d1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司,未经佛山市南海区广工大数控装备协同创新研究院;佛山市广工大数控装备技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010167013.3/2.html,转载请声明来源钻瓜专利网。