[发明专利]一种实时手语智能识别方法、装置及系统有效
申请号: | 202110410036.7 | 申请日: | 2021-04-16 |
公开(公告)号: | CN113221663B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 徐小龙;梁吴艳;肖甫 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 俞翠华 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 手语 智能 识别 方法 装置 系统 | ||
本发明公开了一种实时手语智能识别方法、装置及系统,所述方法包括获取手语关节数据和手语骨骼数据;对所述手语关节数据和手语骨骼数据进行数据融合,形成手语关节‑骨骼数据;将所述手语关节‑骨骼数据分成训练数据和测试数据;获取时空注意力的图卷积神经网络模型,并利用所述训练数据训练所述时空注意力的图卷积神经网络模型,获得训练好的时空注意力的图卷积神经网络模型;将所述测试数据输入至训练好的时空注意力的图卷积神经网络模型,输出手语分类的结果。本发明能够提供一种实时手语智能识别方法,通过从动态骨架数据(手语关节数据和手语骨骼数据)中自动学习空间和时间模式,避免了传统的骨架建模方法对骨架数据建模表达能力有限的问题。
技术领域
本发明属于手语识别技术领域,具体涉及一种实时手语智能识别方法、装置及系统。
背景技术
在全球范围内,大约有4.66亿听力受损的人,而且据估计,到2050年该数字高达9亿。手语是一种重要的人类肢体语言表达方式,包含信息量多,同时也是聋哑人与键听人之间沟通的主要载体。因此,利用新兴信息技术对手语进行识别有助于聋哑人与键听人进行实时的交流和沟通,对于改善听障人群的沟通及社交以及促进和谐社会进步具有重要的现实意义。同时,作为人类身体最直观的表达,手语的应用有助于人机交互向更加自然、便捷的方式升级。因此,手语识别是当今人工智能领域的研究热点。
目前,RGB视频和不同类型的模态(例如深度,光流和人体骨骼)都可以用于手语识别(Sign Language Recognition,SLR)任务。与其它模式数据相比,人体的骨架数据不仅能够对人体各个关节之间的关系进行建模和编码,而且对相机拍摄的视角,运动速度,人体外观以及人体尺度等变化具有不变性。更重要的是,它还能够在较高视频帧率下进行计算,这极大的促进在线和实时应用的发展。从历史沿革上,SLR可分为传统识别方法和基于深度学习的研究方法两大类。2016年以前,基于视觉的传统SLR技术研究较为广泛。传统方法能够解决一定规模下的SLR问题,但算法复杂、泛化性不高,且面向的数据量与模式种类受限,无法将人类对于手语的智能理解完全表述,例如MEI,HOF以及BHOF等方法。因此,在当前大数据飞速发展的时代背景下,基于深度学习、挖掘人类视觉与认知规律的SLR技术成为了必然。当前,大多数已存在的深度学习的研究主要集中在卷积神经网络(ConvolutionalNeural Networks,CNN),循环神经网络(Recurrent Neural Networks, RNN和图卷积网络(Graph Convolutional Networks,GCN)。CNN和RNN非常适合处理欧几里得数据,例如RGB,depth,光流等,但是,对于高度非线性和复杂多变的骨架数据却不能很好的表达。GCN很适合处理骨架数据,但是,这种方法在处理面向基于骨架的手语识别任务时存在以下几个难点:一是仅是利用骨架的关节坐标对手势运动信息进行表征,这对手和手指运动信息的特征描述还是不够丰富的;二是手语的骨架数据常表现出高度的非线性和复杂的变化性,这对GCN的识别能力提出了更高的要求;三是主流的基于骨架的SLR图卷积网络(GCN)倾向于采用一阶Chebyshev多项式近似以减少开销,没有考虑高阶连接,导致其表征能力受到限制。更糟糕的是,这种GCN网络还缺乏对骨架数据动态时空相关性的建模能力,无法得到满意的识别精度。
发明内容
针对上述问题,本发明提出一种实时手语智能识别方法、装置及系统,通过构建时空注意力的图卷积神经网络模型,从动态骨架数据(手语关节数据和手语骨骼数据)中自动学习空间和时间模式,不仅具有更强的表现力,而且具有更强的泛化能力。
为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
第一方面,本发明提供了一种实时手语智能识别方法,包括:
获取动态骨架数据,所述动态骨架数据包括手语关节数据和手语骨骼数据;
对所述手语关节数据和手语骨骼数据进行数据融合,形成融合后的动态骨架数据,即手语关节-骨骼数据;
将所述手语关节-骨骼数据分成训练数据和测试数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110410036.7/2.html,转载请声明来源钻瓜专利网。