[发明专利]一种基于轻量化GLnet网络的手语识别方法及系统在审
申请号: | 202310072228.0 | 申请日: | 2023-01-28 |
公开(公告)号: | CN116386129A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 赵钦君;李学斌;申涛;徐元;孙明旭;孙斌;毕淑慧;马荔瑶;宋帅博;赵雷 | 申请(专利权)人: | 济南大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G09B21/00;G06V20/40;G06V20/70;G06V10/82;G06N3/045;G06N3/0464;G06N3/0442;G06N3/08;G06V10/778 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 量化 glnet 网络 手语 识别 方法 系统 | ||
本发明公开了一种基于轻量化GLnet网络的手语识别方法及系统,该方法包括:将N×M个标注手语词汇的手语视频作为训练样本集;对训练样本集中的手语视频进行预处理,获取每一手语视频对应的L帧手语连续帧图像;构建基于轻量化GLnet网络的手语识别模型,该GLnet网络为引入改进的Ghost模块的CNN‑LSTM网络;利用训练样本集训练手语识别模型;将待识别的手语视频进行预处理后输入至训练完成的手语识别模型中,输出识别结果。本发明在CNN‑LSTM网络的基础上引入改进的Ghost模块,构建轻量化GLnet网络,大幅降低网络模型的体积和计算量,实现高识别率的手语识别。
技术领域
本发明涉及手语识别技术领域,尤其涉及一种基于轻量化GLnet网络的手语识别方法及系统。
背景技术
手语为聋哑人提供了一种与社会进行交流的方式,能够帮助聋哑人实现自身的社会价值。聋哑人通过手部动作、面部表情等肢体语言向健康人士或者听力受损人士传递信息。然而,掌握手语对听力和表达能力健康的人来说并不是一件简单的事情,因此聋哑人与健康人之间存在巨大的交流障碍。手语翻译员能够帮助聋哑人与非聋哑人进行交流,但是目前社会上从事手语翻译这项工作的人数量有限并且这种方法存在时间和空间的诸多限制。因此,利用视觉技术对手语进行自动翻译,将该手语翻译技术部署到移动手持设备不仅可以减少手语学习成本,更可以在时间和空间上减少聋哑人与非聋哑人之间的交流障碍。
目前,手语翻译技术在深度神经网络的基础上发展而来,主要分为传统的机器学习方法和深度学习方法。传统的手语识别方法依赖人工设计特征,需要反复验证,同时预处理过程繁琐,效率较低;深度学习技术的发展极大推进了手语识别技术的发展,以卷积神经网络为代表的手语识别技术具有识别率高,应用场景广的特点。如Elboushaki A等人提出了一种针对RGB-D手语视频的多维特征学习方法,先使用3D残差网络和ConvLSTM网络捕捉并学习RGB和深度序列的手语时空特征,能够有效结合外观和运动特征抑制背景和其他变化的干扰;Jiang S等人提出了一种多模态的骨架感知手语识别模型,利用SSTCN对二维坐标信息建模,并使用多个3DCNN网络合并RGB图像,光流、深度流以及HHA特征进行互补,获取较高的识别率;Li X等人提出一种改进的CNN-LSTM网络,使用Swith函数改进残差网络的同时使用标签平滑技术进行训练,增强了网络泛化能力。
但是,常规的深度神经网络模型体积大,在卷积过程中产生大量参数,导致上述基于深度神经网络的方法对硬件的计算能力有较高的需求,现有的移动设备通常很难满足其需求,这一方法在移动设备上应用困难,因此,需要一种轻量化的深度神经网络,能够部署到移动手持设备中,在较低参数量和计算量的情况下实现手语识别。
发明内容
为解决上述现有技术的不足,本发明提供了一种基于轻量化GLnet网络的手语识别方法及系统,在CNN-LSTM网络的基础上引入改进的Ghost模块,构建轻量化GLnet网络,大幅降低网络模型的体积和计算量,基于该轻量化网络,在较低参数量和计算量的情况下,实现高识别率的手语识别。
第一方面,本公开提供了一种基于轻量化GLnet网络的手语识别方法。
一种基于轻量化GLnet网络的手语识别方法,包括:
获取M个手语词汇分别对应的N个手语视频,将N×M个标注手语词汇的手语视频作为训练样本集;
对训练样本集中的手语视频进行预处理,获取每一手语视频对应的L帧手语连续帧图像;
构建基于轻量化GLnet网络的手语识别模型;所述GLnet网络为引入改进的Ghost模块的CNN-LSTM网络;
将训练样本集中的手语连续帧图像输入手语识别模型中,利用训练样本集训练手语识别模型;
将待识别的手语视频进行预处理后输入至训练完成的手语识别模型中,输出识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310072228.0/2.html,转载请声明来源钻瓜专利网。