[发明专利]一种基于多模态分层级信息融合的手语词识别方法有效
申请号: | 202110559367.7 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113297955B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 王军;吕智成;申政文;李玉莲;潘在宇;鹿姝 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/80;G06V10/764;G06V10/82;G06V10/62;G06K9/62;G06N3/04 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱沉雁 |
地址: | 221116 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态分 层级 信息 融合 语词 识别 方法 | ||
本发明公开了一种基于多模态分层级信息融合的手语词识别方法,该方法包括:以彩色视频、深度视频和骨骼节点视频三种模态的关键帧序列作为网络输入,构建一个双流I3D网络提取彩色视频和深度视频特征,通过特征拼接融合双模态语义特征,再使用LSTM构建长期时空特征,使用SoftMax进行分类评分;同时使用DST‑GCN网络提取骨骼节点视频的时空特征,再使用SoftMax进行分类评分;最终通过决策级融合方式将两个SoftMax层的预测分数进行融合,得到手语词识别结果。本发明所提出的基于多模态分层级信息融合的手语词识别方法,通过构建分层级融合策略,充分利用了多模态数据互补信息;通过构建DST‑GCN网络,增强了时空图卷积网络时间特征提取能力,进而提高了手语词识别的准确率。
技术领域
本发明属于手语识别技术领域,具体指代一种基于多模态分层级信息融合的手语词识别方法。
背景技术
根据数据显示,我国的聋哑人数量已经超过2080万,约占我国人口总数的1.69%,此外还有大量患有听力障碍的人口。对于他们而言,手语就是他们沟通的媒介,然而只有少数人掌握了手语并能与之交流,这使得聋哑人士在生活中有着许多沟通障碍。
目前主要的解决方法有:基于人工进行翻译和让使用手语者手部佩戴特定设备进行翻译。但是人工翻译需要大量的人力成本,只能在正式场合使用,普通人无法承担;佩戴设备的方式又会给手语者带来设备负担,而设备的限制又会影响正常的手语交流。
随着人工智能的快速普及,人机交互的便捷性大大提升。深度学习在计算机视觉上的应用使得计算机可以完成一些特定的工作。
发明内容
本发明的目的在于提供一种基于多模态分层级信息融合的手语词识别方法,以提高手语识别的准确率,能够利用多种模态信息,准确地识别所做的手语词汇,从而提升目前的手语识别性能,为广大聋哑人士的交流带来便利。
实现本发明目的的技术解决方案为:一种基于多模态分层级信息融合的手语词识别方法,步骤如下:
步骤S1,使用Kinect V2深度摄像机同时采集彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据,构建多模态中文日常手语词数据集,包括训练集和测试集两部分;
步骤S2,对三种模态的视频数据集分别进行关键帧提取,并均匀采样至相同的帧数,作为后续识别网络的输入;
步骤S3,使用I3D网络分别提取彩色视频数据和深度视频数据的短期时空特征,将两种模态数据特征进行拼接,得到融合特征,并将其输入LSTM网络得到长期时空特征,再输入到SoftMax层得到第一分类评分。
步骤S4,使用DST-GCN网络提取骨骼节点视频数据的时空特征,经过全连接层输入到SoftMax层得到第二分类评分;
步骤S5,将第一分类评分和第二分类评分进行融合,得到最终的手语词识别结果;
进一步地,步骤S2中将视频逐帧统一中心裁剪为网络输入尺寸图的大小,使用CNN网络对关键帧进行提取。得到关键帧的定位之后,将关键帧逐帧统一中心裁剪为网络输入尺寸图的大小,然后将图片数据归一化处理。
进一步地,步骤S3中色彩、深度视频特征提取方法为使用一个双流I3D特征提取网络,I3D网络的核心部分是多个结构相同的Inception扩张模块,包括三维卷积层,批归一化层和ReLu激活函数层。在Inception扩张模块之间还有最大池化层对特征进行降采样以提高计算速度。用两个I3D特征提取网络分别对彩色视频关键帧和深度视频关键帧进行特征提取,关键帧数据分别经过I3D网络处理过后会得到各自对应的特征图,将两种模态信息提取到的特征图进行特征级融合的方式即拼接处理,本质上就是将特征图进行串联,拼接后的特征可以表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110559367.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置