[发明专利]一种基于多源信息融合的手语识别方法在审
申请号: | 201811012934.1 | 申请日: | 2018-08-31 |
公开(公告)号: | CN109271901A | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 王志波;赵腾达;陈鸿恺;马金鑫;王骞 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G09B21/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 手语 多源信息融合 手语识别 多传感器融合技术 扬声器 电信号传感器 惯性测量单元 神经网络模型 输入神经网络 数据预处理 动作数据 动作信息 蓝牙传输 模型移植 切割动作 去噪算法 神经网络 实时识别 数据格式 数据清洗 数据收集 特征提取 语言库 构建 肌肉 标签 语音 保存 学习 | ||
1.一种基于多源信息融合的手语识别方法,其特征在于包含以下步骤:
步骤1,通过8轴表面肌肉电信号传感器sEMG和9轴惯性测量单元IMU来收集手语动作的原始信号,并通过蓝牙传输数据;
步骤2,通过数据预处理算法对原始信号进行去噪和特征提取,并处理成神经网络的输入数据格式;
步骤3,构建双向双层LSTM神经网络,并训练保存模型;
步骤4,将模型移植到手机上,实时切割sEMG数据和IMU数据,用开源语言库,将动作翻译成相应声音。
2.如权利要求1所述的一种基于多源信息融合的手语识别方法,其特征是,
步骤1收集双手的sEMG信号数据和IMU数据,共计42维数据。
3.如权利要求1所述的一种基于多源信息融合的手语识别方法,其特征是,所述步骤2中,使用EMG信号强度有助于在多传感器系统中实现数据分割,包括:
步骤2.1、基于多通道EMG信号用于确定活动段的起始点和终点,将8通道sEMG信号做算术平均,之后再做db12小波变换降噪,具体基于以下公式:
其中c为信道的索引,Nc为通道数;
其中a为尺度,τ为平移量,尺度对应于频率,平移量τ对应于时间;
步骤2.2、后设置阈值进行切割,使用两个阈值检测活动段,起始和偏移阈值;并且偏移阈值低于起始阈值;当EMG(t)高于起始阈值时,活动段开始,直到规定时间段内的所有样本都低于偏移阈值。
4.如权利要求1所述的一种基于多源信息融合的手语识别方法,其特征是,所述步骤3中,建议以RNN为模型实现手势块的识别,循环神经网络模型包括
Input Layer层:将已经预处理好的数据转换成符合神经网络的输入格式,为512*24的一张图,并输入神经网络;
Layer1层:双向RNN,神经网络单元为LSTM
Layer2层:双向RNN,神经网络单元为LSTM;
Output Layer层:为单词lable的输出。
5.如权利要求1所述的一种基于多源信息融合的手语识别方法,其特征是,所述步骤3中,进行训练保存模型的具体方法是:构建双向双层LSTM神经网络,将经过数据预处理的数据传进搭建好的神经网络结构,经训练结束后保存CKPT模型到本地,备后续使用。
6.如权利要求1所述的一种基于多源信息融合的手语识别方法,其特征是,步骤4所述的实时识别方法包括:
步骤4.1、实时地获取传感器数据,将8通道sEMG信号做算术平均,之后再做实时的db12小波变换降噪;
步骤4.2、设置阈值进行活动识别,使用两个阈值检测活动段,起始和偏移阈值;通常,偏移阈值低于起始阈值;当EMG(t)高于起始阈值时,活动段开始,直到规定时间段内的所有样本都低于偏移阈值;用SEMG数据的取值结果同步的取出相应的IMU数据,送入手机中存储的训练好的网络,用以输出对应的label的词语;
步骤4.3、根据词语的序号传入构建好的有限状态自动机内,更新自动机状态,最后将其组成为一个完整可行的句子,并调用开源语音库将其翻译成声音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811012934.1/1.html,转载请声明来源钻瓜专利网。