[发明专利]基于卷积神经网络和注意力机制的佤语孤立词汇识别方法在审
申请号: | 202211209083.6 | 申请日: | 2022-09-30 |
公开(公告)号: | CN115294973A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 王俊;刘金生;吴迪;陈恳;甘健侯;周菊香 | 申请(专利权)人: | 云南师范大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L25/30;G06N3/08;G06N3/04 |
代理公司: | 昆明明润知识产权代理事务所(普通合伙) 53215 | 代理人: | 王鹏飞 |
地址: | 650500 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 注意力 机制 孤立 词汇 识别 方法 | ||
1.基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,其特征在于:所述方法包括如下步骤:
Step 1:将原始佤语词汇语音经过预处理得到Fbank音频特征;
Step 2:利用卷积神经网络进一步提取音频的深度特征;
Step 3:利用BiLSTM关注音频序列在时间序列上的上下文信息;
Step 4:将BiLSTM层的输出特征输入到Attention层计算目标损失和输出结果。
2.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,其特征在于:所述Step 1的具体步骤如下:
Step 1.1:使用录音设备对当地多位佤族人进行常用佤语词汇语音采集,其中发音人包括不同年龄段并且分男女,以此来丰富佤语孤立词汇语音语料库;
Step 1.2:对Step 1.1中采集的佤语孤立词汇语音进行预处理:首先对语音信号进行预加重处理,对高频部分进行加重,增加语音的高频分辨率;再进行分帧加窗操作,窗口长度设置为25ms作为一帧音频信息,步长设置为10ms,即每次取出25ms的音频,再移动10ms取下一帧的音频;下一步进行离散傅里叶变换,方法为快速傅里叶变换,将每一帧的时域信号转换为频域信号;计算梅尔频谱并取对数,将频谱规划到梅尔刻度上,最终得到Fbank音频特征。
3.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,其特征在于:所述Step 2包括:
Step 2.1:将Step 1得到的二维Fbank特征参数变换为三维,并输入到卷积神经网络中进一步提取底层特征,卷积神经网络借鉴VGG网络模型,共有6层,其中包括4层2D卷积和2层最大池化层进行下采样。
4.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,其特征在于:所述Step3包括:
Step 3.1:将Step2输出的特征输入到双向长短期记忆网络BiLSTM层,使各音频帧充分学习到输入音频序列的上下文信息,将最后一时刻的输出和所有时刻的输出合并为一个向量,作为最终的输出特征向量。
5.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,其特征在于:所述Step4包括:
Step 4.1:将Step3输出的最终特征向量输入到Attention层,直接使用注意力层进行预测,Attention不需要显式地对齐每一个语音帧和输出符号,并且学习到输出之间的依赖关系,每一时刻的输出在之前所有预测输出的基础上进行预测,最终得到预测的输出序列并计算目标损失,从而不断的优化模型参数。
6.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,其特征在于:Step1中,对原始的佤语语音信号经过预处理和变换计算得到Fbank音频特征。
7.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,其特征在于:Step2中,使用卷积神经网络进一步提取音频信号的特征。
8.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,其特征在于:Step3中使用BiLSTM在时间序列上对语音特征进行处理。
9.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,其特征在于:Step4中使用注意力机制计算各音频帧与其他帧之间依赖关系的重要程度并进行输出预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211209083.6/1.html,转载请声明来源钻瓜专利网。