[发明专利]基于卷积神经网络和注意力机制的佤语孤立词汇识别方法在审
申请号: | 202211209083.6 | 申请日: | 2022-09-30 |
公开(公告)号: | CN115294973A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 王俊;刘金生;吴迪;陈恳;甘健侯;周菊香 | 申请(专利权)人: | 云南师范大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L25/30;G06N3/08;G06N3/04 |
代理公司: | 昆明明润知识产权代理事务所(普通合伙) 53215 | 代理人: | 王鹏飞 |
地址: | 650500 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 注意力 机制 孤立 词汇 识别 方法 | ||
本发明涉及基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,属于语音识别领域。本发明对收集的原始佤语孤立词汇语音进行预处理并提取Fbank音频特征,然后使用卷积网络提取音频的深度特征信息,再输入到BiLSTM中充分学习音频序列在时间维度上的上下文信息,最后将BiLSTM层的输出特征输入到注意力层计算目标损失并输出结果,实现对佤语孤立词汇语音到中文词汇的建模,解决识别佤语孤立词汇识别率低的问题。本发明使用的网络结构简洁,在本方法所构建的数据集上可以达到88%的识别准确率。
技术领域
本发明涉及基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,属于语音识别技术领域。
背景技术
少数民族语言是少数民族文化的重要组成部分,是一个民族存在的象征,而保护少数民族语言是保护和传承少数民族文化的一项重要措施。如今,不断发展的语音识别技术给保护这些少数民族语言提供了一项重要的技术手段。目前对于主流的语言,其语料数据丰富,训练出的传统语音识别模型准确率已经很高,但是对于低资源语音的语音识别研究工作相对较少,而佤语作为一种低资源语言,相关的研究工作更少。佤语识别存在的主要问题为低资源语言的语音语料太少,而且训练使用的佤语语料是孤立的佤语词汇语音,语音时长较短,不适合使用传统的大型语音识别模型,模型复杂不易优化,识别佤语的性能偏低。本发明涉及一种适合识别低资源佤语孤立词汇的语音识别方法,方法模型简洁且语音识别准确率高,这对佤语语言的保护提供了一项技术手段,具有重要的意义,同时也可以为保护其他少数民族语言提供思路和帮助。
发明内容
本发明要解决的技术问题是提供基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,用以解决低资源语言佤语孤立词识别率低的问题。
本发明的技术方案是:基于卷积神经网络和注意力机制的佤语孤立词汇识别方法,将原始佤语词汇语音经过预处理得到Fbank音频特征,利用卷积神经网络进一步提取音频的深度特征,利用BiLSTM关注音频序列在时间序列上的上下文信息,最后将BiLSTM输出特征输入到Attention层进行解码,输出预测文本结果并计算目标损失,进行多次训练,优化模型参数,得到识别佤语孤立词汇准确率高的语音识别模型进行识别。
具体步骤为:
Step 1:将原始佤语词汇语音经过预处理得到Fbank音频特征;
Step 1.1:使用专业录音设备对当地多位佤族人进行常用佤语词汇语音采集,其中发音人包括不同年龄段并且分男女,有小学生、成年人和老年人,以此来丰富佤语孤立词汇语音语料库,大约收集到68000条语音数据,在进行模型训练时并按照3:1:1的比例划分训练集、测试集、验证集;
Step 1.2:对Step 1.1中采集的佤语孤立词汇语音进行预处理:首先对语音信号进行预加重处理,对高频部分进行加重,以此凸显高频信息,增加语音的高频分辨率;再进行分帧加窗操作,窗口长度设置为25ms并作为一帧音频信息,步长设置为10ms,即每次取出25ms的音频,再移动10ms取下一帧的音频;然后进行离散傅里叶变换,将每一帧的时域信号转换为频域信号,常用方法为快速傅里叶变换,可将时间复杂度从O(N2)降为O(Nlog2N);再计算梅尔频谱并取对数,它符合人耳线性感知的频率曲线,将频谱规划到梅尔刻度上,能有效促进语音识别系统的性能,最终得到Fbank音频特征;
Step 2:利用卷积神经网络进一步提取音频的深度特征;
Step 2.1:先将Step 1.2得到的二维Fbank特征参数变换为三维,并输入到卷积神经网络中进一步提取底层特征,使用的卷积神经网络借鉴VGG网络模型,共有6层,其中包括4层2D卷积和2层最大池化层进行下采样,每一个卷积层的卷积核均为3*3,步长为1,即卷积层不进行下采样,使用池化层进行下采样,每一个池化层池化核均为3*3,步长为2;
Step 3:利用BiLSTM关注音频序列在时间序列上的上下文信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211209083.6/2.html,转载请声明来源钻瓜专利网。