[发明专利]基于卷积神经网络的语音识别方法有效
| 申请号: | 201811112506.6 | 申请日: | 2018-09-25 |
| 公开(公告)号: | CN109272990B | 公开(公告)日: | 2021-11-05 |
| 发明(设计)人: | 曹毅;张威;翟明浩;刘晨;黄子龙;李巍 | 申请(专利权)人: | 江南大学 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16 |
| 代理公司: | 无锡盛阳专利商标事务所(普通合伙) 32227 | 代理人: | 顾吉云;郭金玉 |
| 地址: | 214000 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 卷积 神经网络 语音 识别 方法 | ||
本发明提供基于卷积神经网络的语音识别方法,其更加擅长提取高层特征,建模过程简单、容易训练、模型的泛化性能更佳,能够更广泛的应用到各种语音识别的场景中。其包括:S1:对输入的原始语音信号进行预处理;S2:提取出反映语音信号特征的关键特征参数,形成特征矢量序列;S3:基于DCNN网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的声学模型;S4:训练声学模型,得到训练好的声学模型;S5:将步骤S2中得到的待识别的特征矢量序列输入到训练好的声学模型中得到识别结果;S6:以步骤S5中得到的识别结果为基础进行后续的运算,即得到能够以最大概率输出该语音信号的词串,词串即原始语音被识别后的语言文字。
技术领域
本发明涉及语音识别技术领域,具体为基于卷积神经网络的语音识别方法。
背景技术
在语音识别技术中,GMM-HMM(Gaussian Mixed Model-Hiddden Markov Model)模型作为语音的声学模型一直占据着主导地位,但是由于GMM-HMM模型本身的特性所致,GMM-HMM声学模型在训练之前首先要进行对齐操作,需要对每一帧的数据与对应的标签进行对齐,对齐过程繁琐、复杂,导致训练时间较长,且因为该模型是GMM和HMM的组合模型,具体建模过程实现相对复杂,在语音识别技术的具体应用中具有一定的局限性。
发明内容
为了解决现有的声学模型训练时间长、建模过程复杂、应用有局限性的问题,本发明提供基于卷积神经网络的语音识别方法,其更加擅长提取高层特征,建模过程简单、容易训练、模型的泛化性能更佳,能够更广泛的应用到各种语音识别的场景中。
本发明的技术方案是这样的:基于卷积神经网络的语音识别方法,其包括以下步骤:
S1:输入原始语音,对所述原始语音信号进行预处理,并进行相关变换处理;
S2:提取出反映语音信号特征的关键特征参数,形成特征矢量序列;
S3:构建声学模型;
S4:训练所述声学模型,得到训练好的声学模型;
S5:将步骤S2中得到的待识别的所述特征矢量序列输入到所述训练好的声学模型中得到识别结果;
S6:以步骤S5中得到的所述识别结果为基础进行后续的运算,即得到能够以最大概率输出该语音信号的词串,所述词串即所述原始语音被识别后的语言文字;
其特征在于:
步骤S3中采用基于DCNN网络模型为基础、以联结主义时间分类器CTC作为损失函数,构建端对端方式的所述声学模型。
其进一步特征在于:
所述声学模型的结构包括依次设置的多个卷积层结构、两个全连接层、CTC损失函数;
所述多个卷积层结构中第一层、第二层采用32个卷积核的卷积层提取语音特征;第三层、第四层采用64个卷积核的所述卷积层提取语音特征;第五层开始为多层连续的128个卷积核的所述卷积层提取语音更高层特征;
如果所述多个卷积层结构中所述卷积层的层数为偶数,从第一个所述卷积层开始每两个连续的所述卷积层后跟着一个池化层;如果所述多个卷积层结构中所述卷积层的层数为奇数,则从第一个所述卷积层开始每两个连续的所述卷积层后跟着一个池化层,最后三个所述卷积层连续操作后再进行一次所述池化层的池化操作;
所述多个卷积层的结构共有8层或者9层;
步骤S4中所述声学模型的训练公式如下:
Hi= Wi* X + bi ,
其中:
i=1,……k,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811112506.6/2.html,转载请声明来源钻瓜专利网。





