[发明专利]一种语音识别方法及装置有效
申请号: | 201611127924.3 | 申请日: | 2016-12-09 |
公开(公告)号: | CN108615525B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 高莹莹 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/22 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王花丽;张颖玲 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
1.一种语音识别方法,其特征在于,所述方法包括:
确定待识别语音;
对所述待识别语音进行声学特征提取;
将提取的声学特征输入解码器;
通过解码器调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别,得到识别结果;其中,所述声学模型采用深度神经网络-隐马尔可夫模型DNN-HMM,且在训练所述DNN-HMM的过程中,将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN-HMM的输出层;所述DNN-HMM的输入层采用声学特征;所述DNN-HMM的共享隐含层采用所述两个并行任务共享;所述共享隐含层为靠近所述输入层的一到多个隐含层且最后一层共享隐含层与所述DNN-HMM的独立隐含层连接;其中,所述DNN-HMM的独立隐含层靠近所述DNN-HMM的输出层;所述DNN-HMM的独立隐含层仅与所述两个并行任务各自的输出层相连接;
通过解码器输出所述识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在训练所述DNN-HMM的过程中,将学习的关于音素后验概率的参数作为说话人自适应的声学模型传递给解码器。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用反向误差传递算法对关于音素后验概率的参数和关于说话人身份确认的参数进行更新。
4.根据权利要求3所述的方法,其特征在于,所述DNN-HMM的独立隐含层的参数仅与所述两个并行任务各自的任务的预测误差有关;
所述DNN-HMM的共享隐含层的参数与所述两个并行任务的预测误差有关。
5.一种语音识别装置,其特征在于,所述装置包括确定单元、提取单元、输入单元和解码器,其中:
所述确定单元,用于确定待识别语音;
所述提取单元,用于对所述待识别语音进行声学特征提取;
所述输入单元,用于将提取的声学特征输入解码器;
所述解码器,用于调用训练的语言模型和训练的声学模型对所述提取的声学特征进行识别,得到识别结果并输出所述识别结果;其中,所述声学模型采用深度神经网络-隐马尔可夫模型DNN-HMM,且在训练所述DNN-HMM的过程中,将说话人身份确认与音素后验概率的学习作为两个并行任务添加到DNN-HMM的输出层;所述DNN-HMM的输入层采用声学特征;所述DNN-HMM的共享隐含层采用所述两个并行任务共享;所述共享隐含层为靠近所述输入层的一到多个隐含层且最后一层共享隐含层与所述DNN-HMM的独立隐含层连接;其中,所述DNN-HMM的独立隐含层靠近所述DNN-HMM的输出层;所述DNN-HMM的独立隐含层仅与所述两个并行任务各自的输出层相连接。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括训练单元,用于在训练所述DNN-HMM的过程中,将学习的关于音素后验概率的参数作为说话人自适应的声学模型传递给解码器。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括更新单元,用于采用反向误差传递算法对关于音素后验概率的参数和关于说话人身份确认的参数进行更新。
8.根据权利要求7所述的装置,其特征在于,所述DNN-HMM的独立隐含层的参数仅与所述两个并行任务各自的任务的预测误差有关;
所述DNN-HMM的共享隐含层的参数与所述两个并行任务的预测误差有关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团公司,未经中国移动通信有限公司研究院;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611127924.3/1.html,转载请声明来源钻瓜专利网。