[发明专利]基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法有效

申请号：	201810228555.X	申请日：	2018-03-20
公开（公告）号：	CN108492820B	公开（公告）日：	2021-08-10
发明（设计）人：	贺前华;吴俊峰;汪星;庞文丰	申请（专利权）人：	华南理工大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/14;G10L15/16;G10L15/18;G10L15/26
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于循环神经网络语言模型深度声学中文语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法，主要包括下述步骤：S1.训练基于循环神经网络的语言模型；S2.训练基于深度神经网络的声学模型；S3.基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法的解码器采用维特比搜索方案。本发明结合循环神经网络的准确性和深度神经网络的低时延性，解决了现有n‑gram语言模型准确度低和长短时记忆网络声学模型高时延性的缺点，实现低时延较高准确度的中文语音识别。

技术领域

本发明涉及语音识别技术和深度学习技术，具体涉及一种基于循环神经网络语言模型和深度神经网络声学模型的语音识别方法。

背景技术

随着Amazon Echo智能音箱等智能硬件产品的火热，作为其中最重要的人机交互手段，语音识别的市场也水涨船高。据国际知名市场研究公司Research and Markets 2016年发布的《2015-2020全球及中国语音产业报告》，随着语音在智能产业的应用不断加深，到2020年，全球语音市场规模预计将达到191.7亿美元。

传统连续语音识别技术的主流代表是GMM-HMM，2011年前后，微软、谷歌等公司开始将深度神经网络应用到语音识别中，取得了十年来最大的识别率提升，使其成为现代语音识别的主流技术。

现有的语音识别系统一般分为：

(1)基于n-gram语言模型和DNN-HMM声学模型的语音识别系统；

(2)基于n-gram语言模型和LSTM声学模型的语音识别系统；

(3)基于RNN语言模型和LSTM声学模型的语音识别系统；

(4)无单独语言模型的端到端语音识别系统；

现有语音识别系统的不足之处在于：

(1)无单独语言模型的端到端语音识别系统技术尚未实用，识别率尚未达到语言模型配合声学模型架构的效果；

(2)n-gram语言模型是目前语音识别系统中语言模型的主流，但是其困惑度(PPL)性能目前已经被RNN语言模型超越；

(3)DNN-HMM声学模型和LSTM声学模型相比，速度快，但是精度没有LSTM声学模型高；

近年来，随着计算能力的提升，循环神经网络语言模型技术得到了很好的发展，困惑度(perplexity，PPL)已经低于传统n-gram，在机器翻译、对话生成等领域的应用效果也超出了传统的n-gram方案的效果。所以本发明将会使用循环神经网络语言模型取代n-gram语言模型来改进传统语音识别方法。

发明内容