[发明专利]基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法有效
| 申请号: | 201810228555.X | 申请日: | 2018-03-20 |
| 公开(公告)号: | CN108492820B | 公开(公告)日: | 2021-08-10 |
| 发明(设计)人: | 贺前华;吴俊峰;汪星;庞文丰 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G10L15/16;G10L15/18;G10L15/26 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 循环 神经网络 语言 模型 深度 声学 中文 语音 识别 方法 | ||
本发明公开了一种基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,主要包括下述步骤:S1.训练基于循环神经网络的语言模型;S2.训练基于深度神经网络的声学模型;S3.基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法的解码器采用维特比搜索方案。本发明结合循环神经网络的准确性和深度神经网络的低时延性,解决了现有n‑gram语言模型准确度低和长短时记忆网络声学模型高时延性的缺点,实现低时延较高准确度的中文语音识别。
技术领域
本发明涉及语音识别技术和深度学习技术,具体涉及一种基于循环神经网络语言模型和深度神经网络声学模型的语音识别方法。
背景技术
随着Amazon Echo智能音箱等智能硬件产品的火热,作为其中最重要的人机交互手段,语音识别的市场也水涨船高。据国际知名市场研究公司Research and Markets 2016年发布的《2015-2020全球及中国语音产业报告》,随着语音在智能产业的应用不断加深,到2020年,全球语音市场规模预计将达到191.7亿美元。
传统连续语音识别技术的主流代表是GMM-HMM,2011年前后,微软、谷歌等公司开始将深度神经网络应用到语音识别中,取得了十年来最大的识别率提升,使其成为现代语音识别的主流技术。
现有的语音识别系统一般分为:
(1)基于n-gram语言模型和DNN-HMM声学模型的语音识别系统;
(2)基于n-gram语言模型和LSTM声学模型的语音识别系统;
(3)基于RNN语言模型和LSTM声学模型的语音识别系统;
(4)无单独语言模型的端到端语音识别系统;
现有语音识别系统的不足之处在于:
(1)无单独语言模型的端到端语音识别系统技术尚未实用,识别率尚未达到语言模型配合声学模型架构的效果;
(2)n-gram语言模型是目前语音识别系统中语言模型的主流,但是其困惑度(PPL)性能目前已经被RNN语言模型超越;
(3)DNN-HMM声学模型和LSTM声学模型相比,速度快,但是精度没有LSTM声学模型高;
近年来,随着计算能力的提升,循环神经网络语言模型技术得到了很好的发展,困惑度(perplexity,PPL)已经低于传统n-gram,在机器翻译、对话生成等领域的应用效果也超出了传统的n-gram方案的效果。所以本发明将会使用循环神经网络语言模型取代n-gram语言模型来改进传统语音识别方法。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于循环神经网络语言模型和深度神经网络声学模型的语音识别方法,结合循环神经网络的准确性和深度神经网络的低时延性,解决了现有n-gram语言模型准确度低和长短时记忆网络(LSTM)声学模型高时延性的缺点。
为了达到上述目的,本发明采用以下技术方案:
本发明一种基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,包括下述步骤:
S1.训练基于循环神经网络的语言模型:
S1.1利用srcapy网络爬虫脚本爬取中文互联网文本;
S1.2用BeautifulSoup工具包解析所爬取互联网文本,删除文本中的英文字母、乱码符号、书名号、花括号、括号、尖括号、方括号、空格、逗号、顿号、双引号、单引号内容,将句号、分号、问号、感叹号置换为回车符,留下纯汉字文本;
S1.3利用Jieba中文分词工具对纯汉字文本进行分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810228555.X/2.html,转载请声明来源钻瓜专利网。





