[发明专利]基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法有效
| 申请号: | 201810228555.X | 申请日: | 2018-03-20 |
| 公开(公告)号: | CN108492820B | 公开(公告)日: | 2021-08-10 |
| 发明(设计)人: | 贺前华;吴俊峰;汪星;庞文丰 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/14;G10L15/16;G10L15/18;G10L15/26 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 循环 神经网络 语言 模型 深度 声学 中文 语音 识别 方法 | ||
1.一种基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,包括下述步骤:
S1.训练基于循环神经网络的语言模型:
S1.1利用srcapy网络爬虫脚本爬取中文互联网文本;
S1.2用BeautifulSoup工具包解析所爬取互联网文本,删除文本中的英文字母、乱码符号、书名号、花括号、括号、尖括号、方括号、空格、逗号、顿号、双引号、单引号内容,将句号、分号、问号、感叹号置换为回车符,留下纯汉字文本;
S1.3利用Jieba中文分词工具对纯汉字文本进行分词;
S1.4统计训练文本语料中不重复词汇总数,设为V;
S1.5将分词后的中文文本输入循环神经网络RNN进行训练,将网络输入层设置为个节点,隐层若干个节点,隐层若干层,输出层个节点,输出层每个节点表示一组预测情况输出概率,训练得到RNN语言模型,该语言模型的作用是输入上文词汇,输出在上文出现了这些词汇的情况下最有可能在此处出现的词汇;
S2.训练基于深度神经网络的声学模型:
S2.1读入音频流,并提取40维Fbank特征,然后进行倒谱均值方差归一化计算,去除带噪特征与纯净特征之间的偏差,降低信道影响,提升语音特征的鲁棒性;
S2.2单音素模型训练:训练单音素基础GMM-HMM模型,HMM模型为3状态HMM,迭代若干次,采用维特比方法按照realign_iters中规定好的次数进行数据对齐,使音频帧的特征和音素ID对齐,以备下一步骤使用;
S2.3三音素模型训练:以对齐后的单音素模型为输入,训练上下文相关的三音素GMM-HMM模型,迭代N次,采用维特比方法进行数据对齐,使音频帧的特征和音素ID对齐;
S2.4对步骤S2.3对齐后的数据利用基于特征空间的最大似然线性回归方法去除说话人差异对语音识别系统的影响,然后进行数据对齐,包括训练集和交叉验证集;
S2.5利用GMM-HMM,经过S2.1到S2.4的步骤后,已经得到了一个音频帧的特征到音素ID的映射对data+label,将该数据输入深度神经网络DNN进行训练,该DNN含4个隐层,每个隐层若干个节点,输出层若干个节点,使用交叉熵规则训练,优化准则为随机梯度下降,最小批次设置为256,初始学习率设置为0.008;
S3.基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法的解码器采用维特比搜索方案:
S3.1基于加权有限状态转换器构建解码空间:将HMM模型(H)、三音素模型(C)、词典(L)和语言模型(G)四个模型转换成WFST形式,然后依次进行WFST网络的合并和压缩,从而得到完整的语音识别静态搜索空间,这四个模型相当于四个串联的子系统,前一子系统的输出作为下一子系统的输入,使用HMM的状态序列作为这个WFST的输入时,WFST系统将输出词序列及其得分;
S3.2提取特征:对待识别语音提取40维Fbank特征;
S3.3局部似然:计算观察矢量在词模型所有状态下的概率;
S3.4词内解码:在前向搜索中完成Viterbi解码;
S3.5语法级解码:根据WFST网络的词法限制在每个语法节点进行路径合并;
S3.6回溯:解码出最佳侯选词序列。
2.根据权利要求1所述基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,步骤S1.5中,将输入层节点数和输出层节点数设置为个,最后一层隐层到输出层的具体操作是:
根据词频将V个词分成组,先通过次判断,看下一个词属于哪个组,再组内遍历查找,判断其为组内哪个元素,计算复杂度为
3.根据权利要求1所述基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,步骤S1.5中,隐层节点数和隐层数视计算机计算能力而定,隐层节点设置数十个,隐层节点数越多,性能越好,所需的计算量也更大。
4.根据权利要求1所述基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法,其特征在于,步骤S2.2中,realign_iters=1 2 3 4 5 6 7 8 9 10 12 1416 18 20 23 26 29 32 35 38。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810228555.X/1.html,转载请声明来源钻瓜专利网。





