[发明专利]一种基于DNN的蒙古语声学模型的训练方法有效

专利信息
申请号: 201711390467.1 申请日: 2017-12-21
公开(公告)号: CN108182938B 公开(公告)日: 2019-03-19
发明(设计)人: 马志强;杨双涛;李图雅 申请(专利权)人: 内蒙古工业大学
主分类号: G10L15/06 分类号: G10L15/06;G10L15/14;G10L15/16
代理公司: 北京中济纬天专利代理有限公司 11429 代理人: 杨乐
地址: 010080 内蒙古自治*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 错误率 高斯混合模型 后验概率 模型使用 神经网络 声学模型 词识别 构建 估算
【说明书】:

发明提供了一种基于DNN的蒙古语声学模型的训练方法。用DNN深度神经网络代替GMM高斯混合模型,实现对蒙古语声学状态的后验概率进行估算,构建DNN‑HMM声学模型,并公开了该模型的训练方法。本发明可有效降低词识别的错误率和字识别的错误率,提高模型使用性能。

技术领域

本发明属于蒙古语语音识别领域,具体涉及一种基于DNN的蒙古语声学模型的训练方法。

背景技术

典型的大词汇量连续语音识别系统(Large Vocabulary Continuous SpeechRecognition,LVCSR)由特征提取、声学模型、语言模型和解码器等组成.声学模型是语音识别系统的核心组成部分,基于GMM模型(混合高斯模型)和HMM模型(隐马尔可夫模型)构建的GMM-HMM声学模型一度是大词汇量连续语音识别系统中应用最广的声学模型。在

GMM-HMM模型中,GMM模型对语音特征向量进行概率建模,然后通过EM算法(最大期望算法)生成语音观察特征的最大化概率,当混合高斯分布数目足够多时,GMM模型可以充分拟合声学特征的概率分布,HMM模型根据GMM模型拟合的观察状态生成语音的时序状态。当采用GMM模型混合高斯模型的概率来描述语音数据分布时,GMM模型本质上属于浅层模型,并在拟合声学特征分布时对特征之间进行了独立性的假设,因此无法充分描述声学特征的状态空间分布;同时,GMM建模的特征维数一般是几十维,不能充分描述声学特征之间的相关性,模型表达能力有限。

发明内容

20世纪80年代利用神经网络和HMM模型构建声学模型的研究开始出现,但是,由于当时计算机计算能力不足且缺乏足够的训练数据,模型的效果不及GMM-HMM。2010年微软亚洲研究院的邓力与Hinton小组针对大规模连续语音识别任务提出了CD-DBN(动态贝叶斯网络)-HMM的混合声学模型框架,并进行了相关实验。实验结果表明,相比GMM-HMM声学模型,采用CD-DBN-HMM声学模型使语音识别系统识别正确率提高30%左右,CD-DBN-HMM混合声学模型框架的提出彻底革新了语音识别原有的声学模型框架。与传统的高斯混合模型相比,深度神经网络属于深度模型,能够更好地表示复杂非线性函数,更能捕捉语音特征向量之间的相关性,易于取得更好的建模效果。基于上述成果本发明提出了一种基于DNN模型的蒙古语声学模型的构造和使用方法,以更好的完成蒙古语声学模型建模任务。

本发明的技术方案为:

1.模型构建:

用DNN深度神经网络代替GMM高斯混合模型,实现对蒙古语声学状态的后验概率进行估算。在给定蒙古语声学特征序列的情况下,首先由DNN模型用来估算当前特征属于HMM状态的概率,然后用HMM模型描述蒙古语语音信号的动态变化,捕捉蒙古语语音信息的时序状态信息。

蒙古语声学模型中DNN网络的训练分为预训练和调优两个阶段。

在DNN网络的预训练中,采用了逐层无监督训练算法,属于生成式训练算法。逐层无监督预训练算法是对DNN网络的每一层进行训练,而且每次只训练其中的一层,其他层的参数保持原来的初始化的参数不变,训练时,对每一层的输入和输出的误差尽量的减小,以保证每一层的参数对于该层来说都是最优的。接下来,将训练好的每一层的输出数据作为下一层的输入数据,则下一层的输入数据将比直接训练时经过多层神经网络输入到下一层的数据的误差小很多,逐层无监督预训练算法能够保证每一层之间的输入输出数据的误差都是相对较小的。

通过逐层无监督预训练算法可以得到较好的神经网络初始化参数,使用蒙古语标注数据(即特征状态)通过BP算法(误差反向传播算法)进行有监督的调优,最终得到可用于声学状态分类的DNN深度神经网络模型。

2.模型使用:

通过对DNN网络的预训练和调优后,可以利用DNN-HMM声学模型对蒙古语语音数据进行识别,具体的过程如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711390467.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top