[发明专利]基于个人身份特征的DNN声学模型的自适应方法在审
申请号: | 201910016412.7 | 申请日: | 2019-01-08 |
公开(公告)号: | CN109637526A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 李颖;闫贝贝;郭旭东 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/14;G10L15/02;G10L25/24 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 程晓霞;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于个人身份特征的DNN声学模型的自适应方法。解决了自适应训练中易出现过拟合,个人身份表征能力差,鲁棒性低的问题。具体实现有:提取个人身份特征,用MFCC特征作为非特定说话人的DNN模型输入;搭建GMM‑HMM语音识别系统;搭建具有多个隐层的DNN声学模型的DNN‑HMM基线系统;对DNN声学模型逐层进行个人身份特征自适应训练,得到一个对特定说话人具有自适应能力的DNN声学模型。在个人身份特征提取中采用VAD技术对DNN模型最后一个隐层的权值矩阵分解代替原始特征。本发明充分利用了少量说话人数据对模型参数调整提高特定说话人识别准确率。复杂度低,识别性能显著提升。用于与语音识别相关的智能系统或通信、医疗、车载等。 | ||
搜索关键词: | 个人身份 声学模型 自适应训练 自适应 隐层 语音识别系统 说话人识别 自适应能力 表征能力 基线系统 模型参数 模型输入 权值矩阵 识别性能 特征提取 语音识别 原始特征 智能系统 非特定 复杂度 鲁棒性 准确率 拟合 分解 通信 医疗 | ||
【主权项】:
1.一种基于个人身份特征的DNN声学模型的自适应方法,其特征在于,包括有如下步骤:1)提取特定说话人的个人身份特征;使用非特定说话人的MFCC特征训练一个DNN模型;利用奇异值矩阵分解技术对该DNN模型的最后一个隐层的权重进行分解;利用分解后的特征代替原始MFCC特征对DNN模型再训练,得到一个用于提取低维特征的DNN模型;用该DNN模型提取的非特定说话人的低维特征后,采用通用背景模型对该低维特征进行训练和对齐,得到非特定说话人的个人身份特征,该特征用一个向量表示;当要提取特定说话人的个人身份特征时,用特定说话人替代非特定说话人参与上述操作,实现对特定说话人的个人身份特征提取;2)搭建GMM‑HMM语音识别系统;对传统的声学模型——高斯混合模型GMM进行建模,具体实现步骤包括:2a)对语料库中训练数据采用梅尔频率倒谱系数方法提取13维低维特征,并对每一维特征求一阶差分和二阶差分,得到39维的MFCC特征;2b)对39维的MFCC特征,采用倒谱均值方差归一化预处理,得到其方差归一化特征;2c)对方差归一化特征以帧为单位进行左右扩展,得到超高维空间的特征,经过线性判别分析变换将超高维空间的特征降到低维子空间,获取低维特征,并进行最大似然线性变换,得到基于最大似然准则的解相关特征;2d)对解相关特征进行特征空间最大似然线性回归变换,得到用码本均值矢量表示的特征,称其为fMLLR特征;2e)用k个对角协方差高斯分布函数的线性组合拟合语音数据的概率分布,得到高斯混合模型GMM;用fMLLR特征作为高斯混合模型GMM的输入特征,采用最大互信息准则对高斯混合模型中的每个高斯分量分配权重进行训练,得到经过LDA+MLLT+fMLLR处理的HMM‑GMM语音识别系统。3)构建一个具有多个隐层的DNN声学模型的语音识别非特定说话人DNN‑HMM基线系统在已经训练好的GMM‑HMM识别系统上,将训练数据强制对齐,得到每一帧语音对应的真实标签,用以有监督的DNN声学模型训练;对提取的fMLLR特征每一维特征左右扩帧后作为DNN声学模型的输入,使用语料库中的训练集数据和交叉验证集数据进行初始化训练,完成对具有区分性训练的DNN声学模型的建模;得到一个具有多个隐层的DNN声学模型的非特定人语音识别DNN‑HMM基线系统。4)DNN声学模型逐层进行个人身份特征自适应;在非特定说话人语音识别DNN‑HMM基线系统中利用具有特定说话人区分性的个人身份特征对DNN声学模型进行自适应训练,具体是在DNN声学模型的每个隐层中依次增加自适应数据进行训练,自适应数据即提取的特定说话人个人身份特征,在自适应阶段,利用交叉熵准则对自适应权重和普通权重进行训练,得到一个对特定说话人具有自适应能力的DNN声学模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910016412.7/,转载请声明来源钻瓜专利网。
- 上一篇:用于生成车载声学模型的方法和装置
- 下一篇:对话语句的语义解析方法及系统