[发明专利]一种语音模型自适应训练方法、系统、装置及存储介质有效

申请号：	202010033373.4	申请日：	2020-01-13
公开（公告）号：	CN111243574B	公开（公告）日：	2023-01-03
发明（设计）人：	唐浩元;王佳珺;鄢戈;王飞;王欢良	申请（专利权）人：	苏州奇梦者网络科技有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/02;G10L25/18;G10L25/24;G10L25/27;G10L25/30
代理公司：	苏州国诚专利代理有限公司 32293	代理人：	王丽
地址：	215024 江苏省苏州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音模型自适应训练方法系统装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音模型自适应训练方法，其特征在于，包括训练和解码；

所述训练包括以下步骤：

S11、训练声学特征提取，对训练音频进行预加重，加窗分帧，提取训练声学特征，所述训练声学特征选择梅尔频谱特征；

S12、生成音素状态对齐序列，将训练声学特征通过深度神经网络通用声学模型生成音素对齐序列，然后利用决策树将所述音素对齐序列转换为音素状态对齐序列，使用音素状态对齐序列中的音素状态ID作为声学建模基本单元；

S13、计算训练后验概率，将S11中提取的训练声学特征送入预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型中，经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率，其中所述第一输出支路为深度神经网络通用声学模型原有的输出支路，所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路；

S14、自适应训练，将S12中得到的音素状态对齐序列与S13中得到的第二后验概率计算交叉熵准则，所述交叉熵准则的数学公式为：

式中：

s_t表示t时刻音素状态对齐序列中的音素状态ID；

p1(s_t|x_t)表示t时刻第二输出支路在建模单元s_t输出的第二后验概率；

所述交叉熵准则为模型的目标函数，通过批量随机梯度下降算法对S13中第二输出支路隐藏层和输出层的参数进行更新，所述第一输出支路及底层共享层的参数保持不变；

所述解码包括以下步骤：

S21、测试声学特征提取，对测试音频进行预加重，加窗分帧，提取测试声学特征，所述测试声学特征选择梅尔频谱特征；

S22、计算测试后验概率，将S21中提取的测试声学特征x_t送入经过训练的所述深度神经网络声学模型中，经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率；

S23、似然度计算与融合，先进行似然度的计算，然后进行似然度的融合；

似然度的计算：

将S22中得到的第一后验概率和第二后验概率进行似然度计算，似然度计算公式如下：

式中：