[发明专利]一种语音模型自适应训练方法、系统、装置及存储介质有效
申请号: | 202010033373.4 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111243574B | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 唐浩元;王佳珺;鄢戈;王飞;王欢良 | 申请(专利权)人: | 苏州奇梦者网络科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L25/18;G10L25/24;G10L25/27;G10L25/30 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 王丽 |
地址: | 215024 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 模型 自适应 训练 方法 系统 装置 存储 介质 | ||
1.一种语音模型自适应训练方法,其特征在于,包括训练和解码;
所述训练包括以下步骤:
S11、训练声学特征提取,对训练音频进行预加重,加窗分帧,提取训练声学特征,所述训练声学特征选择梅尔频谱特征;
S12、生成音素状态对齐序列,将训练声学特征通过深度神经网络通用声学模型生成音素对齐序列,然后利用决策树将所述音素对齐序列转换为音素状态对齐序列,使用音素状态对齐序列中的音素状态ID作为声学建模基本单元;
S13、计算训练后验概率,将S11中提取的训练声学特征送入预先创建的具有第一输出支路和第二输出支路的深度神经网络声学模型中,经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率,其中所述第一输出支路为深度神经网络通用声学模型原有的输出支路,所述第二输出支路为复制深度神经网络通用声学模型的最后一层隐藏层和输出层形成的新的输出支路;
S14、自适应训练,将S12中得到的音素状态对齐序列与S13中得到的第二后验概率计算交叉熵准则,所述交叉熵准则的数学公式为:
式中:
st表示t时刻音素状态对齐序列中的音素状态ID;
p1(st|xt)表示t时刻第二输出支路在建模单元st输出的第二后验概率;
所述交叉熵准则为模型的目标函数,通过批量随机梯度下降算法对S13中第二输出支路隐藏层和输出层的参数进行更新,所述第一输出支路及底层共享层的参数保持不变;
所述解码包括以下步骤:
S21、测试声学特征提取,对测试音频进行预加重,加窗分帧,提取测试声学特征,所述测试声学特征选择梅尔频谱特征;
S22、计算测试后验概率,将S21中提取的测试声学特征xt送入经过训练的所述深度神经网络声学模型中,经过前向运算后所述深度神经网络声学模型分别输出第一后验概率和第二后验概率;
S23、似然度计算与融合,先进行似然度的计算,然后进行似然度的融合;
似然度的计算:
将S22中得到的第一后验概率和第二后验概率进行似然度计算,似然度计算公式如下:
式中:
p0(xt|k)表示测试声学特征xt,第一输出支路中建模单元k的似然度;
p1(xt|k)表示测试声学特征xt,第二输出支路中建模单元k的似然度;
p0(k|xt)表示测试声学特征xt,第一输出支路建模单元k输出的后验概率;
p1(k|xt)表示测试声学特征xt,第二输出支路建模单元k输出的后验概率;
p(k)为建模单元k的先验概率,所述先验概率从状态对齐序列中统计得到;
似然度的融合:
对第一输出支路中各声学建模单元的似然度和经过参数更新后的第二输出支路中各声学建模单元的似然度进行融合,融合公式为:
p(xt|k)=w0×p0(xt|k)+w1×p1(xt|k)
w0为第一输出支路输出的似然度的融合权重系数;
w1为第二输出支路输出的似然度的融合权重系数;
w0和w1满足w0+w1=1;
S23、生成语音的文本,将经过融合的似然度送入解码器解码生成语音的文本。
2.根据权利要求1所述的一种语音模型自适应训练方法,其特征在于,
所述S11和S21中帧长选择25ms,帧移10ms,梅尔滤波器阶数续选择为40,对得到的静态梅尔频谱特征进行均值归一化并计算其一阶差分和二阶差分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州奇梦者网络科技有限公司,未经苏州奇梦者网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010033373.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实时门禁鉴权方法
- 下一篇:一种应用于核磁环境的触摸按键触觉振动反馈结构