[发明专利]语音识别及模型训练方法、装置和计算机可读存储介质有效

申请号：	202010048780.2	申请日：	2020-01-16
公开（公告）号：	CN111261146B	公开（公告）日：	2022-09-09
发明（设计）人：	王珺;林永业	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/02;G10L21/0272;G10L25/60
代理公司：	华进联合专利商标代理有限公司 44224	代理人：	于丽君;李文渊
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别模型训练方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种语音识别及模型训练方法、装置和计算机可读存储介质，所述方法包括：获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数；基于所述第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练，得到鲁棒表征模型；对所述第一损失函数和第二损失函数进行融合，得到目标损失函数；基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练，在满足预设收敛条件时结束训练。本申请提供的方案可以提高语音识别准确性。

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音识别及模型训练方法、装置和计算机可读存储介质。

背景技术

语音识别技术的发展，使人与机器通过自然语言交互成为可能。基于语音识别技术可以将语音信号转换为文本序列。实现这种转换需要对拾取的语音信号进行语音分离(Speech Separation，SS)和语音增强(Speech Enhancement，SE)等前端处理，再对前端处理得到的声学特征进行自动语音识别(Automatic Speech Recognition，ASR)后端处理。

传统方式前端语音分离增强模型与后端语音识别模型独立训练，在测试应用阶段直接将语音分离增强模型与语音识别模型进行级联。然而，前端处理会引入严重的失真，而这在后端模型训练阶段是未曾考虑的，从而这种级联方式下的语音识别准确性较低。

发明内容

基于此，有必要针对语音识别准确性低的技术问题，提供一种语音识别及模型训练方法、装置和计算机可读存储介质。

一种语音识别模型训练方法，所述方法包括：

获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数；

基于所述第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练，得到鲁棒表征模型；

对所述第一损失函数和第二损失函数进行融合，得到目标损失函数；

基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练，在满足预设收敛条件时结束训练。

一种语音识别模型训练装置，所述装置包括：

中间表征学习模块，用于获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数；基于所述第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练，得到鲁棒表征模型；

损失融合模块，用于对所述第一损失函数和第二损失函数进行融合，得到目标损失函数；

联合训练模块，用于基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练，在满足预设收敛条件时结束训练。