[发明专利]语音识别及模型训练方法、装置和计算机可读存储介质有效
申请号: | 202010048780.2 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111261146B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 王珺;林永业 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L21/0272;G10L25/60 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 于丽君;李文渊 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 模型 训练 方法 装置 计算机 可读 存储 介质 | ||
本申请涉及一种语音识别及模型训练方法、装置和计算机可读存储介质,所述方法包括:获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。本申请提供的方案可以提高语音识别准确性。
技术领域
本申请涉及语音处理技术领域,特别是涉及一种语音识别及模型训练方法、装置和计算机可读存储介质。
背景技术
语音识别技术的发展,使人与机器通过自然语言交互成为可能。基于语音识别技术可以将语音信号转换为文本序列。实现这种转换需要对拾取的语音信号进行语音分离(Speech Separation,SS)和语音增强(Speech Enhancement,SE)等前端处理,再对前端处理得到的声学特征进行自动语音识别(Automatic Speech Recognition,ASR)后端处理。
传统方式前端语音分离增强模型与后端语音识别模型独立训练,在测试应用阶段直接将语音分离增强模型与语音识别模型进行级联。然而,前端处理会引入严重的失真,而这在后端模型训练阶段是未曾考虑的,从而这种级联方式下的语音识别准确性较低。
发明内容
基于此,有必要针对语音识别准确性低的技术问题,提供一种语音识别及模型训练方法、装置和计算机可读存储介质。
一种语音识别模型训练方法,所述方法包括:
获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;
基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;
对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;
基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。
一种语音识别模型训练装置,所述装置包括:
中间表征学习模块,用于获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;
损失融合模块,用于对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;
联合训练模块,用于基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述语音识别模型训练方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述语音识别模型训练方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010048780.2/2.html,转载请声明来源钻瓜专利网。