[发明专利]语音识别及模型训练方法、装置和计算机可读存储介质有效
申请号: | 202010048780.2 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111261146B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 王珺;林永业 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L21/0272;G10L25/60 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 于丽君;李文渊 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 模型 训练 方法 装置 计算机 可读 存储 介质 | ||
1.一种语音识别模型训练方法,所述方法包括:
获取语音分离增强模型的第一损失函数及语音识别模型的第二损失函数;
基于所述第二损失函数进行反向传播,以对桥接在所述语音分离增强模型和语音识别模型之间的中间模型进行训练,得到鲁棒表征模型;
对所述第一损失函数和第二损失函数进行融合,得到目标损失函数;
基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及语音识别模型进行联合训练,在满足预设收敛条件时结束训练。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于第一神经网络模型提取样本语音流的估计频谱和嵌入特征矩阵;
根据嵌入特征矩阵及预设理想掩蔽矩阵,确定样本语音流对应的吸引子;
通过计算所述嵌入特征矩阵中每个矩阵元素与所述吸引子的相似性,得到所述样本语音流的目标掩蔽矩阵;
根据所述目标掩蔽矩阵确定样本语音流所对应的增强频谱;
基于所述样本语音流对应的估计频谱与所述增强频谱之间的均方误差损失对所述第一神经网络模型进行训练,得到语音分离增强模型。
3.根据权利要求2所述的方法,其特征在于,所述基于第一神经网络模型提取样本语音流的估计频谱和嵌入特征矩阵包括:
对样本语音流进行傅里叶变换,得到每个音频帧的语音频谱和语音特征;
基于第一神经网络模型对语音频谱进行语音分离和增强,得到估计频谱;
基于第一神经网络模型将语音特征映射至嵌入空间,得到嵌入特征矩阵。
4.根据权利要求3所述的方法,其特征在于,所述根据嵌入特征矩阵及预设理想掩蔽矩阵,确定样本语音流的吸引子包括:
根据所述语音频谱和语音特征确定理想掩蔽矩阵;
基于预设的二元阈值矩阵对所述理想掩蔽矩阵中噪声元素进行过滤;
根据嵌入特征矩阵及过滤了噪声元素的理想掩蔽矩阵,确定样本语音流对应的吸引子。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二神经网络模型;
对所述第二神经网络模型进行非负约束处理,得到非负神经网络模型;
获取用于对非负神经网络模型输出的声学特征进行听觉适配的微分模型;
将所述微分模型与所述非负神经网络模型级联,得到中间模型。
6.根据权利要求5所述的方法,其特征在于,所述获取用于对非负神经网络模型输出的声学特征进行听觉适配的微分模型包括:
获取用于对声学特征对应特征向量进行对数运算的对数模型;
获取用于对声学特征对应特征向量进行差分运算的差分模型;
根据所述对数模型与所述差分模型构建微分模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本语音流及对应标注的音素类别;
通过第三神经网络模型提取样本语音流中每个音频帧的深度特征;
根据所有音素类别的音频帧对应的深度特征,确定样本语音流的中心向量;
基于所述深度特征和所述中心向量确定每个音频帧的类间混淆衡量指数与类内距离惩罚指数之间的融合损失;
基于所述融合损失对所述第三神经网络模型进行训练,得到语音识别模型。
8.根据权利要求7所述的方法,其特征在于,所述基于深度特征和中心向量确定每个音频帧的类间混淆衡量指数与类内距离惩罚指数的融合损失包括:
将所述深度特征输入交叉熵函数,计算得到各音频帧的类间混淆衡量指数;
将所述深度特征和所述中心向量输入中心损失函数,计算得到每个音频帧的类内距离惩罚指数;
将类间混淆衡量指数与类内距离惩罚指数进行融合运算,得到融合损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010048780.2/1.html,转载请声明来源钻瓜专利网。