[发明专利]一种语音识别模型的训练方法、装置及设备在审

申请号：	202110742007.0	申请日：	2021-06-30
公开（公告）号：	CN113327600A	公开（公告）日：	2021-08-31
发明（设计）人：	梁镇麟;董林昊;蔡猛;马泽君	申请（专利权）人：	北京有竹居网络技术有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/02
代理公司：	北京信远达知识产权代理有限公司 11304	代理人：	柳欣
地址：	101299 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音识别模型训练方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种语音识别模型的训练方法、装置及设备，先通过将第一训练数据输入待训练编码器中，计算音节级别CE损失。并对待训练编码器进行训练，得到待训练编码器包括的多个依次相连的特征提取模块中各个特征提取模块的模型参数。再将最后一个特征提取模块的模型参数进行随机初始化，将包括语音数据以及语音数据对应的字标签的第二训练数据输入至待训练编码器中，计算字级别CTC损失，并对最后一个特征提取模块进行训练，得到训练完成的编码器。最后，利用训练完成的编码器对语音识别模型进行训练。如此能够提高对语音识别模型进行训练的速度，并且能够提高训练后得到的语音识别模型的性能。

技术领域

本申请涉及数据处理领域，具体涉及一种语音识别模型的训练方法、装置及设备。

背景技术

语音识别模型用于对输入的语音数据进行处理，得到语音数据对应的文本数据。在对语音数据进行识别之前，通常先对语音识别模型进行训练，调整语音识别模型中的模型参数，使得语音识别模型的性能满足对语音数据进行识别的需要。

目前，语音识别模型的训练速度较慢，性能提升较低。如何提高语音识别模型的训练速度以及语音识别模型的性能是需要解决的问题。

发明内容

有鉴于此，本申请实施例提供一种语音识别模型的训练方法、装置及设备，能够提高语音识别模型的训练速度，提升语音识别模型的性能。

为解决上述问题，本申请实施例提供的技术方案如下：

第一方面，本申请提供一种语音识别模型的训练方法，所述方法包括：

将第一训练数据输入待训练编码器，所述待训练编码器包括多个依次相连的特征提取模块，所述第一训练数据包括语音数据以及所述语音数据中语音帧对应的音节标签；

由所述待训练编码器对所述语音帧的音节预测结果以及所述语音帧对应的音节标签，计算音节级别交叉熵CE损失，根据所述音节级别CE损失，对所述待训练编码器进行训练，得到各个所述特征提取模块的模型参数；

将最后一个特征提取模块的模型参数进行随机初始化，重新得到所述待训练编码器；

将第二训练数据输入所述待训练编码器，所述第二训练数据包括语音数据以及所述语音数据对应的字标签；

由所述待训练编码器对所述语音数据的字预测结果以及所述语音数据对应的字标签，计算字级别联结时间分类CTC损失，根据所述字级别CTC损失，对所述最后一个特征提取模块进行训练，得到训练完成的编码器；

利用所述训练完成的编码器对所述语音识别模型进行训练。

第二方面，本申请提供一种语音识别模型的训练装置，所述装置包括：

第一输入单元，用于将第一训练数据输入待训练编码器，所述待训练编码器包括多个依次相连的特征提取模块，所述第一训练数据包括语音数据以及所述语音数据中语音帧对应的音节标签；

第一计算单元，用于由所述待训练编码器对所述语音帧的音节预测结果以及所述语音帧对应的音节标签，计算音节级别交叉熵CE损失，根据所述音节级别CE损失，对所述待训练编码器进行训练，得到各个所述特征提取模块的模型参数；

第一初始化单元，用于将最后一个特征提取模块的模型参数进行随机初始化，重新得到所述待训练编码器；

第二输入单元，用于将第二训练数据输入所述待训练编码器，所述第二训练数据包括语音数据以及所述语音数据对应的字标签；

第二计算单元，用于由所述待训练编码器对所述语音数据的字预测结果以及所述语音数据对应的字标签，计算字级别联结时间分类CTC损失，根据所述字级别CTC损失，对所述最后一个特征提取模块进行训练，得到训练完成的编码器；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司，未经北京有竹居网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110742007.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音识别模型的训练方法、装置及设备在审

专利文献下载