[发明专利]普通话和四川话的混合语音识别模型的训练方法及系统有效

申请号：	202010737652.9	申请日：	2020-07-28
公开（公告）号：	CN111862942B	公开（公告）日：	2022-05-06
发明（设计）人：	陆一帆;钱彦旻;朱森	申请（专利权）人：	思必驰科技股份有限公司
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/06;G10L15/16;G10L15/26;G06N3/04;G06N3/08
代理公司：	北京商专永信知识产权代理事务所(普通合伙) 11400	代理人：	黄谦;车江华
地址：	215123 江苏省苏州市苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	普通话四川话混合语音识别模型训练方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种普通话和四川话的混合语音识别模型的训练方法。该方法包括：确定混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐，确定为训练用的输入数据；输入至N层公共中间层，第一任务层计算第一损失函数，第二任务层计算第二损失函数；基于第一损失函数训练N层的第一任务层，基于第二损失函数训练N层的第二任务层，基于训练后的第一神经网络参数以及训练后的第二神经网络参数进行多任务训练，训练N层公共中间层。本发明实施例还提供一种普通话和四川话的混合语音识别模型的训练系统。本发明实施例将音素和汉字作为多任务联合训练的任务，提高对普通话、四川话的识别性能，减少资源占用。

技术领域

本发明涉及语音识别领域，尤其涉及一种普通话和四川话的混合语音识别模型的训练方法及系统。

背景技术

语音识别通常采用深度学习框架算法，根据不同策略，达到同时支持多种语言的语音识别效果。有基于语种分类+两套独立语音识别系统的方案，也有单独一套语音识别系统支持多语言的方案。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

基于语种分类+两套独立语音识别系统的方案，从端到端的性能上来讲，由于链路上每个模块的错误率都是累加的，多引入了一个语种分类模块便是多引入了一个错误来源，且语音识别模块取决于语种分类模块的结果，语种分类错误会导致语音识别结果错误。此外，模块更多，因此资源占用更大，从资源占用和部署的角度而言资源占用高。

单独一套语音识别系统支持多种语言的方案，由于不同语言存在声学差异，一般采用不同建模单元，通常在模型结构上针对不同语种会有分岔，如果分岔的模型部分参数量较小而公共的神经网络参数较多，当数据量不均衡时，识别结果容易偏向数据量大的那一方。而方言数据获取难度大，途径少，训练数据量往往是远小于普通话数据的，因此这种混合系统相比单方言系统，方言的识别性能会显著降低。而如果分岔的模型部分参数量较大，方言的性能会有一定提升，但是这样的模型资源占用会较高，极端情况下甚至接近两套系统的资源占用。

发明内容

为了至少解决现有技术中基于语种分类+两套独立语音识别系统的方案资源占用和部署角度成本都比较高，单独一套语音识别系统支持多种语言的方案资源占用小的往往方言的性能识别较差，如果要提升方言的性能资源占用则需要增加，极端情况下甚至接近两套系统的资源占用的问题。

第一方面，本发明实施例提供一种普通话和四川话的混合语音识别模型的训练方法，其中，所述混合语音识别模型为具有N层公共中间层的深度神经网络结构，并且第N层公共中间层分叉出N层的第一任务层和N层的第二任务层，所述第一任务层计算基于音素的普通话和四川话的第一损失函数，所述第二任务层计算基于汉字的普通话和四川话的第二损失函数，所述训练方法包括：

对带有文本标注的混合训练音频数据进行数据增强，确定数据增强后的混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐，将所述特征、基于音素的数据对齐以及所述基于汉字的数据对齐确定为训练用的输入数据；

将所述训练用的输入数据输入至所述N层公共中间层，通过所述第一任务层计算所述第一损失函数，通过所述第二任务层计算第二损失函数；

基于所述第一损失函数仅训练所述N层的第一任务层的第一神经网络参数，基于所述第二损失函数仅训练所述N层的第二任务层的第二神经网络参数，基于训练后的第一神经网络参数以及训练后的第二神经网络参数进行多任务训练，共同训练所述N层公共中间层的神经网络参数，完成所述混合语音识别模型的训练。

第二方面，本发明实施例提供一种普通话和四川话的混合语音识别模型的训练系统，其中，所述混合语音识别模型为具有N层公共中间层的深度神经网络结构，并且第N层公共中间层分叉出N层的第一任务层和N层的第二任务层，所述第一任务层计算基于音素的普通话和四川话的第一损失函数，所述第二任务层计算基于汉字的普通话和四川话的第二损失函数，所述训练系统用于：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司，未经思必驰科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010737652.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种用于背光模组生产的原料挤出设备
下一篇：一种透气均匀抗脏污无纺布网带及其制备方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]普通话和四川话的混合语音识别模型的训练方法及系统有效

专利文献下载