[发明专利]针对多口音语音识别的方法和装置有效
申请号: | 202110594476.2 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113593534B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 钱彦旻;龚勋;卢怡宙;周之恺 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/07 | 分类号: | G10L15/07;G10L15/16;G10L15/22;G10L15/26 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 口音 语音 识别 方法 装置 | ||
本发明公开针对多口音语音识别的方法和装置,其中,一种针对多口音语音识别的方法,其中,对于单语音识别系统,在编码阶段添加自适应层用于学习与口音有关的特征信息,包括:对于每个编码器块将口音表征向量作为一个指导信息,输入到所述自适应层中,用于指导所述自适应层中的转换函数,其中,一个编码器有多个串联的编码器块;将口音无关特征也同时输入到所述自适应层中;以及将所述口音无关特征和所述口音表征向量混合形成口音相关特征。本申请实施例进一步探讨了适应层的注入位置、口音基数和不同类型的口音基数,以实现更好的口音适应。
技术领域
本发明属于模型训练技术领域,尤其涉及针对多口音语音识别的方法和装置。
背景技术
相关技术中,端到端(E2E,End-to-End)自动语音识别(ASR)模型在给定输入声学特征的情况下直接优化输出序列的概率,在各种语音语料库中都取得了长足的进步。当今ASR的最紧迫需求之一是在单个系统中支持多种口音,这在文献中通常被称为多口音语音识别。语音,语音和语法等口音语音的识别困难对当前的ASR系统构成了严峻挑战。一种简单的方法是根据混合数据(来自非母语人士的口音和来自母语人士的标准数据)构建单个ASR模型。但是,由于训练和推理过程中的口音失配,此类模型通常会遭受严重的性能下降。先前的工作已经探索了声学模型的不同口音自适应方法。MixNet基于专家混合(MoE)架构,其中专家专门用于区分特定于口音的语音差异。还探索了与模型无关的元学习(MAML) 方法,以学习快速适应未见口音。一键式口音向量可以很好地用于建立多基调,其中每个基音都旨在涵盖某些类型的口音。
其中,多专家系统自适应技术采用多个专家系统,使用独热向量编码的口音信息,针对每个口音分别进行计算,输出预测到的文本信息。
发明人在实现本申请的过程中发现现有技术的方案存在以下缺陷:用多专家系统,每个专家规模庞大,参数量冗余,不能很好的根据口音分辨的难易程度快速调整模型。另外,每个口音必须有一个专家系统用来关注这个口音的有关信息,模型数据量大。
发明内容
本发明实施例提供一种针对多口音语音识别的方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种针对多口音语音识别的方法,其中,对于单语音识别系统,在编码阶段添加自适应层用于学习与口音有关的特征信息,包括:对于每个编码器块将口音表征向量作为一个指导信息,输入到所述自适应层中,用于指导所述自适应层中的转换函数,其中,一个编码器有多个串联的编码器块;将口音无关特征也同时输入到所述自适应层中;以及将所述口音无关特征和所述口音表征向量混合形成口音相关特征。
第二方面,本发明实施例提供一种针对多口音语音识别的装置,其中,对于单语音识别系统,在编码阶段添加自适应层用于学习与口音有关的特征信息,包括:指导程序模块,配置为对于每个编码器块将口音表征向量作为一个指导信息,输入到所述自适应层中,用于指导所述自适应层中的转换函数,其中,一个编码器有多个串联的编码器块;无关输入程序模块,配置为将口音无关特征也同时输入到所述自适应层中;以及混合程序模块,配置为将所述口音无关特征和所述口音表征向量混合形成口音相关特征。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的针对多口音语音识别的方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的针对多口音语音识别的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110594476.2/2.html,转载请声明来源钻瓜专利网。