[发明专利]针对多口音语音识别的方法和装置有效
申请号: | 202110594476.2 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113593534B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 钱彦旻;龚勋;卢怡宙;周之恺 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/07 | 分类号: | G10L15/07;G10L15/16;G10L15/22;G10L15/26 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;邓婷婷 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 口音 语音 识别 方法 装置 | ||
1.一种针对多口音语音识别的方法,其中,对于单语音识别系统,在编码阶段添加自适应层用于学习与口音有关的特征信息,包括:
对于每个编码器块将口音表征向量作为一个指导信息,输入到所述自适应层中,用于指导所述自适应层中的转换函数,其中,一个编码器有多个串联的编码器块;
将口音无关特征也同时输入到所述自适应层中;
将所述口音无关特征和所述口音表征向量混合形成口音相关特征;
将所述口音表征向量经过一个预测概率的神经网络,输出对应不同基的概率;
同时将口音无关特征输入每一个基里得到基相关的特征;
将所述基相关的特征与所述概率合并起来得到口音相关特征。
2.根据权利要求1所述的方法,其中,所述方法还包括:
其中,为多基自适应层,将每个基的输出Bk(hi)与相应的插值系数αk连接起来,缩放Fk(·)和移位Gk(·)的转换函数用于将输入hi转换为与口音相关的空间,其中,k=1,2,...,n,其中,n是自适应层基数,转换函数包括仅缩放操作和仅移位操作,z是口音表征向量。
3.根据权利要求2所述的方法,其中,为了从口音表征向量z估计插值系数α∈Rn,使用了插值参数预测器p(·)模型,公式如下:
其中,插值系数α=(α1,...,αn)是多个基的概率,插值参数预测器p(·)由几个DNN层组成。
4.根据权利要求1所述的方法,还包括:
应用多任务学习方案来利用辅助任务的损失规范语音识别系统和预测器模型的训练,其中,来自预测器的辅助损耗被引入语音识别系统损耗Ljca,然后整个系统的最终损耗Lmtl计算为:
其中,α(ref)是插值参数预测器输出p(z)的目标标签,α是插值参数预测器输出,γmtl是控制参数的超参数插值参数预测器损失的贡献;通过从预训练的AID模型提取的口音表征向量的聚类获得目标标签α(ref)。
5.根据权利要求2所述的方法,还包括:
直接利用所述口音表征向量生成转换函数,将缩放因子f(z)和移位因子g(z)应用于输入特征以进行重音调整:
其中,Ag是门控适配器层,⊙表示元素级乘积,f(z)和g(z)由具有tanh(·)活化作用的单个致密层分别生成。
6.一种针对多口音语音识别的装置,其中,对于单语音识别系统,在编码阶段添加自适应层用于学习与口音有关的特征信息,包括:
指导程序模块,配置为对于每个编码器块将口音表征向量作为一个指导信息,输入到所述自适应层中,用于指导所述自适应层中的转换函数,其中,一个编码器有多个串联的编码器块;
无关输入程序模块,配置为将口音无关特征也同时输入到所述自适应层中;
混合程序模块,配置为将所述口音无关特征和所述口音表征向量混合形成口音相关特征;
所述装置还包括配置为:将所述口音表征向量经过一个预测概率的神经网络,输出对应不同基的概率;同时将口音无关特征输入每一个基里得到基相关的特征;将所述基相关的特征与所述概率合并起来得到口音相关特征。
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110594476.2/1.html,转载请声明来源钻瓜专利网。