[发明专利]跨领域语音识别中端到端的语音的置信度估计方法及装置在审
申请号: | 202210974645.X | 申请日: | 2022-08-15 |
公开(公告)号: | CN115346516A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 徐高鹏 | 申请(专利权)人: | 蔚来汽车科技(安徽)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/18;G10L19/16 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 陈敏 |
地址: | 230601 安徽省合肥市经济*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 领域 语音 识别 中端 置信 估计 方法 装置 | ||
1.一种跨领域语音识别中端到端的语音的置信度估计方法,其特征在于,所述方法包括:
提取跨领域音频数据的声学特征向量;
将所述声学特征向量输入编码器得到对应的编码特征;
将所述编码特征输入解码器,输出对应的语音识别结果;
将所述语音识别结果输入训练好的跨领域语言模型,得到跨领域语言特征;
将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层,输出跨领域置信度特征;
将所述跨领域置信度特征输入置信度估计模块,输出对应的置信度。
2.根据权利要求1中任一项所述的置信度估计方法,其特征在于,所述跨领域置信度特征提取层包括第一特征提取层和第二特征提取层。
3.根据权利要求2所述的置信度估计方法,其特征在于,所述将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层,输出跨领域置信度特征,包括:
其中,P为跨领域置信度特征,M为跨领域语言特征,y为语音识别结果,f(·)为第一特征提取层,g(·)为第二特征提取层。
4.根据权利要求1所述的置信度估计方法,其特征在于,在将所述语音识别结果输入训练好的跨领域语言模型,得到跨领域语言特征之前,所述方法还包括:
对所述跨领域语言模型进行训练,得到训练好的跨领域语言模型。
5.根据权利要求4所述的置信度估计方法,其特征在于,所述对所述跨领域语言模型进行训练,得到训练好的跨领域语言模型,包括:
获得多个领域的语料训练集;
基于所述多个领域的语料训练集,对多个语言模型进行训练,得到多个语言模型各自的输出,其中,所述多个语言模型与所述多个领域的语料训练集一一对应;
根据所述多个语言模型各自的输出,以及所述多个语言模型预设的插值系数,对所述多个语言模型进行插值,得到所述跨领域语言模型。
6.根据权利要求5所述的置信度估计方法,其特征在于,在对所述多个语言模型进行插值,得到所述跨领域语言模型后,所述方法还包括:
根据NCE损失函数计算所述跨领域语言模型的损失值;
根据所述损失值对所述跨领域语言模型的模型参数进行优化。
7.根据权利要求1-3中任一项所述的置信度估计方法,其特征在于,所述置信度估计模型包括前向层和分类层;
将所述跨领域置信度特征输入置信度估计模块,输出对应的置信度,包括:
将所述跨领域置信度特征输入所述前向层,输出对应的置信度的最终状态;
将所述输出对应的置信度的最终状态作为所述分类器的输入,输出对应的置信度。
8.一种跨领域语音识别中端到端的语音的置信度估计装置,其特征在于,所述装置包括:
提取模块,用于提取跨领域音频数据的声学特征向量;
编码器模块,用于将所述声学特征向量输入编码器得到对应的编码特征;
解码器模块,用于将所述编码特征输入解码器,输出对应的语音识别结果;
跨领域语言模型模块,用于将所述语音识别结果输入训练好的跨领域语言模型,得到跨领域语言特征;
跨领域置信度特征提取层模块,用于将所述语音识别结果和所述跨领域语言特征输入跨领域置信度特征提取层,输出跨领域置信度特征;
置信度估计模块,用于将所述跨领域置信度特征输入置信度估计模块,输出对应的置信度。
9.一种控制装置,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的置信度估计方法。
10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的置信度估计方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蔚来汽车科技(安徽)有限公司,未经蔚来汽车科技(安徽)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210974645.X/1.html,转载请声明来源钻瓜专利网。