[发明专利]重打分模型训练方法、语音识别方法及相关装置有效
申请号: | 201911413152.3 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111179916B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 李安;陈江;胡正伦;傅正佳 | 申请(专利权)人: | 广州市百果园信息技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L25/69 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 511400 广东省广州市番*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 打分 模型 训练 方法 语音 识别 相关 装置 | ||
本发明实施例公开了一种重打分模型训练方法、语音识别方法及相关装置,训练方法包括:获取语音数据样本的多个语音识别结果和语音数据样本的第一标签,第一标签为预先标注的标签;获取语音识别结果在多个不同语言模型下的分数;基于语音识别结果、分数和第一标签获得语音数据样本的样本特征向量和第二标签;采用样本特征向量和第二标签训练模型得到重打分模型。本发明实施例挖掘第二标签和不同语言模型打分的分数隐含的内在关联,以得到不同语言模型的打分分数的最佳组合方式,排除了人为主观性因素,确保了语音识别结果的准确度,即时各个语言模型打分机制改变,也无需修改各个分数之间的权重,提高了重打分模型的通用性和普适性。
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种重打分模型训练方法、重打分模型训练装置、语音识别方法、语音识别装置、设备和存储介质。
背景技术
自动语音识别(ASR)是一种将语音转为文字的技术,ASR能够应用于语音翻译、人机交互,智能家居等应用场景。
在语音识别的解码过程中,语音数据可以得到多个语音识别结果,比如语音内容是:“我是好学生”,在语音识别解码的过程中可能得到如下多个语音识别结果:“握是号学声”,“窝时浩学升”,“卧室好学生”,“我是好学生”……,对于究竟选择哪一条最合适或者合理关乎着语音识别结果的准确性。
在现有技术中,通常是对每个语音识别结果进行打分,分数越高的语音识别结果的合理性或准确性越大,然而只依靠单一打分结果来作为判断标准准确度还是比较低,因此出现了同时通过多个语言模型来对每个语音识别结果打分后进行综合判断。
然而,现有重打分机制是直接将每个识别结果的多个分数相加或者根据人工设置的权重对每种分数添加权重后计算总得分,一方面,人为主观影响最终分数,准确度差,另一方面,某一个打分机制改变,需要重新设置该打分机制的权重,适用性差。
发明内容
本发明实施例提供一种重打分模型训练方法、重打分模型训练装置、语音识别方法、语音识别装置、设备和存储介质,以解决现有技术中语音识别重打分存在人为主观性影响大和适用性差的问题。
第一方面,本发明实施例提供了一种重打分模型训练方法,包括:
获取语音数据样本的多个语音识别结果和所述语音数据样本的第一标签,所述第一标签为预先标注的所述语音数据样本的标签;
获取每一种语音识别结果在多个不同语言模型下的分数;
基于所述语音识别结果、所述分数和所述第一标签获得所述语音数据样本用于重打分模型训练的样本特征向量和第二标签;
采用所述样本特征向量和所述第二标签训练模型,得到用于对所述语音识别结果进行重打分的重打分模型。
第二方面,本发明实施例提供了一种语音识别方法,包括:
获取待识别语音数据的多个语音识别结果;
获取每一种语音识别结果在多个不同语言模型下的分数;
基于所述语音识别结果和所述分数获得所述待识别语音数据的特征向量;
将所述特征向量输入预先训练的重打分模型中获得每个语音识别结果的最终分数;
将所述最终分数最小的语音识别结果确定为所述待识别语音数据的最终识别结果;
其中,所述重打分模型通过本发明实施例所述的重打分模型训练方法所训练。
第三方面,本发明实施例提供了一种重打分模型训练装置,包括:
语音识别结果和第一标签获取模块,用于获取语音数据样本的多个语音识别结果和所述语音数据样本的第一标签,所述第一标签为预先标注的所述语音数据样本的标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市百果园信息技术有限公司,未经广州市百果园信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911413152.3/2.html,转载请声明来源钻瓜专利网。