[发明专利]语音识别方法、装置、电子设备和存储介质在审
申请号: | 202210255584.1 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114708852A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 杨军;方磊;桑宏报;胡鹏;何雪;周振昆;宣璇;方四安;柳林 | 申请(专利权)人: | 合肥讯飞数码科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/26;G10L15/06;G10L15/28 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 230088 安徽省合肥市(安徽)自由贸易试*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 存储 介质 | ||
1.一种语音识别方法,其特征在于,包括:
确定待识别语音;
将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本;
所述语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;
所述第一识别文本是所述学生模型基于所述领域样本语音的语音特征确定的,所述第二识别文本是教师模型基于所述领域样本语音的语音特征确定的,所述教师模型基于通用样本语音及其标签识别文本训练得到。
2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型的训练步骤包括:
对所述领域样本语音的语音特征进行扰动,并将扰动后的领域样本语音的语音特征输入至所述学生模型,得到所述学生模型输出的所述第一识别文本;
将所述领域样本语音的语音特征输入至所述教师模型,得到所述教师模型输出的所述第二识别文本;
基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,得到所述语音识别模型;
所述学生模型的初始化参数基于所述通用样本语音及其标签识别文本迭代得到。
3.根据权利要求2所述的语音识别方法,其特征在于,所述基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及所述第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代,得到所述语音识别模型,包括:
基于领域样本语音的标签识别文本和第一识别文本之间的差异,确定第一损失值;
基于所述第一识别文本和第二识别文本之间的差异,确定第二损失值;
基于所述第一损失值和所述第二损失值,对所述学生模型进行参数迭代,得到所述语音识别模型。
4.根据权利要求1所述的语音识别方法,其特征在于,所述领域样本语音的标签识别文本的确定步骤包括:
将所述领域样本语音的语音特征输入至所述学生模型,得到所述学生模型输出的第一标签识别文本;
将所述领域样本语音的语音特征输入至通用语音识别模型,得到所述通用语音识别模型输出的第二标签识别文本;
基于所述领域样本语音的语音时长,从所述第一标签识别文本和所述第二标签识别文本中确定所述领域样本语音的标签识别文本;
所述通用语音识别模型基于通用样本语音及其标签识别文本训练得到,且所述通用语音识别模型与所述学生模型的结构不同。
5.根据权利要求4所述的语音识别方法,其特征在于,所述基于所述领域样本语音的语音时长,从所述第一标签识别文本和所述第二标签识别文本中确定所述领域样本语音的标签识别文本,包括:
基于所述领域样本语音的语音时长,以及所述第一标签识别文本的字符数,确定所述领域样本语音的单位时长字符数;
若所述领域样本语音的单位时长字符数小于字符阈值,则将所述第一标签识别文本作为所述标签识别文本;若否,则将所述第二标签识别文本作为所述领域样本语音的标签识别文本。
6.根据权利要求1至5任一项所述的语音识别方法,其特征在于,所述将所述待识别语音的语音特征输入至语音识别模型,得到所述语音识别模型输出的识别文本,之后还包括:
基于所述识别文本的字符数以及所述待识别语音的语音时长,对所述识别文本进行校正,得到校正文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥讯飞数码科技有限公司,未经合肥讯飞数码科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210255584.1/1.html,转载请声明来源钻瓜专利网。