[发明专利]一种语音识别方法、装置、设备以及存储介质在审
申请号: | 202011054844.6 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112349289A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 吴帅;李健;武卫东;陈明 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/02;G10L15/06;G10L15/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 设备 以及 存储 介质 | ||
本申请提供了一种语音识别方法、装置、设备以及存储介质,涉及语音识别技术领域。能够根据语音音频的类别,自适应调整声学模型和语言模型在语音解码过程中的权重系数,得到最适合当前语音音频的解码方式,对当前语音音频进行解码,进而提高语音识别的准确性。将待识别语音音频的声学特征输入解码器;获取解码器生成的候选文本,并计算候选文本的识别分数;根据声学特征、候选文本、识别分数以及待识别语音音频的类别特征,生成特征矩阵;将特征矩阵输入权重调整模型;将权重调整模型输出的最佳权重返回解码器;根据最佳权重更新解码器中声学模型与语言模型的第一结合权重;获取更新第一结合权重后的解码器输出的翻译文本。
技术领域
本申请涉及语音识别技术领域,特别是涉及一种语音识别方法、装置、设备以及存储介质。
背景技术
随着人工智能的发展,语音识别技术(ASR,Automatic Speech Recognition)已被广泛应用于会议转录,实时翻译,语音质检和智能客服等商业领域。
语音识别技术(ASR),是多学科交叉的领域,与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。简单而言,语音识别技术是一种通过机器或神经网络识别和理解语音信号,并将语音信号转变为相应的文本的技术。
声学模型和语言模型是语音识别技术的重要部分,声学模型用于根据语音音频的声学特征,预测产生该语音音频的发音序列,语言模型用于根据声学特征,预测与产生该语音音频的多个词或多个字。
语音识别的语音解码需要融合声学模型和语言模型的输出结果,现有技术下,语音解码阶段一般按照预先设置的固定权重,对声学模型和语言模型的输出结果进行结合。然而事实上,预先设置的固定权重并不适用于不同的场合、不同的语境或不同的任务。例如,在理解播音员和口音严重的普通人朗读同样文本内容的音频时,基于播音员采集的音频,能够凭读音准确判断内容,基于口音严重的普通人采集的音频,需要进一步结合上下文,或猜测更多可能的字或词,才能准确判断内容。
发明内容
本申请实施例提供一种语音识别方法、装置、设备及存储介质,能够根据语音音频的类别,自适应调整声学模型和语言模型在语音解码过程中的权重系数,得到最适合当前语音音频的解码方式,对当前语音音频进行解码,进而提高语音识别的准确性。
本申请实施例第一方面提供一种语音识别方法,所述方法包括:
获取待识别语音音频的声学特征,并将所述声学特征输入解码器;其中,所述解码器包括声学模型和语言模型;
获取所述解码器生成的候选文本,并计算所述候选文本的识别分数;
根据所述声学特征、所述候选文本、所述识别分数以及所述待识别语音音频的类别特征,生成特征矩阵;
将所述特征矩阵输入所述权重调整模型;
将所述权重调整模型输出的最佳权重返回所述解码器;
根据所述最佳权重更新所述解码器中所述声学模型与所述语言模型的第一结合权重;
获取更新所述第一结合权重后的解码器输出的翻译文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011054844.6/2.html,转载请声明来源钻瓜专利网。