[发明专利]语音识别方法、装置、设备和存储介质在审
申请号: | 202111528598.8 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114387950A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 李良斌;陈孝良 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/18 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 唐博 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 设备 存储 介质 | ||
本公开涉及一种语音识别方法、装置、设备和存储介质。该方法根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别;根据所述目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,所述目标语言类别为所述多个语言类别中的一个,所述语音识别模型包括通用语音识别模型和方言语音识别模型,所述方言语音识别模型是训练所述通用语音识别模型得到的;基于所述目标语音识别模型识别所述待识别语音,获取语音识别结果。该方法能够提升语音识别结果的准确性。
技术领域
本公开涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备和存储介质。
背景技术
随着经济技术的发展,设备的智能化程度越来越高,语音识别(Automatic SpeechRecognition,ASR)技术功能在智能化设备中的应用越来越广泛。ASR技术在客服服务系统中的应用,主要是在接收到用户咨询的问题时,识别用户所说的话,并根据识别结果从对应的模板话术库中抽取合适的回答话术回答用户。
现有技术中,客服服务系统使用的语音识别模型是一个通用的模型,无论用户说的是方言还是普通话都会通过该模型进行识别,但是通用模型训练的数据大多数都是普通话数据,导致该模型对方言的识别效果比较差。
发明内容
本公开提供了一种语音识别方法、装置、设备和存储介质,能够提升语音识别结果的准确性。
第一方面,本公开提供了一种语音识别方法,包括:
根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别;
根据所述目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,所述目标语言类别为所述多个语言类别中的一个,所述语音识别模型包括通用语音识别模型和方言语音识别模型,所述方言语音识别模型是训练所述通用语音识别模型得到的;
基于所述目标语音识别模型识别所述待识别语音,获取语音识别结果。
可选的,所述根据所述目标语言类别和目标对应关系,确定目标语音识别模型之前,还包括:
获取多个方言类别各自对应的训练样本;
针对每个方言类别,将所述方言类别对应的第一训练样本输入至通用声学模型,得到初始方言声学模型;
针对每个方言类别,将所述方言类别对应的第二训练样本输入至所述初始方言声学模型,得到方言声学模型。
可选的,所述将所述方言类别对应的第一训练样本输入至通用声学模型,得到初始方言声学模型,包括:
将所述第一训练样本输入至所述通用声学模型,得到第一音素,所述第一训练样本包括所述方言类别中各第二音素对应的声学特征;
根据所述第一音素与音素对应关系,确定第二音素,所述音素对应关系中包括所述方言类别中所有的第二音素,以及各第二音素对应的第一音素;
将所述通用声学模型中的所有第一音素更新为对应的第二音素,得到所述初始方言声学模型。
可选的,所述将所述方言类别对应的第二训练样本输入至所述初始方言声学模型,得到方言声学模型,包括:
将所述第二训练样本输入至所述初始方言声学模型,调整所述初始方言声学模型的参数,直至满足预设条件,得到所述方言声学模型,所述第二训练样本包括所述方言类别中各第二音素对应的声学特征。
可选的,所述方法还包括:
获取所述多个方言类别的音频各自对应的语料文本;
针对所述每个方言类别,根据所述方言类别的语料文本,确定方言发音词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111528598.8/2.html,转载请声明来源钻瓜专利网。