[发明专利]语音识别方法、装置、电子设备和存储介质在审

申请号：	202111550980.9	申请日：	2021-12-17
公开（公告）号：	CN114171002A	公开（公告）日：	2022-03-11
发明（设计）人：	祁鹏;许丽	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L15/00	分类号：	G10L15/00;G10L17/02;G10L17/04;G10L17/18;G10L17/24
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	程琛
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：对待识别语音进行语种识别，得到所述待识别语音的语种特征；基于所述语种特征，对所述待识别语音的编码特征进行语音解码，得到所述待识别语音分别在语音语种和预设语种下的识别文本，所述语音语种为所述语种特征所指示的语种。本发明提供的方法、装置、电子设备和存储介质，语音语种和预设语种的语音解码并行，无需在语音语种识别文本的基础上进行翻译，有效提高了预设语种识别文本的准确性，并且缩短了语音识别的响应时长。语音语种和预设语音的语音解码共用待识别语音的编码特征，即具备统一的建模方式，使得部署更加灵活，从而能够有效降低部署维护成本。

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

语音识别技术作为人机交互的重要接口之一，给用户带来了更加便捷的体验，降低了人与机器的交互门槛。但是语言的繁杂和口音的差异，依然会导致语音识别准确率的降低，影响实际用户体验。

针对上述问题，目前为各种语种提供了单独的语音识别系统，但是需要用户主动配合选择对应语种的语音识别系统，尤其是用户在交互过程中无意识夹杂多个语种的情况，各语种独立的语音识别系统并无法对此进行准确识别。而即便用户配合，能够识别出对应语种的正确文本，对于不懂该语种的人依然无法直接理解语音的含义，还需经过翻译系统翻译，这会大大降低交互效率。

发明内容

本发明提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有技术中需要人为选择语种后再行语音识别，且识别所得的文本需再行翻译，影响交互效率的问题。

本发明提供一种语音识别方法，包括：

对待识别语音进行语种识别，得到所述待识别语音的语种特征；

基于所述语种特征，对所述待识别语音的编码特征进行语音解码，得到所述待识别语音分别在语音语种和预设语种下的识别文本，所述语音语种为所述语种特征所指示的语种。

根据本发明提供的一种语音识别方法，所述基于所述语种特征，对所述待识别语音的编码特征进行语音解码，得到所述待识别语音分别在语音语种和预设语种下的识别文本，包括：

基于所述语种特征，对所述编码特征进行所述语音语种下的语音解码，得到所述待识别语音在所述语音语种下的解码特征和识别文本；

基于所述解码特征和所述语种特征，或，基于所述语种特征，对所述编码特征进行所述预设语种下的语音解码，得到所述待识别语音在所述预设语种下的识别文本。

根据本发明提供的一种语音识别方法，所述对待识别语音进行语种识别，得到所述待识别语音的语种特征，包括：

对所述待识别语音进行声学特征提取，得到所述待识别语音的声学特征；

基于所述声学特征，对所述待识别语音进行语种识别，得到所述待识别语音的语种特征；

基于所述声学特征，对所述待识别语音进行语音识别编码，得到所述待识别语音的编码特征。