[发明专利]语音识别的方法及装置、设备有效

申请号：	201710831319.2	申请日：	2017-09-15
公开（公告）号：	CN109523991B	公开（公告）日：	2023-08-18
发明（设计）人：	高杰;李威;朱林	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/30;G10L15/32
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	孙敬霞;栗若木
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种请语音识别的方法及装置、设备，包括：接收来自用户的语音；获取热词语言模型，所述热词语言模型为根据用户提供的热词训练得到的语言模型；利用所述热词语言模型以及预置的主语言模型对所述语音进行解码。本申请至少能够有效提高热词的识别准确率。

技术领域

本发明涉及语音技术领域，尤其涉及一种语音识别的方法及装置、设备。

背景技术

语言模型训练的好坏对语音识别性能有着重要的影响，训练语料越大，语音识别的效果越好，但再大的训练语料，也难包含所有的语言现象。尽管某些领域可以通过对领域内语料训练语言模型，提升该领域内的语音识别准确率，但是针对某些特定词，尤其是热词的出现和热词出现的时段性(某些词在某些事件内被人们提及较多，比如一首新歌的歌名)，仍大大影响语音识别准确率。

发明内容

本申请旨在至少解决相关技术中的技术问题之一。

本申请提供一种语音识别的方法及装置、设备，至少能够有效提高热词的识别准确率。

本申请采用如下技术方案：

一种语音识别的方法，包括：

接收来自用户的语音；

获取热词语言模型，所述热词语言模型为根据用户提供的热词训练得到的语言模型；

利用所述热词语言模型以及预置的主语言模型对所述语音进行解码。

其中，所述获取热词语言模型，包括：根据用户提供的热词和权重信息得到热词词表，并根据所述热词词表编译热词语言模型。

其中，所述获取热词语言模型，包括：根据用户提供的热词和权重信息得到热词词表；在所述热词词表没有更改时，查找之前编译过的对应所述热词词表的热词语言模型。

其中，所述获取热词语言模型之前，还包括：向用户提供权重档位信息，所述权重档位信息与预先设定的权重得分相对应；所述获取热词语言模型，包括：接收所述用户提供的热词以及选择的权重档位信息。

其中，所述根据所述热词词表编译热词语言模型，包括：根据所述热词词表中各热词及其权重信息进行分词，得到分词词表；利用所述分词词表构建带权重的前缀树；利用所述带权重的前缀树构建加权有限状态接收器WFSA，并得到基于所述WFSA的热词语言模型。