[发明专利]语音识别方法、系统、装置及介质有效

申请号：	202110470132.0	申请日：	2021-04-28
公开（公告）号：	CN113299283B	公开（公告）日：	2023-03-10
发明（设计）人：	白蒙蒙	申请（专利权）人：	上海淇玥信息技术有限公司
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/26;G10L15/18
代理公司：	北京清诚知识产权代理有限公司 11691	代理人：	喻颖
地址：	201500 上海市崇明***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法系统装置介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及语音识别领域，针对现有的语音识别、计算资源浪费、多个模型间无法实现热切换、单一领域模型不适应长对话识别等缺陷，提出了本发明的语音识别方法、系统、装置及介质，旨在解决如何基于深度学习的动态语言模型根据领域信息，提供不同领域的语音识别服的技术问题。为此，本发明的方法通过构建的语音识别模型在预测过程中结合语料领域信息的利用，提供了适用于多领域有效热切换、长对话的语音识别服务，改进了现有语音识别服务性能，有效减少资源浪费，适合不同领域交叉、长对话的正确识别，实现识别热切换，且实现简单操作容易成本低效率高。

技术领域

本发明涉及语音识别领域，具体而言，涉及一种语音识别方法、系统、装置及介质。

背景技术

在语音识别中，其主要流程一般是用声学模型识别出一段语音的声学特征，再由语言模型根据声学特征翻译出对应的文字。由于存在同音异字的情况，会区分不同的应用场景而训练不同的语言模型，使其能适应特定领域场景。如图1所示：待识别语音转换成对应声学模型的单元(例子中的拼音、音调序号等)，通过声学模型提取声学特征，例如将声学模型识别语音得到的声学特征“jian3 yi4 gong1 zuo4”，进而，用某通用语言模型翻译出来可以是“简易工作”，而某防疫语言模型翻译出来则可以是“检疫工作”。由此，为了能提供许多领域的支持，必须需要训练众多的语言模型而且利用众多的服务器来提供服务支持。进而，就需要如图2所示的方式，由前端的判断逻辑来确定应该调用后端的诸多服务器(即相应的适用于不同领域/不同场景的不同模型)中哪个特定的服务器端口i进行服务，并由后端输出准确的与领域/场景匹配的翻译的结果。

而上述现有技术采用的方式，往往存在诸多缺陷，例如：1、服务成本大，比如一个服务引擎就至少需求2C4G的配置，考虑并发量，一个领域的语言模型或许不仅仅一个服务器；2、计算资源浪费现象，比如所有领域的调用量都并不会相同，有些调用少，有些则会多，这样，调用量少的语言模型，其部署的计算资源会显得十分浪费；3、无法实现热切换语言模型，比如当想让冷门领域语言模型切换提供热门领域时，需要人工维护，致使人工成本较大；4、往往单一领域模型并不能适应长对话识别任务。

发明内容

针对现有技术中的上述缺陷，本发明提供了一种语音识别方法、系统、装置及介质的技术方案，旨在解决如何通过基于深度学习的动态语言模型实现适应不同领域识别服务的技术问题；进一步，还可以解决根据领域信息和/或判断已有对话的领域信息为不同领域提供通过基于深度学习的动态语言模型进行的识别服务从而减少过多服务器部署的问题；再进一步，还可以解决减少计算资源浪费、减少人工成本、并且有效为长对话识别提供不同领域的识别结果等技术问题。

为了解决上述技术问题，本发明第一方面提出一种语音识别方法，包括：根据语音识别服务请求，获得待识别语音的声学特征以及对应所述声学特征的领域信息；基于深度学习的动态语言模型切换到所述领域信息对应的领域对所述声学特征进行识别，以确定所述待识别语音对应的文本识别结果。

优选地，所述根据语音识别服务请求，获得待识别语音的声学特征以及对应所述声学特征的领域信息，具体包括：在一次服务请求中，将所述待识别语音转换为声学模型对应的单元以构建当前一句话的语料作为所述声学特征；根据语料的领域分类，判断所述当前一句话的语料所属的领域，作为对应所述声学特征的所述领域信息。

优选地，所述语音识别服务请求包括：长对话识别的一次服务请求，和/或，单句识别的一次服务请求；根据语料的领域分类，判断所述当前一句话的语料所属的领域，作为对应所述声学特征的所述领域信息，具体包括：当所述语音识别服务请求为单句识别的一次服务请求时，直接根据语料的领域分类，判断所述当前一句话的语料所属的领域；和/或，当所述语音识别服务请求为长对话识别的一次服务请求时，先根据上一句话的识别信息对所述当前一句话的语料的第一特征进行提取，融合所述第一特征与从所述当前一句话的语料直接提取的特征后，再根据语料的领域分类，判断所述当前一句话的语料所属的领域；其中，上一句话指所述当前一句话之前的一句话。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海淇玥信息技术有限公司，未经上海淇玥信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110470132.0/2.html，转载请声明来源钻瓜专利网。

上一篇：基于关系图网络的用户策略分配方法、装置及电子设备
下一篇：机器学习模型的投放策略评估方法、装置及电子设备

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别方法、系统、装置及介质有效

专利文献下载