[发明专利]语音识别方法、装置、设备以及计算机可读存储介质有效
申请号: | 201910779740.2 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110534095B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 彭星源;邵俊尧;贾磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;丁君军 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 设备 以及 计算机 可读 存储 介质 | ||
本公开提供了一种语音识别方法、装置、设备以及计算机可读存储介质。方法包括针对输入的语音信号,通过第一声学模型获得第一声学解码信息并且通过第二声学模型获得第二声学解码信息,其中第二声学模型是通过声学和语言的联合建模而生成的。方法还包括根据第一声学解码信息确定第一组候选识别结果并且根据第二声学解码信息确定第二组候选识别结果,然后基于这两组候选识别结果来确定针对语音信号的最终识别结果。本公开的实施例提出了一种基于双解码的语音识别方案,利用一个声学模型的声学多样性来弥补另一个声学模型声学路径较少的缺点,两个解码路径彼此独立,扩展了解码空间,从而能够提高语音识别的准确率。
技术领域
本公开的实施例总体上涉及语音识别技术领域,并且更具体地涉及基于双解码的语音识别方法、装置、设备以及计算机可读存储介质。
背景技术
语音识别是指通过计算机把语音信号转换为对应的文本的过程,其将人类语音中的词汇内容转换为实际的文字输出,是实现人与机器交互的主要途径之一。近年来,随着深度学习技术在语音识别领域的广泛引用,语音识别的准确率得到了极大的提升。此外,由于智能设备的不断普及,使用语音进行识别的场合已经变得非常丰富。例如,语音识别技术已经广泛应用于语音输入法,语音拨号、车载导航等各种场合。语音识别技术结合自然语言处理以及语音合成等技术,可以产生更多复杂应用,例如智能音箱、会议同声传译、智能客服助理等。语音识别的准确率决定了语音相关产品用户的使用体验,直接影响着交互过程中后续的语义理解、对话生成等模块,因此,随着语音识别使用场景的不断丰富,对语音识别的准确率提出了更高的要求。
随着人工智能的不断发展,各种语音识别技术也在推陈出新,不断提升语音识别的准确率。从早期的高斯混合模型-隐马尔科夫模型(GMM-HMM)声学建模方法,到应用深度神经网络(DNN)结构来替换GMM建模开启了语音识别的深度学习时代。其后,使用卷积神经网络(CNN)、基于门的循环神经网络(GRU)和长短时记忆网络(LSTM)等网络结构以替换DNN模型,都显著提升了神经网络模型的建模精度。再然后,端到端(End-to-End)的连接时序分类(CTC)模型被用于语音识别,声学模型结构完全由统一的神经网络结构所替代,这极大的简化了声学模型结构和训练难度,识别率得以进一步的提高。近年来,建立在注意力(Attention)机制的端到端LAS(Listen,Attend and Spell)结构,将声学和语言进行联合建模的方式,进一步提升了语音识别的准确率。
发明内容
根据本公开的示例实施例,提供了一种语音识别方法、装置、设备以及计算机可读存储介质。
在本公开的第一方面中,提供了一种语音识别方法。该方法包括:针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,其中第一声学模型通过声学建模而生成并且第二声学模型通过声学和语言的联合建模而生成;分别根据第一声学解码信息和第二声学解码信息,确定第一组候选识别结果和第二组候选识别结果;以及基于第一组候选识别结果和第二组候选识别结果,确定针对语音信号的识别结果。
在本公开的第二方面中,提供了一种语音识别装置。该装置包括:声学信息获得模块,被配置为针对输入的语音信号,通过第一声学模型和第二声学模型分别获得第一声学解码信息和第二声学解码信息,其中第一声学模型通过声学建模而生成并且第二声学模型通过声学和语言的联合建模而生成;候选结果确定模块,被配置为分别根据第一声学解码信息和第二声学解码信息,确定第一组候选识别结果和第二组候选识别结果;以及识别结果确定模块,被配置为基于第一组候选识别结果和第二组候选识别结果,确定针对语音信号的识别结果。
在本公开的第三方面中,提供了一种电子设备,其包括一个或多个处理器以及存储装置,其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行,使得电子设备实现根据本公开的各个实施例的方法或过程。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的各个实施例的方法或过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910779740.2/2.html,转载请声明来源钻瓜专利网。