[发明专利]一种语音识别方法、装置及终端设备在审
申请号: | 201811592002.9 | 申请日: | 2018-12-25 |
公开(公告)号: | CN111435592A | 公开(公告)日: | 2020-07-21 |
发明(设计)人: | 彭团民;陈明 | 申请(专利权)人: | TCL集团股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/18;G10L15/26 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 张全文 |
地址: | 516006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 终端设备 | ||
本发明适用于终端设备技术领域,提供了一种语音识别方法、装置及终端设备,通过将目标音频数据输入预先构造的基于神经网络的声学模型后,得到目标拼音序列,再将该目标拼音序列输入预先构造的基于神经网络的语言模型,得到目标文字序列,通过将语音识别过程拆分成两部分,一部分为从音频数据到拼音序列,一部分为从拼音序列到文字序列,大幅度降低了对数据量的依赖,因带声调的拼音一共就1400多个,常用的汉字7000多个,使得从拼音序列到文字序列的识别准确率大幅度地提高,满足了商用级别的语音识别准确率的应用需求。
技术领域
本发明属于终端设备技术领域,尤其涉及一种语音识别方法、装置及终端设备。
背景技术
以混合高斯模型(GMM)、隐马尔可夫模型(HMM),梅尔倒谱系数(MFCC)、n元词组语言模型等为代表的传统语音识别技术,虽然准确率已得到了较大的提高,但依然无法满足商业级的应用需求。
近年在深度学习技术的影响下,自动语音识别技术有了一定的突破,但与传统的语音识别系统相比,整体框架改变不大,用户体验依然较差。随着移动设备的快速发展,语音识别技术作为移动设备的基础应用,在精准、快速、易实现等方面还待进一步提高,以给用户提供更友好的体验。
发明内容
有鉴于此,本发明实施例提供了一种语音识别方法、装置及终端设备,以解决现有语音识别的准确率无法满足商业级的应用需求的问题。
本发明实施例的第一方面提供了一种语音识别方法,包括:
将目标音频数据输入预先构造的基于神经网络的声学模型,得到目标拼音序列;
将所述目标拼音序列输入预先构造的基于神经网络的语言模型,得到目标文字序列。
本发明实施例的第二方面提供了一种语音识别装置,包括:
目标拼音序列识别单元,用于将目标音频数据输入预先构造的基于神经网络的声学模型,得到目标拼音序列;
目标文字序列识别单元,用于将所述目标拼音序列输入预先构造的基于神经网络的语言模型,得到目标文字序列。
本发明实施例的第三方面提供了一种终端设备,包括:
存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本发明实施例的第一方面提供的语音识别方法的步骤。
其中,所述计算机程序包括:
目标拼音序列识别单元,用于将目标音频数据输入预先构造的基于神经网络的声学模型,得到目标拼音序列;
目标文字序列识别单元,用于将所述目标拼音序列输入预先构造的基于神经网络的语言模型,得到目标文字序列。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明实施例的第一方面提供的语音识别方法的步骤。
其中,所述计算机程序包括:
目标拼音序列识别单元,用于将目标音频数据输入预先构造的基于神经网络的声学模型,得到目标拼音序列;
目标文字序列识别单元,用于将所述目标拼音序列输入预先构造的基于神经网络的语言模型,得到目标文字序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811592002.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多肽组合物及其在癌症免疫治疗中的用途
- 下一篇:智慧设备