[发明专利]语音识别方法及系统有效
申请号: | 201810054315.2 | 申请日: | 2018-01-19 |
公开(公告)号: | CN108417202B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 俞凯;陈哲怀;刘奇;李豪;游永彬 | 申请(专利权)人: | 苏州思必驰信息科技有限公司;上海交大知识产权管理有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/26 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;黄谦 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 系统 | ||
本发明公开一种语音识别方法及系统。所述语音识别方法包括:提取待识别的语音数据的声学特征;基于声学‑音素神经网络模型,将所述声学特征解码为音素阵列;以及基于音素‑语言神经网络模型,将所述音素阵列进一步解码为文字序列。本发明实施例的语音识别系统,声学‑音素神经网络模型的输出的音素阵列就可以作为音素‑语言神经网络模型的输入,无缝衔接了声学‑音素神经网络模型和音素‑语言神经网络模型,从整体上看,提供了另一种全新的端到端的语音识别架构,极大提高了语音识别的效率。
技术领域
本发明属于语音分析技术领域,尤其涉及一种语音识别方法及系统。
背景技术
语音识别通过机器学习方法让机器能够自动的将语音转换成对应的文字,其广泛应用于各种智能终端上,也使得越来越多的用户习惯用语音输入词语。
目前相关技术中的语音识别处理大致有两种策略:第一策略,将语音数据分解为不同的声学特征向量,并由WFST(weighted finaite-state transducer,带权有限状态转录机)结合预存储的词典表,解码对应于声学特征向量的候选词语;第二策略,基于神经网络的端到端的语音识别方案,具体是向基于神经网络的语音识别模型输入声学特征,就能够直接由该语音识别模型输出对应于该声学特征的词语序列,提高了识别效率。
但是,本申请的发明人在实践本申请的过程中发现上述相关技术中的技术方案至少存在如下缺陷:在第一策略中,由于预设定好的词典表无法适用于神经网络,并且WFST也不是神经网络,使其需要存储大量的语言模型信息,占用大量的内存,一般通过在云端部署WFST来实现,且其查找过程需要耗费较长的时间,降低了语音识别效率;在第二策略中,需要训练充分的神经网络模型才能够保障其所输出结果的可靠性,使得需要用海量的被标注好的语音数据对该神经网络模型进行训练(训练用的标注文字的语音数据量一般需要达到2000万小时以上),使得该端到端的语音识别方法始终也只是停留在设想阶段,未能得到有效实践。
需说明的是,关于上述相关技术的描述的目的,仅为了便于公众更方便地了解本申请的实践过程,且申请人并不承认针对上述相关技术的描述为现有技术。
发明内容
本发明实施例提供一种语音识别方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音识别方法,包括:提取待识别的语音数据的声学特征;基于声学-音素神经网络模型,将所述声学特征解码为音素阵列;以及基于音素-语言神经网络模型,将所述音素阵列进一步解码为文字序列。
第二方面,本发明实施例提供一种语音识别方法,包括:特征提取程序模块,用于提取待识别的语音数据的声学特征;声学-音素神经网络模型,用于将所述声学特征解码为音素阵列;以及音素-语言神经网络模型,用于将所述音素阵列进一步解码为文字序列。
第三方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司;上海交大知识产权管理有限公司,未经苏州思必驰信息科技有限公司;上海交大知识产权管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810054315.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:单信道多说话人身份识别方法及系统
- 下一篇:一种人体语音识别传输方法及系统