[发明专利]语音识别方法、装置、设备以及计算机可读存储介质有效

申请号：	201710994268.5	申请日：	2017-10-23
公开（公告）号：	CN107680597B	公开（公告）日：	2019-07-09
发明（设计）人：	梁浩;程宁;王健宗;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/02;G10L15/06;G10L15/16
代理公司：	深圳市精英专利事务所 44242	代理人：	林燕云
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别信息块计算机可读存储介质递归神经网络语音特征序列语音信息预设帧级神经元语音识别结果输出结果特征提取语音解码预设规则和声学输出层分帧后向结点前向时延并行
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种语音识别方法、装置、设备以及计算机可读存储介质，其中所述方法包括根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列；将所述帧级语音特征序列依次分为n个信息块；将所有信息块并行输入预设的双向长短时递归神经网络模型中；获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果，以得到所述待测语音信息的语音识别结果。本发明可以极大地提高语音识别的效果，有效缩短了语音解码的时延。

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别方法、装置、设备以及计算机可读存储介质。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition,ASR)，其目标是让机器通过识别和理解，把语音信号变成文字，是现代人工智能发展的重要分支。语音识别技术的实现是自然语言处理的前提，并能有效推动声控交互相关领域的发展并极大方便人们的生活，如智能家居、语音输入，使得一些不适宜使用手和眼睛的人群如中老年人，和环境如开车、路上等场景进行命令操作成为现实。语音识别的准确度直接决定了技术应用的有效性。近年来，随着深度学习技术的发展，语音识别准确度得到了极大的提升。

长短时递归神经网络(Long Short-term Memory Recurrent Neural Network，LSTM-RNN)被认为是一种高效并且应用广泛的语音识别领域的深度学习框架。LSTM通过在传统递归神经网络RNN基础上引入长短时记忆模块，有效解决了传统简单RNN训练梯度消失等问题，此外RNN的网络结构使得语音时序序列中时间维度的信息得到利用，因而较之传统深度学习框架如，实用性和准确度上有了很大提升。而双向长短时递归神经网络(Bidirectional Long Short-term Memory，BLSTM)在对当前语音帧进行判断时，不仅可以有效利用“历史”的语音信息，还可以利用“未来”的语音信息，这使得原始输入的语音特征能够得到更有效的挖掘，从而进行更加准确的决策。尽管在研究领域已经取得极大的准确率提升，BLSTM在实用性上却存在先天不足，因为不像单向LSTM，BLSTM的解码器需要等到整条语句都读入后才能进行双向的处理计算，亦即神经网络中的前向传播在反向处理时存在极大的时延，想象输入的语音越长时延越大，这让实时语音识别变得不再可能。

发明内容

本发明实施例提供一种语音识别方法、装置、设备以及计算机可读存储介质，能够极大地提高语音识别的效果，有效缩短了语音解码的时延，使得基于双向长短时递归神经网络的语音实时识别的应用成为可能。

一方面，本发明实施例提供了一种语音识别方法，该方法包括：

根据预设规则对待测语音信息进行分帧和声学特征提取以得到帧级语音特征序列；

将所述帧级语音特征序列依次分为n个信息块，其中n为大于等于2的整数，每个信息块包括一主信息块，每一主信息块拼接有一从信息块，每个主信息块以及与其相应的从信息块均包括若干帧语音特征信息，所述主信息块的最后一帧语音特征信息与拼接的所述从信息块的第一帧语音特征信息相邻；

将所有信息块并行输入预设的双向长短时递归神经网络模型中，以分别计算每个信息块中的主信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的前向识别结果，以及每个信息块在所述预设的双向长短时递归神经网络模型的隐含层的相应的神经元结点下的后向识别结果；

获取每个信息块对应的前向识别结果以及后向识别结果在所述预设的双向长短时递归神经网络模型的输出层的相应的神经元结点下的输出结果，以得到所述待测语音信息的语音识别结果；

其中，所述预设的双向长短时递归神经网络模型包括由所有信息块对应的神经元结点组成的输入层、由非线性映射单元组成的隐藏层以及与隐藏层输出结果相应的神经元结点组成的输出层。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710994268.5/2.html，转载请声明来源钻瓜专利网。

上一篇：像素电路、其驱动方法及有机发光显示面板、显示装置
下一篇：一种电力变压器

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别方法、装置、设备以及计算机可读存储介质有效

专利文献下载