[发明专利]语音识别方法、装置和计算机可读存储介质有效

申请号：	202010073073.9	申请日：	2020-01-22
公开（公告）号：	CN111276134B	公开（公告）日：	2023-03-31
发明（设计）人：	靳源;冯大航;陈孝良;常乐	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L15/20	分类号：	G10L15/20;G10L15/02;G10L15/16;G10L15/22;G10L15/26
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	贾敏
地址：	100080 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开一种语音识别方法、装置、电子设备和计算机可读存储介质。其中方法包括：对获取的语音数据进行分帧处理，得到多帧语音数据；获取第t帧语音数据中第f个时频的平滑后的第一滤波器组能量值的K个平滑参数；根据K个平滑参数确定第一滤波器组能量值；根据第一滤波器组能量值确定第t帧语音数据中第f个时频的归一化能量特征；根据各帧语音数据的归一化能量特征进行语音识别。本公开实施例通过获取第t帧语音数据中第f个时频的平滑后的第一滤波器组能量值的K个平滑参数，根据K个平滑参数确定第一滤波器组能量值，根据第一滤波器组能量值确定归一化能量特征，进而进行语音识别，可以提高语音识别的准确性低，进而提高语音唤醒的效果。

技术领域

本公开涉及人工智能技术领域，特别是涉及一种语音识别方法、装置和计算机可读存储介质。

背景技术

随着科学技术的进步，几乎很多带有语音功能的设备，例如移动终端、机器人、可穿戴设备、智能家居、车载等，都会需要语音唤醒技术作为人和机器互动的一个开始或入口，为用户利用语音指令唤醒设备提供了方便。

在现有技术中，通常利用滤波器组(filter bank，简称FB)特征进行语音识别。在安静近场的场景下，filter bank特征每一个子带的能量都非常明显，这种特征符合人耳听力的特征，因此可以很好的应用于语音识别领域。然而，在噪声场景和远场场景下，filterbank特征的各个子带的能量会出现失衡，这就导致了语音识别的准确性低，影响语音唤醒的效果。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开解决的技术问题是提供一种语音识别方法，以至少部分地解决现有技术中语音识别准确性低，影响语音唤醒的效果的技术问题。此外，还提供一种语音识别装置、语音识别硬件装置、计算机可读存储介质和语音识别终端。

为了实现上述目的，根据本公开的一个方面，提供以下技术方案：

一种语音识别方法，包括：

对获取的语音数据进行分帧处理，得到多帧语音数据；

获取第t帧语音数据中第f个时频对应的平滑后的第一滤波器组能量值的K个平滑参数；其中，所述K个平滑参数为K个常量，K为大于1的正整数；

根据所述K个平滑参数确定所述第一滤波器组能量值；

根据所述第一滤波器组能量值确定所述第t帧语音数据中第f个时频对应的归一化能量特征；

根据各帧语音数据对应的归一化能量特征进行语音识别。

进一步的，所述根据所述K个平滑参数确定所述第一滤波器组能量值，包括：

分别根据每个平滑参数确定对应的子滤波器组能量值，得到K个子滤波器组能量值；其中，每个平滑参数均对应一个子滤波器组能量值；