[发明专利]音频识别方法、装置、电子设备和可读存储介质在审

申请号：	202111484928.8	申请日：	2021-12-07
公开（公告）号：	CN114171029A	公开（公告）日：	2022-03-11
发明（设计）人：	刘柏基;吴振宗;曾志平;徐易楠;康世胤	申请（专利权）人：	广州虎牙科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L21/0208
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	张欣欣
地址：	511495 广东省广州市番禺***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频识别方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种音频识别方法、装置、电子设备和可读存储介质，首先利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，第一类噪声为非语音噪声。再利用预先构建的第二过滤模型对第一识别音频中的第二类噪声进行过滤得到第二识别音频，第一识别音频中包含目标语音和非目标语音，第二类噪声属于非目标语音。最后，将第二识别音频导入预先构建的识别模型，对第二识别音频中的目标语音进行处理得到对应的文本。该方案，预先对非语音噪声和属于非目标语音的噪声进行过滤处理，降低了语音识别的处理压力且排除各类噪声的干扰，对于较长时长且掺杂噪声的音频识别处理有较佳效果。

技术领域

本申请涉及音频处理技术领域，具体而言，涉及一种音频识别方法、装置、电子设备和可读存储介质。

背景技术

随着多媒体技术的发展，音频识别以及文本的转换需求较大。目前的音频识别处理方式在处理较短时长的音频时能够达到较佳效果，但是对于掺杂有噪声的、较长时长的音频的处理时，一则由于对于噪声的处理方式不够完善导致后续识别造成障碍，另则由于在语音识别阶段要处理较大体量的语音的识别转换，造成识别压力过大。因此，导致对于较长时长且掺杂噪声的音频处理效果不佳。

发明内容

本申请的目的包括，例如，提供了一种音频识别方法、装置、电子设备和可读存储介质，其能够降低语音识别的处理压力且排除各类噪声的干扰，对于较长时长且掺杂噪声的音频识别处理有较佳效果。

本申请的实施例可以这样实现：

第一方面，本申请提供一种音频识别方法，所述方法包括：

利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，所述第一类噪声为非语音噪声；

利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频，所述第一识别音频包含目标语音和非目标语音，所述第二类噪声属于所述非目标语音；

将所述第二识别音频导入预先构建的识别模型，对所述第二识别音频中的目标语音进行处理得到对应的文本。

在可选的实施方式中，所述利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频的步骤，包括：

利用预先构建的第一过滤模型对待识别音频中包含的各帧音频帧进行音量检测；

将检测得到的音量低于预设音量的音频帧确定为第一类噪声，并将确定为第一类噪声的音频帧从所述待识别音频中截取并滤除，得到第一识别音频。

在可选的实施方式中，所述利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频的步骤，包括：

利用预先构建的第二过滤模型，从所述第一识别音频中第一个音频帧开始进行解码，获得对应的音频特征；

在解码到音频帧的音频特征表征为非目标语音，且从该音频帧开始存在设定帧的音频帧的音频特征表征为非目标语音时，将该设定帧的音频帧确定为第二类噪声，其中，所述设定帧超过预设阈值；

将所述设定帧的音频帧从第一识别音频中截取并滤除，并继续后续音频帧的处理直至完成第一识别音频的处理。

在可选的实施方式中，所述第二过滤模型中保存有解码后的音频帧的语义上下文信息；

所述继续后续音频帧的处理直至完成第一识别音频的处理的步骤之前，所述利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频的步骤，还包括：

将所述第二过滤模型中保存的语义上下文信息进行初始化。

在可选的实施方式中，所述将所述第二识别音频导入预先构建的识别模型，对所述第二识别音频中的目标语音进行处理得到对应的文本的步骤，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司，未经广州虎牙科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111484928.8/2.html，转载请声明来源钻瓜专利网。

上一篇：虚拟设备链路探测方法、装置、设备及存储介质
下一篇：一种具有除杂功能的水果茶叶加工设备

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]音频识别方法、装置、电子设备和可读存储介质在审

专利文献下载