[发明专利]音频识别方法、装置、电子设备和可读存储介质在审
申请号: | 202111484928.8 | 申请日: | 2021-12-07 |
公开(公告)号: | CN114171029A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 刘柏基;吴振宗;曾志平;徐易楠;康世胤 | 申请(专利权)人: | 广州虎牙科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L21/0208 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 张欣欣 |
地址: | 511495 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 识别 方法 装置 电子设备 可读 存储 介质 | ||
1.一种音频识别方法,其特征在于,所述方法包括:
利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频,所述第一类噪声为非语音噪声;
利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频,所述第一识别音频包含目标语音和非目标语音,所述第二类噪声属于所述非目标语音;
将所述第二识别音频导入预先构建的识别模型,对所述第二识别音频中的目标语音进行处理得到对应的文本。
2.根据权利要求1所述的音频识别方法,其特征在于,所述利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频的步骤,包括:
利用预先构建的第一过滤模型对待识别音频中包含的各帧音频帧进行音量检测;
将检测得到的音量低于预设音量的音频帧确定为第一类噪声,并将确定为第一类噪声的音频帧从所述待识别音频中截取并滤除,得到第一识别音频。
3.根据权利要求1所述的音频识别方法,其特征在于,所述利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频的步骤,包括:
利用预先构建的第二过滤模型,从所述第一识别音频中第一个音频帧开始进行解码,获得对应的音频特征;
在解码到音频帧的音频特征表征为非目标语音,且从该音频帧开始存在设定帧的音频帧的音频特征表征为非目标语音时,将该设定帧的音频帧确定为第二类噪声,其中,所述设定帧超过预设阈值;
将所述设定帧的音频帧从第一识别音频中截取并滤除,并继续后续音频帧的处理直至完成第一识别音频的处理。
4.根据权利要求3所述的音频识别方法,其特征在于,所述第二过滤模型中保存有解码后的音频帧的语义上下文信息;
所述继续后续音频帧的处理直至完成第一识别音频的处理的步骤之前,所述利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频的步骤,还包括:
将所述第二过滤模型中保存的语义上下文信息进行初始化。
5.根据权利要求3所述的音频识别方法,其特征在于,所述将所述第二识别音频导入预先构建的识别模型,对所述第二识别音频中的目标语音进行处理得到对应的文本的步骤,包括:
在所述第二识别音频中存在音频帧的音频特征表征为非目标语音且连续帧数低于预设阈值时,确定出所述第二识别音频中音频特征表征为目标语音的音频帧;
获得确定出的音频特征表征为目标语音的音频帧对应的文本。
6.根据权利要求1所述的音频识别方法,其特征在于,所述利用预先构建的第二过滤模型对所述第一识别音频中的第二类噪声进行过滤得到第二识别音频的步骤,包括:
利用预先构建的第二过滤模型识别出所述第一识别音频中表征为目标语音的音频帧和非目标语音的音频帧;
从识别出的非目标语音的音频帧中确定出第二类噪声,并从识别出的目标语音的音频帧中确定出空白帧;
将所述第二类噪声和所述空白帧从所述第一识别音频中截取并滤除。
7.根据权利要求1-6任意一项所述的音频识别方法,其特征在于,所述第二过滤模型为预先基于包含目标语音和非目标语音的多个训练样本训练获得;
各所述训练样本中的第二类噪声标记有起始符和结束符,所述第二类噪声由多个非目标语音的音频帧构成,所述第二过滤模型通过解码各所述训练样本中第二类噪声的起始符和结束符进行训练。
8.根据权利要求7所述的音频识别方法,其特征在于,各所述训练样本中的第二类噪声还标记有噪声标签,所述噪声标签标识所述第二类噪声的类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司,未经广州虎牙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111484928.8/1.html,转载请声明来源钻瓜专利网。