[发明专利]一种音频的处理方法、装置以及存储介质在审
申请号: | 202210189514.0 | 申请日: | 2022-02-28 |
公开(公告)号: | CN114582332A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 罗艺;李凯 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G06N3/04;G06N3/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 处理 方法 装置 以及 存储 介质 | ||
本申请公开了一种音频的处理方法、装置以及存储介质,可应用于地图领域。通过获取待识别音频;然后响应于针对待识别音频的识别模式对待识别音频进行识别;若识别模型为流式识别,则提取循环神经网络中的前向分支;进而将待识别音频输入前向分支,以确定流式识别结果,该前向分支包括前向模型、第一全连接层。从而实现基于非流式模型的流式识别过程,由于流式识别过程采用循环神经网络的一部分,即通过对循环神经网络的改造,实现了流式识别过程,避免了非流式模型在流式识别过程中的误判,提高了音频识别的准确性。
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频的处理方法、装置以及存储介质。
背景技术
随着互联网技术的迅速发展,人们对音频内容的要求越来越高。如何对音频内容进行内容识别、音频增强或音频分离成为了研究重点。
一般,可以对音频内容进行非流式识别,即采用深度神经网络对音频的整体特征进行提取,从而进行内容识别。
但是,非流式识别过程中采用的深度神经网络无法进行实时的音频帧识别,在流式识别过程中会出现误判,影响音频识别的准确性。
发明内容
有鉴于此,本申请提供一种音频的处理方法,可以有效提高音频识别的准确性。
本申请第一方面提供一种音频的处理方法,可以应用于终端设备中包含音频的处理功能的系统或程序中,具体包括:
获取待识别音频;
响应于针对所述待识别音频的识别模式对所述待识别音频进行识别;
若所述识别模型为流式识别,则提取循环神经网络中的前向分支,所述前向分支包括前向模型和第一全连接层;
将所述待识别音频输入所述循环神经网络,以基于所述前向模型提取所述待识别音频对应的实时音频帧中的前向特征信息,并通过所述第一全连接层对所述前向特征信息进行全连接得到全连接信息,以基于所述全连接信息解析得到流式识别结果。
可选的,在本申请一些可能的实现方式中,所述循环神经网络包括所述前向分支和后向分支,所述后向分支包括后向模型和第二全连接层,所述方法还包括:
若所述识别模型为非流式识别,则将所述待识别音频输入所述前向分支中的所述前向模型,以得到对应的前向特征信息;
将所述待识别音频输入所述循环神经网络中的所述后向分支中的所述后向模型,以得到对应的后向特征信息;
将所述前向特征信息与所述后向特征信息进行拼接,以得到第一拼接信息;
将所述第一拼接信息输入所述第二全连接层,以基于所述目标特征信息确定非流式识别结果。
可选的,在本申请一些可能的实现方式中,所述后向分支用于进行与所述前向分支相同方向的特征提取,所述方法还包括:
若所述识别模型为流式识别,则将所述待识别音频分别输入所述前向分支和所述后向分支;
将所述前向分支和所述后向分支输出的特征信息进行拼接,以得到第二拼接信息;
基于所述第二拼接信息进行流式识别。
可选的,在本申请一些可能的实现方式中,所述后向分支还包括时序反向模块,所述方法还包括:
若所述识别模型为非流式识别,则将所述待识别音频输入输入所述循环神经网络中的所述前向分支,以得到前向特征信息;
将所述待识别音频输入所述时序反向模块,以得到反向音频;
将所述反向音频输入所述后向分支中的后向模型,以得到后向特征信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210189514.0/2.html,转载请声明来源钻瓜专利网。