[发明专利]音频信号的处理方法、装置、电子设备和存储介质有效
申请号: | 202110336613.2 | 申请日: | 2021-03-29 |
公开(公告)号: | CN113257283B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 周新权 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/30;G10L25/03;G10L21/02 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 信号 处理 方法 装置 电子设备 存储 介质 | ||
1.一种音频信号的处理方法,包括:
获取目标音频信号的音频特征,其中,所述音频特征包括至少一个音频特征单元;
将每个所述音频特征单元输入预先训练的机器学习模型,得到相应的音频类别标签,其中,所述音频类别标签包括近场语音标签、远场语音标签、音乐标签和噪声标签中的至少一项;
其中,所述获取目标音频信号的音频特征,包括:
将所述目标音频信号切分为至少一个时域帧;
获取每个所述时域帧对应的音频特征子单元;
对至少两个相邻的所述时域帧对应的所述音频特征子单元进行拼接,得到相应的所述音频特征单元。
2.根据权利要求1所述的方法,其中,在所述将每个所述音频特征单元输入预先训练的机器学习模型,得到相应的音频类别标签之后,所述方法还包括:
根据所述音频类别标签,对所述目标音频信号进行降噪或者增强处理。
3.根据权利要求1所述的方法,其中,所述机器学习模型包括特征提取网络、音频分类网络和语音活动检测网络;
所述特征提取网络用于提取所述音频特征单元对应的机器学习特征;
所述语音活动检测网络用于根据所述机器学习特征,输出相应的语音活动标签,其中,所述语音活动标签包括语音标签和非语音标签中的至少一项;
所述音频分类网络用于根据所述机器学习特征,输出相应的所述音频类别标签。
4.根据权利要求3所述的方法,其中,在所述机器学习模型的训练阶段,所述语音活动标签用于对所述音频类别标签进行验证,其中,所述近场语音标签和所述远场语音标签对应于所述语音标签,所述音乐标签和所述噪声标签对应于所述非语音标签。
5.根据权利要求1所述的方法,其中,所述机器学习模型通过以下方式获取:
获取训练样本集,其中,所述训练样本集包括近场语音样本、远场语音样本、音乐样本和噪声样本,以及相应的样本类别标签;
通过所述训练样本集进行机器学习训练,以得到所述机器学习模型。
6.根据权利要求5所述的方法,其中,所述近场语音样本通过近场录音获得;或者,所述近场语音样本通过预设语音数据获得。
7.根据权利要求6所述的方法,其中,所述近场语音样本通过以下方式获得:
对所述近场录音或者所述预设语音数据进行降噪处理,得到相应的降噪近场音频;
通过语音活动检测技术提取所述降噪近场音频中的语音部分,得到相应的近场语音信号;
在所述近场语音信号中混入噪声或者音乐信号,得到所述近场语音样本。
8.根据权利要求5所述的方法,其中,所述远场语音样本通过远场录音获得;或者,所述远场语音样本通过向近场语音中增加混响获得,其中,所述近场语音包括近场录音和预设语音数据中的至少一项。
9.根据权利要求8所述的方法,其中,所述近场语音样本通过以下方式获得:
通过语音活动检测技术提取所述远场录音中或者加入混响后的所述近场语音中的语音部分,得到远场语音信号;
在所述远场语音信号中混入噪声或者音乐信号,得到所述远场语音样本。
10.根据权利要求5所述的方法,其中,所述音乐样本通过以下方式获得:
在预设音乐数据集的音乐信号中混入近场语音信号或者噪声,得到所述音乐样本。
11.根据权利要求5所述的方法,其中,所述噪声样本通过以下方式获得:
在预设噪声数据集的噪声中混入近场语音信号或者远场语音信号,得到所述噪声样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110336613.2/1.html,转载请声明来源钻瓜专利网。