[发明专利]一种音频处理方法、装置、设备及可读存储介质在审

申请号：	201711466056.6	申请日：	2017-12-28
公开（公告）号：	CN108346433A	公开（公告）日：	2018-07-31
发明（设计）人：	文仕学	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G10L21/0224	分类号：	G10L21/0224;G10L15/20
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	时域信号可读存储介质目标语音信号目标用户音频处理语音信号语音增强语音麦克风时域信息鲁棒性采集输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种音频处理方法、装置、设备及可读存储介质，该方法包括：获取麦克风采集到的语音时域信号，所述语音时域信号包含带时域信息的噪语音信号和目标用户的语音信号；依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；依据所述目标语音信号进行输出。本发明实施例能够提升语音增强的鲁棒性。

技术领域

本发明涉及通信技术领域，特别是涉及一种音频处理方法、一种音频处理装置、一种设备和一种可读存储介质。

背景技术

随着通信技术的快速发展，诸如手机、平板电脑等终端越来越普及，给人们的生活、学习、工作带来了极大的便利。

这些终端通常可以通过麦克风收集语音信号，使用语音增强技术对收集到的语音信号进行处理，以降低噪声干扰的影响。具体的，麦克风收集到的语音信号通常夹杂着环境噪声等干扰语音信号，因此终端需要使用语音增强技术对收集到的语音信号进行处理。

目前，已有的基于深度学习的语音增强技术通常都是先提取语音的频域特征，即将输入的语音信号从时域变换到频域，确定出语音的频域特征，然后再使用深度学习方法对语音的频域特征进行降噪处理，得到增强后的语音信号，随后再将增强后的语音信号从频域变换回时域进行输出。

发明内容

本发明实施例所要解决的技术问题是提供一种音频处理方法，以提升语音增强的鲁棒性。

相应的，本发明实施例还提供了一种音频处理装置、一种设备以及一种可读存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种音频处理方法，包括：获取麦克风采集到的语音时域信号，所述语音时域信号包含带时域信息的噪语音信号和目标用户的语音信号；依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；依据所述目标语音信号进行输出。

可选地，所述依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号，包括：将所述语音时域信号输入到预先训练的语音增强模型；通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

可选地，所述通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号，包括：基于所述语音时域信号的时域波形，确定时域特征信息；通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

可选地，所述通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号，包括：依据所述时域特征信息，通过所述语音增强模型中的生成器对所述语音时域信号进行模拟，生成模拟语音时域信号；通过所述语音增强模型中的辨别器，判断所述模拟语音时域信号是否是符合预设的干净语音信号条件；若所述模拟语音时域信号不符合所述干净语音信号条件，则通过所述生成器对所述模拟语音时域信号重新进行模拟，直到生成的模拟语音时域信号符合预设的干净语音信号条件；将符合预设的干净语音信号条件的模拟语音时域信号，确定为所述目标用户对应的目标语音信号。

可选地，还包括：对预先设置的干净语音时域信号进行噪声加噪，生成对应的带噪语音时域信号；确定所述干净语音时域信号对应的时域特征信息；依据所述时域特征信息和所述带噪语音时域信号进行模型训练，生成所述语音增强模型，其中，所述语音增强模型包括：卷积神经网络模型或生成对抗网络模型。

可选地，依据所述目标语音信号进行输出，包括：依据所述目标语音信号进行语音输出；和/或者，对所述目标语音信号进行语音识别，生成识别结果；输出所述识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司，未经北京搜狗科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711466056.6/2.html，转载请声明来源钻瓜专利网。

上一篇：虚拟现实VR音频的处理方法及相应设备
下一篇：一种语音质量评估的方法和装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种音频处理方法、装置、设备及可读存储介质在审

专利文献下载