本发明公开了一种基于卷积循环神经网络的单通道人声与背景声分离方法,包括步骤:S1、获取原始混合语音信号;S2、得到原始混合信号幅度谱和原始混合信号相位谱;S3、将原始混合信号幅度谱输入卷积神经网络;S4、将低分辨率特征图和原始混合信号幅度谱输入循环神经网络,结合时频掩模得到人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值;S5、将人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值分别与原始混合信号相位谱结合,得到预测人声信号和预测背景声信号。与现有技术相比,本发明提供的分离方法,能捕获语音的时间域和频率域信息,并生成的多尺度特征分离混合语音的人声信号和背景声信号。
1.基于卷积循环神经网络的单通道人声与背景声分离方法,其特征在于,包括步骤:S1、获取原始混合语音信号,所述原始语音信号为单通道的人声、背景声的混合信号;S2、将获取的原始混合语音信号经过分帧加窗、时频转换,得到原始混合信号幅度谱和原始混合信号相位谱;S3、将原始混合信号幅度谱输入卷积神经网络,所述卷积神经网络包括依序设置的卷积层和池化层;卷积层获取原始混合信号幅度谱的局部特征,池化层对特征进行降维,转换为低分辨率特征图并输出;所述卷积层包括两层,且两层卷积层中的卷积核大小不同;S4、将低分辨率特征图和原始混合信号幅度谱输入循环神经网络,结合时频掩模得到人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值;S5、将人声经过时频掩模后的预测值和背景声经过时频掩模后的预测值分别与原始混合信号相位谱结合,并分别经过逆傅里叶变换得到预测人声信号和预测背景声信号;所述卷积神经网络和循环神经网络均设有原始混合信号幅度谱通道。
本文链接:http://www.vipzhuanli.com/tech/sell/s_498082.html,转载请声明来源钻瓜专利网。