[发明专利]一种单通道语音分离方法和装置有效
申请号: | 202011057720.3 | 申请日: | 2020-09-29 |
公开(公告)号: | CN111899756B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 史慧宇;欧阳鹏;尹首一 | 申请(专利权)人: | 北京清微智能科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L25/30;G01S5/18 |
代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 李根 |
地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通道 语音 分离 方法 装置 | ||
1.一种单通道语音分离方法,其特征在于,包括:
S101:麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位;
S102:提取所述混合语音的频谱幅值获取深度嵌入式特征矢量;
S103:根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取多个声源的定位信息;
S104:将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中,获取所述神经网络模型输出的估计组合掩蔽;所述估计组合掩蔽包括估计幅值掩蔽和估计相位掩蔽;
S105:根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位;
S106:重构所述目标频谱幅值和目标频谱相位,获取目标语音。
2.根据权利要求1所述的单通道语音分离方法,其特征在于,所述103中根据,获取多个声源的定位信息,包括:
根据所述麦克风接收端的位置、频谱相位和介质空间方位信息,通过高斯声束法获取声源所处空间的声压分布状态;
根据所述声压分布状态,获取多个声源的定位信息。
3.根据权利要求1所述的单通道语音分离方法,其特征在于,所述神经网络模型通过步骤S201至S206训练;
S201:获取训练语音样本集,所述训练语音样本集中的一条训练语音样本包括混合语音样本和干净语音样本;
S202:对所述训练语音样本的时域信号采样,分别获取混合语音样本时域信号和干净语音样本时域信号;
S203:对所述混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱及相位谱,对所述干净语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱及相位谱;
S204:根据所述混合语音样本和所述干净语音样本的幅度谱和相位谱,计算获得理想组合掩蔽,将所述理想组合掩蔽作为训练目标;
S205:根据采集训练语音样本的麦克风接收端位置、干净语音的频谱相位和介质空间方位信息,估计每个所述干净语音相应的定位信息;
S206:将所述混合语音的幅度谱、干净语音的定位信息和作为训练目标的理想组合掩蔽输入神经网络模型中进行当次有监督训练,完成当次有监督训练后继续进行下一次训练,直至所述神经网络模型收敛。
4.根据权利要求3所述的单通道语音分离方法,其特征在于,所述S204包括:
对所述混合语音样本和所述干净语音样本的幅度谱归一化处理;根据归一化处理后的混合语音样本和所述干净语音样本的幅度谱和相位谱,获取理想组合掩蔽。
5.根据权利要求1所述的单通道语音分离方法,其特征在于,所述估计组合掩蔽包括估计幅值掩蔽和估计相位掩蔽;
所述S105中根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位,包括:
根据所述混合语音的频谱幅值和估计幅值掩蔽获取目标频谱幅值;
根据所述混合语音的频谱相位和估计相位掩蔽获取目标频谱相位。
6.根据权利要求1所述的单通道语音分离方法,其特征在于,所述S106中重构所述目标频谱幅值和目标频谱相位,获取目标语音,包括:
将所述目标频谱幅值和目标频谱相位结合,通过短时傅里叶逆变换和帧重叠恢复得到目标语音。
7.一种单通道语音分离装置,其特征在于,包括:
接收模块,其被配置为麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位;
深度嵌入式特征提取模块,其被配置为提取所述混合语音的频谱幅值获取深度嵌入式特征矢量;
声源定位模块,其被配置为根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取多个声源的定位信息;
语音分离模块,其被配置为将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中,获取所述神经网络模型输出的估计组合掩蔽;所述估计组合掩蔽包括估计幅值掩蔽和估计相位掩蔽;
获取模块,其被配置为根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位;
重构模块,其被配置为重构所述目标频谱幅值和目标频谱相位,获取目标语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清微智能科技有限公司,未经北京清微智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011057720.3/1.html,转载请声明来源钻瓜专利网。