[发明专利]针对目标说话人提取的单通道语音分离方法及系统有效
申请号: | 202011057722.2 | 申请日: | 2020-09-29 |
公开(公告)号: | CN111899757B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 史慧宇;欧阳鹏 | 申请(专利权)人: | 南京蕴智科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L25/30 |
代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 李根 |
地址: | 211100 江苏省南京市江宁区麒麟*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 目标 说话 提取 通道 语音 分离 方法 系统 | ||
1.针对目标说话人提取的单通道语音分离方法,其特征在于,所述针对目标说话人提取的单通道语音分离方法实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型;所述针对目标说话人提取的单通道语音分离方法包括:
步骤S101,通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本;
步骤S102,随机初始化所述初始深度神经网络模型的初始深度神经网络模型参数;
步骤S103,根据初始化后的初始深度神经网络模型参数,利用损失函数结果及梯度下降法反向传播更新权重和偏置,训练所述初始深度神经网络模型获取第一深度神经网络模型;
步骤S104,在所述第一深度神经网络模型的输出层前,插入ADMM模块,生成第二深度神经网络模型;
步骤S105,将所述第一深度神经网络模型的网络模型参数作为所述第二深度神经网络模型的初始参数,初始化所述第二深度神经网络模型;对ADMM模块的参数初始化;
步骤S106,根据初始化后的所述第二深度神经网络模型参数及初始化后的ADMM模块参数,通过损失函数及梯度下降法来反向传播更新权重和偏置,训练所述第二深度神经网络模型获取当前深度神经网络模型;
步骤S107,将待测试语音样本输入到所述当前深度神经网络模型中,获取与所述目标说话人语音样本对应的估计掩蔽;根据所述估计掩蔽及所述目标说话人混合语音样本的音频获取目标说话人语音样本。
2.根据权利要求1所述的单通道语音分离方法,其特征在于,所述步骤S101包括:
步骤S201,通过所述设定采样频率重采样所述目标说话人语音样本;所述目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本;
所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的样本长度为4s;
步骤S202,短时傅里叶变换所述目标说话人取样语音信号样本、目标说话人混合语音样本,获取所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱及幅度最大值;
步骤S203,归一化所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱;获取理想幅值掩蔽值;
步骤S204,将归一化后的所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱输入到所述初始深度神经网络模型中。
3.根据权利要求2所述的单通道语音分离方法,其特征在于,所述设定采样频率为8kHz;所述设定信噪比范围为-2.5dB到2.5dB之间。
4.根据权利要求1所述的单通道语音分离方法,其特征在于,所述步骤S103中还包括:
步骤S1031,初始化所述初始深度神经网络模型中网络神经元节点之间的权重和偏置值,且前向传播优化所述初始深度神经网络模型;在所述初始深度神经网络模型前向传播过程中,通过激活函数生成输入与输出结果间的非线性映射。
5.根据权利要求1所述的单通道语音分离方法,其特征在于,所述步骤S104中还包括:
步骤S1041,增加并获取训练阶段的验证指标:SDR信号失真比、SIR信号干扰比。
6.根据权利要求1所述的单通道语音分离方法,其特征在于,所述步骤S106中还包括:
步骤S1061,初始化所述第二深度神经网络模型中网络神经元节点之间的权重和偏置值,且前向传播优化所述第二深度神经网络模型;在所述第二深度神经网络模型前向传播过程中,通过激活函数生成输入与输出结果间的非线性映射。
7.根据权利要求2所述的单通道语音分离方法,其特征在于,所述步骤S107中包括:
步骤S1071,将所述待测试语音样本输入到所述当前深度神经网络模型中,获取与所述目标说话人语音样本对应的估计掩蔽;
步骤S1072,根据所述估计掩蔽及所述目标说话人混合语音样本的幅度谱,结合所述目标说话人混合语音样本的相位谱,通过短时傅里叶逆变换,根据重叠帧获取目标说话人语音样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京蕴智科技有限公司,未经南京蕴智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011057722.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种单通道语音分离方法和装置
- 下一篇:远心光路畸变中心定位方法