[发明专利]一种单通道语音分离方法和装置有效

申请号：	202011057720.3	申请日：	2020-09-29
公开（公告）号：	CN111899756B	公开（公告）日：	2021-04-09
发明（设计）人：	史慧宇;欧阳鹏;尹首一	申请（专利权）人：	北京清微智能科技有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/028;G10L25/30;G01S5/18
代理公司：	北京索睿邦知识产权代理有限公司 11679	代理人：	李根
地址：	100192 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种通道语音分离方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明为一种单通道语音分离方法和装置，包括：麦克风接收端接收待分离的混合语音；获取混合语音的频谱幅值和频谱相位；提取混合语音的频谱幅值获取深度嵌入式特征矢量；获取多个声源的定位信息；获取神经网络模型输出的估计组合掩蔽；获取目标频谱幅值和目标频谱相位；重构目标频谱幅值和目标频谱相位，获取目标语音。提高混合语音中目标说话人与非目标说话人分离的准确度。

技术领域

本发明涉及语音分离领域，具体为一种单通道语音分离方法和装置。

背景技术

单通道语音分离技术在语音识别、助听器、会议记录等设备中得到广泛地应用。单通道语音分离技术是指单个麦克风接收语音信号后将其中的目标说话人与其他的说话人和背景噪音分离开的技术。随着语音分离和语音降噪技术的发展，环境噪音或其他与人声差异较大的噪音信号的分离已经取得较好的结果，但是其他目标说话人与非目标说话人的信号较为接近，因此分离的难度较高。混合语音信号分离的准确性对多种设备的应用效果至关重要，若不能提高分离的准确度，则会出现语音识别不准确、助听器传给用户错误语音信息等情况。

综上所述，针对目标说话人与非目标说话人的语音进行分离，如何进一步地提高单通道语音分离的准确度是确有必要解决的问题。

发明内容

本发明的目的是提供一种单通道语音分离方法，提高混合语音中目标说话人与非目标说话人分离的准确度，提高获取目标说话人的精度。

为了实现上述目的，采用的技术方案为：一种单通道语音分离方法，包括：

S101：麦克风接收端接收待分离的混合语音；获取所述混合语音的频谱幅值和频谱相位。

S102：提取所述混合语音的频谱幅值获取深度嵌入式特征矢量。

S103：根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息，获取多个声源的定位信息。

S104：将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中，获取所述神经网络模型输出的估计组合掩蔽。

S105：根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位，获取目标频谱幅值和目标频谱相位。

S106：重构所述目标频谱幅值和目标频谱相位，获取目标语音。

与现有技术相比，本发明的技术效果为：对于目标说话人语音与非目标说话人语音分离，本发明根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息，获取混合语音中多个声源的定位信息，也就是能进一步对混合语音中的多个说话人做定位。

提取混合语音频谱幅值得到的深度嵌入式特征矢量与多个声源的定位信息结合后，本发明的关键点是额外增加了多个声源的定位信息，输入训练好的神经网络模型中得到输出的估计组合掩蔽，这样提高神经网络模型预测估计组合掩蔽的准确度，进而提高混合语音中目标说话人与非目标说话人分离的准确度。