[发明专利]一种单通道语音分离方法和装置有效
申请号: | 202011057720.3 | 申请日: | 2020-09-29 |
公开(公告)号: | CN111899756B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 史慧宇;欧阳鹏;尹首一 | 申请(专利权)人: | 北京清微智能科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/028;G10L25/30;G01S5/18 |
代理公司: | 北京索睿邦知识产权代理有限公司 11679 | 代理人: | 李根 |
地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通道 语音 分离 方法 装置 | ||
本发明为一种单通道语音分离方法和装置,包括:麦克风接收端接收待分离的混合语音;获取混合语音的频谱幅值和频谱相位;提取混合语音的频谱幅值获取深度嵌入式特征矢量;获取多个声源的定位信息;获取神经网络模型输出的估计组合掩蔽;获取目标频谱幅值和目标频谱相位;重构目标频谱幅值和目标频谱相位,获取目标语音。提高混合语音中目标说话人与非目标说话人分离的准确度。
技术领域
本发明涉及语音分离领域,具体为一种单通道语音分离方法和装置。
背景技术
单通道语音分离技术在语音识别、助听器、会议记录等设备中得到广泛地应用。单通道语音分离技术是指单个麦克风接收语音信号后将其中的目标说话人与其他的说话人和背景噪音分离开的技术。随着语音分离和语音降噪技术的发展,环境噪音或其他与人声差异较大的噪音信号的分离已经取得较好的结果,但是其他目标说话人与非目标说话人的信号较为接近,因此分离的难度较高。混合语音信号分离的准确性对多种设备的应用效果至关重要,若不能提高分离的准确度,则会出现语音识别不准确、助听器传给用户错误语音信息等情况。
综上所述,针对目标说话人与非目标说话人的语音进行分离,如何进一步地提高单通道语音分离的准确度是确有必要解决的问题。
发明内容
本发明的目的是提供一种单通道语音分离方法,提高混合语音中目标说话人与非目标说话人分离的准确度,提高获取目标说话人的精度。
为了实现上述目的,采用的技术方案为:一种单通道语音分离方法,包括:
S101:麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位。
S102:提取所述混合语音的频谱幅值获取深度嵌入式特征矢量。
S103:根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取多个声源的定位信息。
S104:将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中,获取所述神经网络模型输出的估计组合掩蔽。
S105:根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位,获取目标频谱幅值和目标频谱相位。
S106:重构所述目标频谱幅值和目标频谱相位,获取目标语音。
与现有技术相比,本发明的技术效果为:对于目标说话人语音与非目标说话人语音分离,本发明根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息,获取混合语音中多个声源的定位信息,也就是能进一步对混合语音中的多个说话人做定位。
提取混合语音频谱幅值得到的深度嵌入式特征矢量与多个声源的定位信息结合后,本发明的关键点是额外增加了多个声源的定位信息,输入训练好的神经网络模型中得到输出的估计组合掩蔽,这样提高神经网络模型预测估计组合掩蔽的准确度,进而提高混合语音中目标说话人与非目标说话人分离的准确度。
附图说明
图1为本发明单通道语音分离方法的流程示意图。
图2为本发明单通道语音分离装置的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述。
如图1所示,本发明一实施例为一种单通道语音分离方法,包括:
S101:麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位。
对所述混合语音时域信号加窗分帧和短时傅里叶变换得到混合语音的频谱幅值和频谱相位。
S102:提取所述混合语音的频谱幅值获取深度嵌入式特征矢量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清微智能科技有限公司,未经北京清微智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011057720.3/2.html,转载请声明来源钻瓜专利网。