[发明专利]重构语音信号的方法和装置有效

申请号：	201711250483.0	申请日：	2017-12-01
公开（公告）号：	CN109887494B	公开（公告）日：	2022-08-16
发明（设计）人：	袁豪磊	申请（专利权）人：	腾讯科技（深圳）有限公司;腾讯云计算（北京）有限责任公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/26;G10L21/0216;G10L21/0272;G10L15/10
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	刘映东
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音信号方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种重构语音信号的方法和装置，属于语音识别领域。所述方法包括：通过麦克风阵列的多个传感器进行声音采集，得到多个声音信号；在所述多个声音信号中确定第一语音信号；对所述第一语音信号进行信号分离，得到第二语音信号；将所述第二语音信号通过失真恢复模型进行重构，得到重构的语音信号。采用本发明，可以提高语音识别结果的准确性。

技术领域

本发明涉及语音识别领域，特别涉及一种重构语音信号的方法和装置。

背景技术

随着语音识别技术的发展，终端可以对用户语音的内容进行识别，进而可以对语音的内容做出响应。

终端一般采用麦克风阵列来采集远场空间中的声音信号。麦克风阵列利用空间相干性检测区分出各个声音信号的入射方向，对声场中的各种信号的入射方向做出估计，定位跟踪能量最强的前几个声音信号。对于每一个所跟踪的声音信号，判断其是否属于语音信号。在麦克风阵列的每个传感器(如麦克风)上施加相应的时延和增益控制，使阵列形成波束指向，使得语音信号方向上的增益尽可能大、并且在噪声信号方向上的增益尽可能小。从麦克风阵列的输出结果中估计出语音信号与噪声信号在频率特征分布上的不同，构造一个时变的滤波器，从统计的意义上进一步将语音信号与噪声信号做分离，从而将语音信号分离出来。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

如果麦克风阵列内的传感器数量达到无穷，则将语音信号和噪声信号进行分离时，可以达到清晰的分离。但是，实际情况中，麦克风阵列内的麦克风数量是有限的，区分各个声音信号入射方向的能力也是有限的，因此语音信号和噪声信号必定会存在重叠部分。在滤除噪声信号时，一般需要对语音信号和噪声信号进行频域维纳滤波，在消除噪声的同时会对语音信号造成损伤。将损伤的语音信号输入语音识别系统ASR(Automatic SpeechRecognition，语音识别)时，可能导致语音识别结果的准确性较低，因此，亟需一种对语音信号进行重构的方法。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种重构语音信号的方法和装置。所述技术方案如下：

一方面，提供了一种重构语音信号的方法，所述方法包括：

通过麦克风阵列的多个传感器进行声音采集，得到多个声音信号；

在所述多个声音信号中确定第一语音信号，所述第一语音信号为通过检测确定的语音信号；

对所述第一语音信号进行信号分离，得到第二语音信号；

将所述第二语音信号通过失真恢复模型进行重构，得到重构的语音信号；

其中，所述失真恢复模型是基于干净语音信号和失真语音信号进行训练得到。

一方面，提供了一种话音检测模型的训练方法，所述方法包括：

获取第一对抗生成网络，所述第一对抗生成网络包含初始混响滤波模型与初始话音检测模型，所述初始混响滤波模型的输出作为所述初始话音检测模型的输入；

获取多个样本声音信号，其中，所述样本声音信号至少包括干净语音信号与纯噪声信号；

基于所述多个样本声音信号对所述第一对抗生成网络中的初始混响滤波模型与初始话音检测模型进行训练，得到所述话音检测模型；