[发明专利]一种基于语音频谱域稀疏性约束的在线语音分离方法和装置在审

申请号：	202111095119.8	申请日：	2021-09-17
公开（公告）号：	CN113889139A	公开（公告）日：	2022-01-04
发明（设计）人：	何平;蒋升	申请（专利权）人：	随锐科技集团股份有限公司
主分类号：	G10L21/0272	分类号：	G10L21/0272
代理公司：	北京兴智翔达知识产权代理有限公司 11768	代理人：	郭卫芹
地址：	100192 北京市海淀区宝***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语音频谱稀疏约束在线分离方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于语音频谱域稀疏性约束的在线语音分离方法和装置，属于信息处理的领域，该方法包括以下步骤：S1：对每个麦克风的时域信号进行短时傅里叶变换得到时频域表达，并构建频域原始向量；S2：根据目标语音相对麦克风阵列的方向，构建维度为2×M的初始化分离矩阵；S3：构建优化函数，并计算用于分离目标语音与剩余信号的分离矩阵；S4：根据计算的分离矩阵，得到目标语音的频域信号，进而得到目标语音时域信号。本发明基于语音信号在频谱域的稀疏性的特点，设计了新的优化函数，不需要预白化处理，可以保证会议通讯的实时性。

技术领域

本发明属于信息处理的领域，具体涉及一种基于语音频谱域稀疏性约束的在线语音分离方法和装置。

背景技术

基于麦克风阵列作为语音信号采集设备的在线会议系统得到了越来越充分的应用。实际使用中，会议室存在显著的噪声、混响等因素会降低语音质量，进一步降低在线会议的听感。基于麦克风阵列多阵元进行波束生成是降低信号噪声、提高通讯质量最常用的方法。更进一步，在会议通话时，常存在多个说话人同时说话，如何有选择性的提取某一个人的声音，可以进一步降低竞争说话人的干扰，提升会议质量。更进一步，在自动会议纪要生成等应用技术中，提取一个目标说话人声音对提升语音识别率、会议纪要的准确率更为重要。

基于独立矢量分析(Independent vector analysis,IVA)是目前最常用的盲源分离技术。该项技术，首先把所有阵元拾取的时域信号通过短时傅里叶变化转化到时频域，随后基于分离语音互熵最小的原则构建优化函数，基于该优化函数迭代更新分离矩阵，估计出分离矩阵之后，可以得到目标信号的频域估计，最后基于傅里叶逆变换得到时域估计。

现有技术的主要缺点如下：

1)基于互熵最小原则优化函数，需要缓冲很长一段时间信号才能保证互熵计算的准确性，因此现有IVA技术延时较大，无法保证实时通讯。

2)现有IVA技术需要首先做预白化处理，以保证所有频带可以均等的参与分离矩阵的更新，而预白化技术也需要缓冲一段时间数据，无法保证实时性。。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供一种基于语音频谱域稀疏性约束的在线语音分离方法和装置，其基于语音信号在频谱域的稀疏性的特点，设计了新的优化函数，不需要预白化处理，可以保证会议通讯的实时性。

为了实现上述目的，本发明提供的一种基于语音频谱域稀疏性约束的在线语音分离方法，应用于基于麦克风阵列的系统，包括以下步骤：

S1：对每个麦克风的时域信号进行短时傅里叶变换得到时频域表达，并构建频域原始向量；

S2：根据目标语音相对麦克风阵列的方向，构建维度为2×M的初始化分离矩阵；

S3：构建优化函数，并计算用于分离目标语音与剩余信号的分离矩阵；

S4：根据计算的分离矩阵，得到目标语音的频域信号，进而得到目标语音时域信号。

进一步地，所述步骤S1之前还包括：获取每个麦克风的时域信号x_m(n)；