[发明专利]一种基于语音频谱域稀疏性约束的在线语音分离方法和装置在审
申请号: | 202111095119.8 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113889139A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 何平;蒋升 | 申请(专利权)人: | 随锐科技集团股份有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272 |
代理公司: | 北京兴智翔达知识产权代理有限公司 11768 | 代理人: | 郭卫芹 |
地址: | 100192 北京市海淀区宝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 频谱 稀疏 约束 在线 分离 方法 装置 | ||
本发明公开了一种基于语音频谱域稀疏性约束的在线语音分离方法和装置,属于信息处理的领域,该方法包括以下步骤:S1:对每个麦克风的时域信号进行短时傅里叶变换得到时频域表达,并构建频域原始向量;S2:根据目标语音相对麦克风阵列的方向,构建维度为2×M的初始化分离矩阵;S3:构建优化函数,并计算用于分离目标语音与剩余信号的分离矩阵;S4:根据计算的分离矩阵,得到目标语音的频域信号,进而得到目标语音时域信号。本发明基于语音信号在频谱域的稀疏性的特点,设计了新的优化函数,不需要预白化处理,可以保证会议通讯的实时性。
技术领域
本发明属于信息处理的领域,具体涉及一种基于语音频谱域稀疏性约束的在线语音分离方法和装置。
背景技术
基于麦克风阵列作为语音信号采集设备的在线会议系统得到了越来越充分的应用。实际使用中,会议室存在显著的噪声、混响等因素会降低语音质量,进一步降低在线会议的听感。基于麦克风阵列多阵元进行波束生成是降低信号噪声、提高通讯质量最常用的方法。更进一步,在会议通话时,常存在多个说话人同时说话,如何有选择性的提取某一个人的声音,可以进一步降低竞争说话人的干扰,提升会议质量。更进一步,在自动会议纪要生成等应用技术中,提取一个目标说话人声音对提升语音识别率、会议纪要的准确率更为重要。
基于独立矢量分析(Independent vector analysis,IVA)是目前最常用的盲源分离技术。该项技术,首先把所有阵元拾取的时域信号通过短时傅里叶变化转化到时频域,随后基于分离语音互熵最小的原则构建优化函数,基于该优化函数迭代更新分离矩阵,估计出分离矩阵之后,可以得到目标信号的频域估计,最后基于傅里叶逆变换得到时域估计。
现有技术的主要缺点如下:
1)基于互熵最小原则优化函数,需要缓冲很长一段时间信号才能保证互熵计算的准确性,因此现有IVA技术延时较大,无法保证实时通讯。
2)现有IVA技术需要首先做预白化处理,以保证所有频带可以均等的参与分离矩阵的更新,而预白化技术也需要缓冲一段时间数据,无法保证实时性。。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种基于语音频谱域稀疏性约束的在线语音分离方法和装置,其基于语音信号在频谱域的稀疏性的特点,设计了新的优化函数,不需要预白化处理,可以保证会议通讯的实时性。
为了实现上述目的,本发明提供的一种基于语音频谱域稀疏性约束的在线语音分离方法,应用于基于麦克风阵列的系统,包括以下步骤:
S1:对每个麦克风的时域信号进行短时傅里叶变换得到时频域表达,并构建频域原始向量;
S2:根据目标语音相对麦克风阵列的方向,构建维度为2×M的初始化分离矩阵;
S3:构建优化函数,并计算用于分离目标语音与剩余信号的分离矩阵;
S4:根据计算的分离矩阵,得到目标语音的频域信号,进而得到目标语音时域信号。
进一步地,所述步骤S1之前还包括:获取每个麦克风的时域信号xm(n);
所述步骤S1包括:
对时域信号xm(n)进行短时傅里叶变换得到时频域表达:
对每一个频带k,构建一个频域原始向量X(l,k):
X(l,k)=[X1(l,k),X2(l,k),…,XM(l,k)]T。
进一步地,所述步骤S2中,初始化的分离矩阵为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于随锐科技集团股份有限公司,未经随锐科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111095119.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于RFID的卷烟辅料防错校验方法
- 下一篇:一种主动冷却进气道安装结构