[发明专利]一种基于双麦克风的语音增强方法及装置有效
申请号: | 201910338720.1 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110164468B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 朱梦尧;吴人杰 | 申请(专利权)人: | 上海大学 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0232;G10L21/0264 |
代理公司: | 上海宛林专利代理事务所(普通合伙) 31361 | 代理人: | 马平丽 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 麦克风 语音 增强 方法 装置 | ||
本发明公开了一种基于双麦克风的语音增强方法及装置,其中,方法包括以下步骤:根据双麦克风采集到的观测信号进行语音活动性检测和时延估计;根据语音活动性检测和时延估计的结果,进行基于频域独立成分分析的分离,计算二值掩模;根据计算的二值掩模,进行次序置信度的判决,输出分离后的语音与噪声;根据分离后的语音与噪声,进行似然比的计算;根据分离后的语音和似然比,进行滤波处理,得到增强后的语音信号。本发明的一种基于双麦克风的语音增强方法及装置,仅采用了双麦克风,大大降低了硬件成本的同时,在面对无方向性的噪声、与语音同向的噪声的情况下,依旧保持着优秀的语音增强性能。
技术领域
本发明涉及语音信号处理领域,尤其涉及一种基于双麦克风的语音增强方法及装置。
背景技术
语音信号处理已经成为一个非常热门的领域,清晰的语音能够极大限度地提高了人机交互的效率。然而,很多的实际情况往往面临着多人同时说话、环境噪声等干扰,而无法获得干净的单一源信号。因此,从含噪的语音信号中准确的提取语音信号是一个贴合实际,同时亟需解决的难题。语音增强便是从数字语音信号处理出发,解决该问题的方式。
语音增强以采集信号的通道数可以划分为:单通道语音增强和基于麦克风阵列的多通道语音增强。多通道语音增强方法因其利用了更多的麦克风,充分考虑了观测信号的空间信息,在方向性的干扰和噪声的抑制取得了不错的效果。但其使用更多的麦克风数带来准确的空间信息的同时,也带来了硬件成本的上升。同时,在面对无方向性的噪声或是与语音同向的噪声时,性能下降严重。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是现有技术中语音增强方法存在的在面对无方向性的噪声、与语音同向的噪声的情况下的性能不足、硬件成本高,开发了一种基于双麦克风的语音增强方法及装置,仅采用了双麦克风,大大降低了硬件成本的同时,在面对无方向性的噪声、与语音同向的噪声的情况下,依旧保持着优秀的语音增强性能。
为实现上述目的,本发明提供了一种基于双麦克风的语音增强方法,包括以下步骤:
根据双麦克风采集到的观测信号进行语音活动性检测和时延估计;
根据语音活动性检测和时延估计的结果,进行基于频域独立成分分析的分离,计算二值掩模;
根据计算的二值掩模,进行次序置信度的判决,输出分离后的语音与噪声;
根据分离后的语音与噪声,进行似然比的计算;
根据分离后的语音和似然比,进行滤波处理,得到增强后的语音信号。
进一步地,根据双麦克风采集到的观测信号进行语音活动性检测和时延估计,具体包括以下步骤:
对观测信号进行短时傅里叶变换后,通过Mel滤波器,将其转换为Mel域;
对Mel域的信号在其各个子带上通过EM算法进行方差、均值、权重的计算,对语音和噪声建立双高斯模型,从而进行语音活动性的检测,判断当前帧是否为语音帧;
当当前帧判断为语音帧时,进行时延的估计,得到时延估计值,以计算导向矢量。
进一步地,根据语音活动性检测和时延估计的结果,进行基于频域独立成分分析的分离,计算二值掩模,具体包括以下步骤:
根据时延估计值,对每一个频点确定导向矢量和混合矩阵迭代时的初值;
采用信息最大化准则,以自然梯度下降的方式,迭代混合矩阵,收敛后得到混合矩阵的第一列;
获取混合矩阵的第一列作为先验的输入,进行半盲分离迭代解混矩阵,该解混矩阵为混合矩阵的逆矩阵,得到预分离信号;
根据预分离信号和观测信号,确定能量估计矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910338720.1/2.html,转载请声明来源钻瓜专利网。