[发明专利]一种基于双麦克风的语音增强方法及装置有效
申请号: | 201910338720.1 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110164468B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 朱梦尧;吴人杰 | 申请(专利权)人: | 上海大学 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0232;G10L21/0264 |
代理公司: | 上海宛林专利代理事务所(普通合伙) 31361 | 代理人: | 马平丽 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 麦克风 语音 增强 方法 装置 | ||
1.一种基于双麦克风的语音增强方法,其特征在于,包括以下步骤:
根据双麦克风采集到的观测信号进行语音活动性检测和时延估计;
根据所述语音活动性检测和时延估计的结果,进行基于频域独立成分分析的分离,计算二值掩模;
根据计算的所述二值掩模,进行次序置信度的判决,输出分离后的语音与噪声;
根据所述分离后的语音与噪声,进行似然比的计算;
根据所述分离后的语音和似然比,进行滤波处理,得到增强后的语音信号;
其中,根据双麦克风采集到的观测信号进行语音活动性检测和时延估计,具体包括以下步骤:
对所述观测信号进行短时傅里叶变换后,通过Mel滤波器,将其转换为Mel域;具体的,通过双麦克风采集待增强语音数据,该数据同时可称作观测信号X,将观测信号X进行短时傅里叶变换后,通过Mel滤波器,将其转换为Mel域;
对所述Mel域的信号在其各个子带上通过EM算法进行方差、均值、权重的计算,对语音和噪声建立双高斯模型,从而进行语音活动性的检测,判断当前帧是否为语音帧;
当所述当前帧判断为语音帧时,进行时延的估计,得到时延估计值,以计算导向矢量;具体的,在判断当前帧为语音帧时,以GCC-PHAT(广义互相关)方法进行时延的估计,得到时延估计值τ;
根据所述语音活动性检测和时延估计的结果,进行基于频域独立成分分析的分离,计算二值掩模,具体包括以下步骤:
根据所述时延估计值,对每一个频点确定导向矢量和混合矩阵迭代时的初值;时延估计值T用来计算导向矢量d(k)以及混合矩阵H(k)迭代时的初值Hinit(k);
采用信息最大化准则,以自然梯度下降的方式,迭代所述混合矩阵,收敛后得到所述混合矩阵的第一列;在语音活动性检测判断为语音帧时,采用信息最大化准则,以自然梯度下降的方式,迭代混合矩阵H(k);
获取所述混合矩阵的所述第一列作为先验的输入,进行半盲分离迭代解混矩阵,得到预分离信号;取收敛后的H(k)的第一列h1(k),作为半盲分离的先验输入,进一步迭代解混矩阵W(k),得到预分离信号Y;
根据所述预分离信号和所述观测信号,确定能量估计矩阵;
根据所述估计矩阵,计算所有时频单元的二值掩模,用来指导迭代以及次序判决的修正;
根据计算的所述二值掩模,进行次序置信度的判决,输出分离后的语音与噪声,具体包括以下步骤:
根据所述导向矢量、所述混合矩阵的所述第一列和所述二值掩模,进行次序修正的判断,决定是否应进行次序的修正;根据计算的导向矢量d(k)、混合矩阵的第一列h1(k)和二值掩模p(k,l),进行次序修正的判断,来决定是否应进行次序的修正,判决的置信度公式为:
其中,p(k)是一个频点k上由所有时频单元的二值掩模p(k,l)组成的行向量,α为一个在0~1之间的常数,α=0.5;
当判决输出为真时,则需要改变当前频点k的分离输出,得到分离后的语音Ys和噪声Yn;
将所述解混矩阵与所述观测信号进行频域上的相乘,得到分离信号的频域形式,从而输出分离后的语音和噪声。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910338720.1/1.html,转载请声明来源钻瓜专利网。