[发明专利]一种基于双麦克风的语音增强方法及装置有效

申请号：	201910338720.1	申请日：	2019-04-25
公开（公告）号：	CN110164468B	公开（公告）日：	2022-01-28
发明（设计）人：	朱梦尧;吴人杰	申请（专利权）人：	上海大学
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L21/0232;G10L21/0264
代理公司：	上海宛林专利代理事务所(普通合伙) 31361	代理人：	马平丽
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于麦克风语音增强方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双麦克风的语音增强方法，其特征在于，包括以下步骤：

根据双麦克风采集到的观测信号进行语音活动性检测和时延估计；

根据所述语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模；

根据计算的所述二值掩模，进行次序置信度的判决，输出分离后的语音与噪声；

根据所述分离后的语音与噪声，进行似然比的计算；

根据所述分离后的语音和似然比，进行滤波处理，得到增强后的语音信号；

其中，根据双麦克风采集到的观测信号进行语音活动性检测和时延估计，具体包括以下步骤：

对所述观测信号进行短时傅里叶变换后，通过Mel滤波器，将其转换为Mel域；具体的，通过双麦克风采集待增强语音数据，该数据同时可称作观测信号X，将观测信号X进行短时傅里叶变换后，通过Mel滤波器，将其转换为Mel域；

对所述Mel域的信号在其各个子带上通过EM算法进行方差、均值、权重的计算，对语音和噪声建立双高斯模型，从而进行语音活动性的检测，判断当前帧是否为语音帧；

当所述当前帧判断为语音帧时，进行时延的估计，得到时延估计值，以计算导向矢量；具体的，在判断当前帧为语音帧时，以GCC-PHAT(广义互相关)方法进行时延的估计，得到时延估计值τ；

根据所述语音活动性检测和时延估计的结果，进行基于频域独立成分分析的分离，计算二值掩模，具体包括以下步骤：

根据所述时延估计值，对每一个频点确定导向矢量和混合矩阵迭代时的初值；时延估计值T用来计算导向矢量d(k)以及混合矩阵H(k)迭代时的初值H_init(k)；

采用信息最大化准则，以自然梯度下降的方式，迭代所述混合矩阵，收敛后得到所述混合矩阵的第一列；在语音活动性检测判断为语音帧时，采用信息最大化准则，以自然梯度下降的方式，迭代混合矩阵H(k)；

获取所述混合矩阵的所述第一列作为先验的输入，进行半盲分离迭代解混矩阵，得到预分离信号；取收敛后的H(k)的第一列h¹(k)，作为半盲分离的先验输入，进一步迭代解混矩阵W(k)，得到预分离信号Y；

根据所述预分离信号和所述观测信号，确定能量估计矩阵；

根据所述估计矩阵，计算所有时频单元的二值掩模，用来指导迭代以及次序判决的修正；

根据计算的所述二值掩模，进行次序置信度的判决，输出分离后的语音与噪声，具体包括以下步骤：

根据所述导向矢量、所述混合矩阵的所述第一列和所述二值掩模，进行次序修正的判断，决定是否应进行次序的修正；根据计算的导向矢量d(k)、混合矩阵的第一列h¹(k)和二值掩模p(k，l)，进行次序修正的判断，来决定是否应进行次序的修正，判决的置信度公式为：

其中，p(k)是一个频点k上由所有时频单元的二值掩模p(k，l)组成的行向量，α为一个在0～1之间的常数，α＝0.5；

当判决输出为真时，则需要改变当前频点k的分离输出，得到分离后的语音Y^s和噪声Yⁿ；

将所述解混矩阵与所述观测信号进行频域上的相乘，得到分离信号的频域形式，从而输出分离后的语音和噪声。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910338720.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载