[发明专利]基于麦克风阵列的多目标神经网络语音处理方法及装置在审
申请号: | 202210451728.0 | 申请日: | 2022-04-24 |
公开(公告)号: | CN114708880A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 李志;李霄;丘四海;王欢良;张李 | 申请(专利权)人: | 苏州奇梦者科技有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L21/0224;G10L21/0232;G10L25/30;G10L25/21 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 陈君名 |
地址: | 215024 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 麦克风 阵列 多目标 神经网络 语音 处理 方法 装置 | ||
1.一种基于麦克风阵列的多目标神经网络语音处理方法,其特征在于,包括:
步骤100、使用短时傅立叶变换获取多通道录音的频域数据和多路立体声回采的频域数据;
步骤200、将多通道录音的频域数据与多路立体声回采的频域数据送入RLS滤波器中得到误差信号和回声估计信号,计算二者的频域相关度作为回声信号的泄漏系数,再乘以误差信号得到估计的各频点的残余回声信号;
步骤300、提取误差信号和残余回声信号的BFCC特征输入多目标神经网络,获取融合的降噪、去回声、去混响的语音能量掩码;
步骤400、将语音能量掩码通过波束形成滤波器滤波后,反变换到时域,得到干净的时域音频。
2.根据权利要求1所述基于麦克风阵列的多目标神经网络语音处理方法,其特征在于,所述步骤200中,RLS线性滤波器的输出为;
Lsty(n,f)=WH(n-1,f)X(n,f);
E(n,f)=Y(n,f)-Lsty(n,f);
W(n,f)=W(n-1,f)+k(n,f)EH(n,f);
k(n,f)=P(n-1,f)X(n,f)/(1+XH(n,f)P(n-1,f)X(n,f));
其中,X为多通道回采数据的频域组成的向量;W是RLS滤波器向量;E是误差信号;Lsty是回声估计信号;Y是近端语音信号;R是回采各频点上的协方差矩阵;P是R的逆矩阵;k是滤波器W的更新系数;n是帧数;f是频率点。
3.根据权利要求2所述基于麦克风阵列的多目标神经网络语音处理方法,其特征在于,所述步骤200中,残余回声信号Res的计算过程为:
Res(n,f)=η(n,f)*Yf(n,f);
Yf(n,f)=Lsty(n,f)*Lsty*(n,f);
Ef(n,f)=E(n,f)*E*(n,f);
EYf(n,f)=Lsty(n,f)*E*(n,f);
η(n,f)=abs(EYf(n,f))2/(max(Yf(n,f),Ef(n,f))*Yf(n,f)+le-9);
其中,Res是估计的回声泄漏的能量;η是估计的回声泄漏的系数;Yf是估计的回声信号的能量;Ef是误差信号的能量;EYf是误差信号和泄漏回声互相关能量;E是误差信号;Lsty是回声估计信号;n是帧数;f是频率点。
4.根据权利要求1所述基于麦克风阵列的多目标神经网络语音处理方法,其特征在于,所述多目标神经网络使用GRU或LSTM网络配合全连接层,组成有三个不同目标的残差网络,各目标在不同层输出,又同时作为下一层的输入。
5.根据权利要求4所述基于麦克风阵列的多目标神经网络语音处理方法,其特征在于,所述多目标神经网络的各目标递进,第一层残差网络目标是噪声掩码,第二层的目标是回声和噪声的融合掩码,第三层的目标是回声、噪声以及混响的融合掩码,这三层掩码数值上相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州奇梦者科技有限公司,未经苏州奇梦者科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210451728.0/1.html,转载请声明来源钻瓜专利网。