[发明专利]实时语音去混响的混合方法及系统在审

申请号：	202111567537.2	申请日：	2021-12-20
公开（公告）号：	CN114255777A	公开（公告）日：	2022-03-29
发明（设计）人：	谢志诚;辛鑫	申请（专利权）人：	苏州蛙声科技有限公司
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0224;G10L21/0232
代理公司：	苏州市中南伟业知识产权代理事务所(普通合伙) 32257	代理人：	李柏柏
地址：	215000 江苏省苏州市工业***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实时语音混响混合方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种实时语音去混响的混合方法，包括获取多麦克风通道的语音原始信号，对其进行预处理，获得多麦克风通道的频域语音信号；针对多麦克风通道的频域语音信号在多个波束方向进行固定波束形成，得到多个波束输出频域信号；对输出频域信号进行信噪比加权，获得第一级去混响后的单通道频域语音信号，基于其计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数；基于频域相干系数估计当前帧的中晚期混响功率谱成分，结合混响功率谱成分，对中晚期混响成分进行抑制，获得混响抑制后的语音频谱，获得去混响后的时域语音信号。本发明达到了兼顾计算复杂度和去混响效果以及降低了对硬件资源的苛刻要求。

技术领域

本发明涉及语音处理技术领域，尤其是指一种实时语音去混响的混合方法及系统。

背景技术

近年来，用户对实时会议中的语音质量提出了更多的要求。混响是影响语音清晰度、可懂度的关键因素，用户参会时所处环境的混响程度差异很大，有些做过良好声学处理的会议室的混响程度很低，但是另一些四面玻璃、未做特定声学处理的会议室的混响很重，给语音处理带来了极大挑战。目前去混响方法主要包括解卷积方法、加权线性预测滤波器方法、类似降噪原理的混响抑制方法以及基于深度学习的语音去混响方法等。以上方法中，解卷积方法、加权线性预测滤波器方法以及基于深度学习的语音去混响方法，三者均会由于计算量较大的问题，导致难以实时运行，尤其是在主芯片计算能力偏弱、资源紧张的会议拾音器设备中。相对而言，采用类似降噪原理的混响抑制方法计算量较小，其难点在于如何合理地构建模型，较为准确地估计并抑制语音中的混响成分。值得一提的是，市面上的会议拾音器设备一般采用麦克风阵列配置，阵列信号处理中的波束形成模块天然具备一定的混响抑制能力。

现有技术中专利号为CN201210201879.7的一种单通道语音去混响的方法和装置使用AR(自回归)模型或者MA(滑动平均)模型或者ARMA(自回归滑动平均)模型，从先前的若干帧信号中估计当前帧的中晚期混响成分的功率谱，然后通过谱减法加以去除。虽然模型中的系数可以通过Yule-Walker方程或者Burg算法求解，相比于其他类型的去混响方法，计算复杂度有一定下降，但是在强混响环境下，随着模型系数的增加，计算复杂度会不断上升，也难以应用到计算资源匮乏的会议硬件拾音器设备中。

现有技术中专利号为CN201510401640.8的一种语音数据的去混响方法及装置相当于是上述发明专利的简化版本，其仅使用当前帧之前的某一帧估计当前帧的中晚期混响成分，然后估计当前时刻的谱减增益系数，最后再对一定时间窗口内的谱减增益系数进行平均加权，得到最终的谱减增益系数。该方法与前一种方法相比做了很大的简化，计算复杂度显著下降，但是仅使用当前帧之前的单帧进行中晚期混响成分估计显然是不够的，对一定时间窗口内的谱减增益系数进行平均加权的处理方式也略显粗略。

因此，迫切需要提供一种能够在计算复杂度和去混响性能之间取得比较好的折中效果以及降低对硬件资源苛刻要求的去混响方法。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种实时语音去混响的混合方法及系统，其既显著降低了直接求解ARMA(自回归滑动平均)类似模型带来的计算量，又改善了中晚期混响成分估计的准确度，在计算复杂度和去混响性能之间取得了比较好的折中效果，从而达到了兼顾计算复杂度和去混响效果以及降低了对硬件资源的苛刻要求。

为解决上述技术问题，本发明提供一种实时语音去混响的混合方法，包括以下步骤：

S1：获取实时会议场景中的多个麦克风通道的语音原始信号，对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理，获得多个麦克风通道的频域语音信号；

S2：针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成，得到多个波束输出频域信号；

S3：对多个波束输出频域信号进行基于信噪比加权的波束融合处理，获得第一级去混响后的单通道频域语音信号，基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州蛙声科技有限公司，未经苏州蛙声科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111567537.2/2.html，转载请声明来源钻瓜专利网。

上一篇：事务处理方法、装置、设备和存储介质
下一篇：不规则医疗报告单图像中敏感信息脱敏方法及系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]实时语音去混响的混合方法及系统在审

专利文献下载