[发明专利]混响抑制方法及装置有效
申请号: | 201710578806.2 | 申请日: | 2017-07-14 |
公开(公告)号: | CN107346658B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 蔡钢林 | 申请(专利权)人: | 深圳永顺智信息科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/26;G10L25/78;G10L25/18;G10L21/0208 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混响 抑制 方法 装置 | ||
本发明提出的一种混响抑制方法及装置,先将声音信号从时域变换到频域,获得频域信号,然后使用VAD(Voice Activity Detection,语音活动检测)检测所述频域信号,判断是否存在语音;在存在语音的情况下,使用一个预测误差向量预测声音信号的混响功率谱密度,然后构建衰减因子,计算出优化语音频谱,该优化语音频谱去除了声音信号中的混响部分。本发明提高了采集的声音信号质量。
技术领域
本发明涉及到语音识别领域,特别是涉及到一种混响抑制方法及装置。
背景技术
近年来随着互联网技术、智能硬件的蓬勃发展,语音识别、声纹识别、声源检测等语音智能交互技术开始从实验室走向用户。由于语音识别技术是基于语音的人机交互系统最核心的技术。目前在限定条件下识别率已经达到可用的准确率。所谓限定调节通常是指用户距离麦克风较近,噪声干扰较小。而必须近距离发出语音指令这一条件限制了语音交互的便捷性。
在远讲情况下,由于语音能量会快速衰减,而噪音干扰能量大致不变,会使得识别率迅速下降。另外一个影响识别准确率的因素是,语音指令到达房间墙壁多次反射之后的混响,也会造成实际应用与语音识别训练数据集的不匹配,影响识别率。
噪音主要有两个来源:(1)麦克风信号采集系统自带的信道噪声,信道噪声因麦克风的敏感性而不同,麦克风敏感性越高,通常信道噪声越高;(2)不可忽略的环境噪声干扰,比如电视机、空调噪声等等。相比于噪声,混响由于产生条件更为复杂,更难抑制。并且,噪音和混响一般同时存在,使得混响抑制更加困难。
CN201280047068公开了一种混响抑制装置,具备:回声消除部,去除输入信号中包含的回声分量;啸声抑制部,根据被去除了回声分量的输入信号的频率特性,检测啸声的发生,使所检测出的啸声分量的频率的电平衰减;以及语头抑制部,检测啸声分量的频率电平被衰减的输入信号的声音区间,抑制所检测出的声音区间的声音开始部分的信号值。
然而,该装置提供的是汽车内部空间的混响抑制解决方法,并不适用于家居音频采集时的混响问题。
发明内容
本发明的主要目的为提供一种混响抑制方法及装置,解决家居环境中声音采集的混响问题。
本发明提出一种混响抑制方法,包括以下步骤:
将声音信号从时域变换到频域,获得频域信号;
根据所述频域信号计算所述频域信号的语音参数;
在判断出所述声音信号存在语音活动时,根据所述语音参数更新预测误差向量;
根据所述预测误差向量,更新所述声音信号的混响功率谱密度;
根据所述混响功率谱密度构建衰减因子,使用所述衰减因子处理语音频谱,获得优化语音频谱。
优选地,所述根据所述语音参数更新预测误差向量,具体为:
Gk=G′k+KGEPre
其中,Gk为当前帧的预测误差向量,G′k为前一帧的预测误差向量,KG为Kalman增益,EPre为当前帧的预测混响分量。
优选地,所述根据所述预测误差向量,更新所述声音信号的混响功率谱密度,具体为:
其中,φR(k)为当前帧的混响功率谱密度,φ′R(k)为前一帧的混响功率谱密度,α为平滑系数,为估算语音频谱。
优选地,所述α的取值范围为[0.95,0.98)、0.98或(0.98,0.995]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳永顺智信息科技有限公司,未经深圳永顺智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710578806.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种像素电路及其驱动方法、显示装置
- 下一篇:一种通话语音角色分离方法及装置