[发明专利]基于语音出现概率和一致性的双耳语音去混响方法和装置有效
申请号: | 201810765266.3 | 申请日: | 2018-07-12 |
公开(公告)号: | CN108986832B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 刘宏;王秀玲 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216;G10L21/0232 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 518055 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语音 出现 概率 一致性 耳语 混响 方法 装置 | ||
本发明公开一种基于语音出现概率和一致性的双耳语音去混响方法和装置。该方法包括:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音信号;2)进行加窗分帧处理,并通过傅里叶变换使语音信号从时域变换到频域;3)基于语音出现概率估计低频段部分的混响功率谱;4)计算语音信号的不同信号分量的一致性;5)基于一致性估计高频段部分的混响功率谱;6)根据高低频段的划分阈值对结合高低频的混响功率谱进行估计;7)利用递归平滑算法计算得到最终的混响功率谱;8)通过增益函数得到去混响后的频域信号;9)利用短时傅立叶逆变换得到去混响后的时域信号。本发明能够有效去除整个频带上的混响,提高语音感知质量。
技术领域
本发明属于音频信号处理和计算机听觉技术领域,具体涉及一种适用于在存在混响环境下的双麦克风语音去混响方法和装置,通过基于语音出现概率计算混响功率谱的模型进行低频部分的混响去除,利用语音一致性模型对高频部分的混响进行去除,能够有效去除整个频带上的混响,提高语音感知质量。
背景技术
双耳音频天然具有很多通信及多媒体体验的优势。在人与人的日常交互中,听觉感知都是人与人之间最有效最直接的交互方式之一。但是在实际环境中,语音作为人与人、人与机器进行交流的重要信息载体,不可避免的受到混响、环境噪声等干扰,使得语音的清晰度、可懂度和舒适度大大降低,严重影响人耳的听觉感知及后续语音处理系统的性能。通常,麦克风除了接收到声源直达的部分外还会接收声源信号通过信道时由于多径传播而到达的反射信号(如房间内的地面、墙壁、天花板、家居摆设等反射产生的信号),在声学上延迟时间达到约50ms以上的反射波称为回声,除直达声以外的其余的反射波产生的效应称为混响现象,将对期望语音信号的接收效果产生影响。为了抵消由混响引起的音质下降,学者们提出了去混响(或混响消除)技术,旨在提高提段语音的质量和可懂度。
语音去混响技术具有很广泛的应用。随着现代信号处理技术和智能学科的发展,机器人的智能化程度不断提升,机器人在实际应用中常常会处于复杂的声学环境中,各种类型的噪声等会使机器人在获取语音时受到干扰,在混响环境下对语音的识别率会迅速下降,影响后续操作和功能的实现,甚至无法满足实际应用。因此,利用双耳语音去混响技术减少混响对机器人在实际应用中的影响具有重要的意义。再如,双耳语音去混响技术可以为许多语音信号处理技术提供预处理,如:双耳声源定位、语音识别等。另外,再如,对于有听力障碍的人士来说,常常需要借助助听设备或人工耳蜗来交流。但在混响环境下,助听器的助听效果会受到很大影响。此时需要利用语音去混响算法在非纯净语音信号被放大之前对其进行预处理,可以在一定程度上去掉混响信号,以帮助听障人士更好地交流。
语音去混响技术通常可以按照单通道和多通道语音增强划分。单通道去混响算法利用单个麦克风进行语音增强,此类方法以其简单的模型和廉价的成本已取得广泛的应用和成熟的发展。但由于单通道语音去混响算法只能利用单路语音信号的统计特性来抑制混响。多通道语音去混响系统使用多个麦克风,即麦克风阵列采集声音信号,得到多路信号。由于输入通道数的增加,信号处理算法可以利用各通道信号之间的相关性来进行语音增强。相比单通道只能利用语音和混响在时频域上的差异进行增强的局限,麦克风阵列的引入可以弥补单通道语音去混响算法的不足。通常来说,增加麦克风的数量可以提高语音去混响的效果。相比于单麦克风,基于麦克风阵列不仅可以利用信号的时频信息,还可以信号的空间信息,受到广泛的关注。但其缺点是结构尺寸庞大,系统计算复杂和计算量太大等。综合考虑设备的成本,语音增法算法的实时性与算法的效果,利用双通道语音去混响,也就是使用两个麦克风进行语音去混响是一种比较好的折衷方案。
双麦克风语音去混响的算法主要有基于一致性模型和基于双通道维纳滤波的方法等。其中,基于一致性去混响的算法主要是根据纯净语音和混响语音之间的一致性不同来设计滤波器。该方法假设纯净语音部分和混响部分是不相关的,利用纯净语音,混响语音和麦克风接收到语音一致性来估计接收到语音中的混响功率,通过估计得到的混响功率计算滤波器的增益,从而得到去混响后的语音。基于一致性的双通道语音去混响方法主要包含以下几个步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810765266.3/2.html,转载请声明来源钻瓜专利网。