[发明专利]噪声降低方法和装置有效
| 申请号: | 201380012027.6 | 申请日: | 2013-02-08 |
| 公开(公告)号: | CN104205214B | 公开(公告)日: | 2016-11-23 |
| 发明(设计)人: | 市川治;S·J·伦尼 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G10L21/0264 | 分类号: | G10L21/0264;G10L15/20;G10L21/0216 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
| 地址: | 美国纽*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 噪声 降低 方法 装置 | ||
技术领域
本发明涉及语音识别技术,并且更具体地,涉及噪声降低技术。
背景技术
在语音识别技术中,背景噪声的影响的移除是令人关注的问题,它对于提高话语(utterance)识别的准确性是重要的。当背景噪声相对小时,相关领域的滤波技术(诸如谱相减(spectral subtraction)方法和维纳(Wiener)滤波)具有一定程度的成功,但是在大的背景噪声上无法获得所期望的结果,因为目标语音陷入在该噪声中。
因此,近年来已经将注意力放在使用干净语音(clean speech)(没有任何噪声被叠加在其上的话语语音)的概率模型的方法。这些基于模型的噪声降低方法已经被报道为甚至是在大的背景噪声上也显示出高的性能。关于这个方面,日本专利申请公开第2008-298844号(专利文献1)公开了一种采用基于模型的噪声降低的语音识别系统。
[引用列表]
[专利引用]
[专利引用1]日本专利申请公开第2008-298844号
发明内容
[技术问题]
本发明的目的在于提供一种被应用于语音识别前端的创新的噪声降低方法。
[对问题的技术方案]
发明人已经努力地实验出一种被应用于语音识别前端的创新的噪声降低方法,并且因此构思出一种配置,该配置利用包括针对观测语音的每个频带的置信度指数的因数模型,从而完成了本发明。
也就是,根据本发明,提供了一种噪声降低方法,该方法包括:基于观测语音的频谱而生成针对每个频带的置信度指数的步骤;生成概率模型的步骤,所述概率模型被表示为具有针对每个频带的维度的混合多维度正态分布,每个正态分布被表示为第一正态分布和第二正态分布的乘积;以及通过在所述概率模型上执行MMSE估计来估计失配向量估计值、以及基于所述失配向量估计值来获得干净语音估计值的步骤。第一正态分布是基于所述观测语音而生成的失配向量的概率分布。第二正态分布被定义为如下的函数,该函数具有零的均值并且输出随着所述置信度指数变得更大而变成更小的值的方差。
而且,根据本发明,提供了一种噪声降低方法,该方法包括:基于观测语音的频谱而生成针对每个频带的置信度指数的步骤;生成概率模型的步骤,所述概率模型被表示为具有针对每个频带的维度的混合多维度正态分布,每个正态分布被表示为第一正态分布和第二正态分布的乘积;以及通过在所述概率模型上执行MMSE估计来获得干净语音估计值的步骤。第一正态分布是基于所述观测语音而生成的干净语音的概率分布。第二正态分布被定义为如下的函数,该函数具有以观测值为均值并且输出随着所述置信度指数变得更大而变成更小的值的方差。
进一步地,根据本发明,提供了一种计算机程序产品,用于使得计算机执行这些方法中的每个方法,以及提供了一种噪声降低装置,实施用于实现这些方法中的每个方法的功能。
[本发明的有益效果]
如以上所描述的,根据本发明,通过利用包含针对观测语音的每个频带的置信度指数的因数模型来优化前端的输出。
附图说明
[图1]图1是图示相关领域的语音识别系统中的前端的配置的示意图。
[图2]图2包括图示根据观测语音的频谱生成梅尔(mel)LPW的步骤的示意图。
[图3]图3包括图示根据梅尔LPW生成置信度指数β的步骤的示意图。
[图4]图4是图示实施例的语音识别系统中的前端的配置的示意图。
[图5]图5是图示由实施例的前端执行的过程的流程图。
具体实施方式
在下文中,将参照在附图中图示的实施例来描述本发明。然而,本发明不限于在附图中图示的实施例。注意,在以下参照的附图中,相同元件以相同参照标号给出,并且其描述被适当地省略。
一般而言,语音识别系统包括前端和后端,前端将特定转换应用到话语语音的声学信号以提取特征量,后端基于在前端中提取的特征量来搜索数据库,以指明话语的内容。本发明提供了一种创新技术,其将包含观测语音的频谱的置信度指数的因数模型用于被应用到前端的基于模型的噪声补偿。
<基于模型的噪声补偿>
在开始本发明的实施例的描述之前,将基于图1来描述被应用到前端的基于模型的噪声补偿。注意,在以下描述中,“观测语音”指的是其中背景噪声被叠加在话语语音上的实际观测的声音;“干净语音”指的是没有任何噪声被叠加在其上的话语语音;并且“干净语音估计值”指的是从观测语音所估计的干净语音的估计值。而且,“频谱”指的是功率谱或者幅度谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380012027.6/2.html,转载请声明来源钻瓜专利网。





