[发明专利]增强语音识别系统稳健性的方法无效
申请号: | 200910004798.6 | 申请日: | 2009-02-25 |
公开(公告)号: | CN101814290A | 公开(公告)日: | 2010-08-25 |
发明(设计)人: | 史媛媛;朱璇;邓菁 | 申请(专利权)人: | 三星电子株式会社;北京三星通信技术研究有限公司 |
主分类号: | G10L21/02 | 分类号: | G10L21/02 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 郭鸿禧;杨静 |
地址: | 韩国京畿*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 增强 语音 识别 系统 稳健 方法 | ||
技术领域
本发明涉及自动语音识别技术,具体地,涉及用于在嘈杂环境中增强语音识别系统稳健性能的方法。
背景技术
如今,语音识别技术被广泛使用。例如,呼叫中心使用大规模的语音识别系统来识别用户的语音内容并通过语音分析技术来自动回答用户的问题。另外,可在语音识别引擎的帮助下通过语音访问互联网服务。例如,一些网络搜索服务提供商同时也推出了基于手机平台的语音搜索服务,很大程度上解决了用户在使用手机浏览网页时,不方便输入文字的问题,提高了用户的满意程度。又例如,大量的电子玩具都装备有嵌入式语音识别引擎,从而使得它们能够通过语音与玩家进行互动。通过语音识别引擎扫描语音内容并简要概括内容或为了安全搜索敏感词。通过语音识别引擎处理多媒体内容的音轨以给出索引,从而方便搜索或浏览。随着语音识别技术的进步,其使用范围将越来越广泛。
然而,为了增强语音识别引擎的成功应用,还需要解决一些复杂的问题。如何在噪声环境中提高语音识别引擎的稳健性能是一个重要的问题。如果语音识别引擎暴露于嘈杂的环境,则很难像在干净或接近于干净的环境下工作的一样。
目前,提出了各种技术和方法来提高语音识别系统的稳健性。可从语音识别系统的框架来研究如何提高语音识别系统的稳健性能。现在,大部分成功的语音识别系统采用如图1所示的框架。图1示出了语音识别系统的主要构成框架,其中,一般可包括5个部分:前端处理模块、频谱处理模块、倒谱处理模块、高斯处理模块、解码模块。首先,接收待分析信号的前端处理模块接收语音输入信号,并将其转换为能够被二进制机器处理的数字格式。通常,前端处理模块包括麦克风、模拟/数字(A/D)转换器和编解码器。接下来,对数字化的采样进行时间-频率分析以提取能够代表语音的特征的频域特征。在多数情况下,通过快速傅立叶变换(FTT)来实现该处理。然后,从频率代表变换更好的代表特征。所述的特征应该是更具有代表性和/或区分度的,并组成精简的特征集。现在最普遍的特征集是梅尔频率倒谱系数(Mel-FrequencyCepstrum Coefficient),或者倒谱。接下来,通过一些距离测量将倒谱与之前已知并存储在机器中的一些统计信息进行比较,搜索最有可能的能够产生提取的倒谱的语音单元。在多数情况下,该比较过程非常复杂且包括负责处理语音信息的时间排列问题的耗时的解码处理。在顺序地搜索出每个倒谱的语音单元之后,可输出语音系列,并通过模拟语音信号给出语音内容的猜测。通过猜测,机器可“识别”用户所说的语音。
但是在噪声存在的情况下,图1的每个模块的输入与干净情况下相比有很大失真。例如,输入模拟语音信号混杂有噪声信号。这样形成了噪声频谱,从噪声频谱提取的是噪声倒谱。当将噪声倒谱与已知的倒谱进行比较时,由于不能从噪声倒谱得到与干净环境中的对应部分最近的距离测量,难以搜索出正确的语音单元。因此,搜索出错误的语音单元。最后,顺序输出了偏离正确语音的错误的语音单元。通常,噪声越多,识别的效果越差。例如,在车站、餐厅等公共场合,传统的语音识别系统的识别效果很差。
目前,为了解决该问题,如图1所示,已经公开了用于图1中的各个模块的增强方法。例如,在前端处理过程中,可使用前端增强技术来从嘈杂的语音中估计干净的语音。总体说来,维纳(Wiener)滤波方法是最常用的。可采用多麦克风技术来提高干净信号估计的精确度。但是该技术方案需要多个麦克风输入信道,否则难以仅通过单信道的混合输入估计干净的语音信号。但是在许多实际应用中,硬件设计限制了多信道的使用,而改变硬件设计是很困难的。
除了维纳滤波外,还有其它很多方法尝试从噪声频谱中估计干净的语音频谱。比如,在估计了噪声频谱之后,从嘈杂的频谱中减去噪声频谱。这一类的方法被命名为噪声频谱减法。这类方法在语音增强技术中起到了长久和成功的效应。已经开发了多种良好的算法从混合的频谱中估计干净的频谱。此外,如果允许采用多信道,则可更大程度地提高性能。但是该方法也具有天然的缺陷。首先,从单信道输入的混合的嘈杂频谱中估计干净的频谱仍是难题;其次,噪声频谱减法方法不能给出正确的语音频谱估计,而只是给出计算的可行近似度。因此,噪声频谱减法产生了错误因素,将降低语音识别引擎的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社;北京三星通信技术研究有限公司,未经三星电子株式会社;北京三星通信技术研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910004798.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐海水腐蚀电缆
- 下一篇:车辆位置方位数显装置