[发明专利]改进依赖上下文的语音识别器对环境变化的鲁棒性有效
申请号: | 201310181433.7 | 申请日: | 2011-01-28 |
公开(公告)号: | CN103280216A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | X.梅宁德斯-皮达尔;R.陈 | 申请(专利权)人: | 索尼电脑娱乐公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 谢攀;朱海煜 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 依赖 上下文 语音 识别 环境 变化 鲁棒性 | ||
本申请为分案申请,其母案的发明名称为“改进依赖上下文的语音识别器对环境变化的鲁棒性”,申请日为2011年1月28日,申请号为201110031004.2。
技术领域
本发明的实施例涉及语音识别领域;更具体地,涉及改进语音识别器对环境变化的鲁棒性。
背景技术
许多通用语音识别器使用隐马尔可夫模型(HMM)进行构建并且以语音单位水平(例如,音素(phone)、单词、功能词、音节、开始和最终音节等)处理语音。典型地,音素语音单位是已经从单词中所分解的在感知上唯一的声音序列的音频(例如,语音)的一部分。例如,短语“I Want”可以包括五个不同音素(在TIMIT音素系统中为ay、w、ao、n和t)。每个音素可以包括在多个特征或帧中(其数目典型地依赖于音素的长度,并且其典型地对于不同讲话者、语音速度、感情状态等而有所不同)。典型地,HMM包括多个状态以处理每个音素的不同部分。例如,三状态HMM分别在初始、主体(body)和最终状态中处理每个音素的开头、核心和结尾。在语音识别中使用从左到右的HMM,其中初始HMM状态被定义为入口(entry)模型状态,其不连接自除其自身之外的任何其它入口状态,最终HMM状态为终点(terminal)模型状态,其并不连接到除其自身之外的任何其它状态,并且主体HMM状态为任意的其它中间状态。之前的定义还覆盖了具有跳过连接的状态的从左到右的HMM。
典型的语音识别器使用独立于上下文的HMM(例如,单音HMM)或依赖上下文的HMM(例如,双音(左或右)HMM、半音HMM、三音HMM等)。独立于上下文的HMM在处理每个基本语音单位时并不考虑相邻的语音单位。相反,依赖于上下文的HMM在处理每个基本语音单位时考虑相邻的语音单位。例如,典型的双音HMM考虑单个相邻音素(在左双音HMM中考虑之前的音素,而在右双音HMM中考虑后续的音素)。典型的三音HMM中的每个状态考虑之前和后续的音素。之前对初始状态、主体状态和最终状态的定义对于所有从左至右的HMM单音、双音和三音都是有效的。其它依赖上下文的HMM包括半音,其是两个相连接的子音素上下文单位。半音包括左半音部分和右半音部分。每个半音部分对音素的一部分进行建模,仅具有一种上下文依赖性,并且是正常HMM。左半音部分对音素开头进行建模并且考虑之前的音素,而右半音部分对音素结尾进行建模并且考虑后续的音素。半音能够对音素区域进行均匀或非均匀建模。当半音对音素区域进行非均匀建模时,半音部分之一是支配性的(dominant)并且具有比其它部分更多的状态。例如,在左支配性半音中,左半音部分具有比右半音部分更多的状态。在右支配性半音中,右半音部分具有比左半音部分更多的状态。半音的初始状态是左半音部分中的入口模型状态,并且不连接自除其自身之外的任何其它入口状态。半音的最终状态是右半音部分中的终点模型状态并且不连接到除其自身之外的任何其它状态。半音的(一个或多个)主体状态是半音的(不同于初始状态和最终状态)的其它状态,并且可以包括在左半音部分和/或右半音部分中。
以下表格使用典型的独立于上下文的TIMIT单音,以及典型的依赖上下文的左双音、右双音、三音和半音说明了句子“I want”的音素标音。
每个基本语音单位可以利用状态转移概率{Aip}和输出概率观察分布{Bip(Ot)}来表示。所述输出观察分布典型地为高斯分布的多元混合形式,并且确定了在时间t生成观察Ot(或输入帧)的概率。输出观察由状态索引i和语音单位索引p以及在时间t的输入观察来标识。
在独立于上下文的HMM中,每个语音单位(例如,音素单位、单词单位、功能词单位、音节单位、开头和最终音节单位等)对于每个状态具有单个观察分布。因此,对于使用40种唯一音素以及每个音素三状态的独立于上下文的HMM的英语语音识别器而言,系统使用总共120种观察分布。由于依赖上下文的HMM考虑了相邻的(一个或多个)语音单位,则它们比独立于上下文的HMM使用更多的观察分布。在典型的依赖上下文的HMM语音识别器中,输出观察分布的数目达到1000至5000之间的范围并非是不同寻常的。可以通过应用统一决策树集群化(clustering)算法或统一数据驱动集群化算法来限制依赖上下文的HMM的观察分布的数目,然而这些算法使用跨每个音素状态都相同的统一集群阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼电脑娱乐公司,未经索尼电脑娱乐公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310181433.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带有储水器的防烧干加湿器
- 下一篇:太阳能光热光电联合采暖系统