[发明专利]利用具有语法限制的标识进行言词话语拒绝有效
| 申请号: | 01110920.3 | 申请日: | 2001-03-05 |
| 公开(公告)号: | CN1312542A | 公开(公告)日: | 2001-09-12 |
| 发明(设计)人: | 尤潘德拉·V·查德哈里;斯蒂芬尼·H·梅斯;吉里·纳夫拉特 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L17/00 |
| 代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 于静 |
| 地址: | 美国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 具有 语法 限制 标识 进行 言词 话语 拒绝 | ||
本发明一般涉及对口述口令和语句进行验证的方法和设备。
在近年来所涌现出来的多种技术及产品中,言词话语接收和拒绝的概念正逐步流行起来。例如,一种广为公众接受和使用的技术就是自动拨号电话,在这种技术中,当说出一个关键词或关键短语时,如“Mom”,“Office”,“Smith医生”等,一个适当的与该关键词/短语相应的电话号码就被自动拨出,这样用户就没必要牢记该电话号码或查找它了。与那种键盘型的基于记忆的通过按一个或几个按钮把一个常用的号码拨出去的拨号系统相比,本系统的本质优点在于这种简捷既不需有意识地查找电话号码,也不需牢记之。言词提示指令的其它应用自然也流行了起来并且得到了关注,它们的用途必然会随着适合于此类指令的附加技术或产品的开发而增加。
在传统的,对口述口令和语句进行验证的方法和设备中利用了由一个解码过程产生的“声似然”。所谓“声似然”就是一个口述的关键词或语句真正与一个给定的关键词或语句相匹配的概率。
在传统上,一般在一个话语基上对声似然进行规范化,并为了验证而使用预先设好的阈值(即,就其与一个给定的目标词或短语的匹配程度而言,基于一个给定的系数考察一个言词话语是否符合一个确定的阈值,若符合,就可认为它与上述目标词或短语足够地匹配)。
在美国专利No.5,717,826(Lucent Technologies,Inc.)中给出了一种实质上接近上述方法的言词实现,然而在这种情况下,为了转录关键词,需要一个完整的解码器才行。口令建模是在第二阶段中,在上述解码器之外进行的。
在别处,还可以发现类似的,不按我们所希望的方式来解决问题和争议的方案。在美国专利No.5,465,317的题为“具有改进的拒绝的语音识别系统…”中揭示了一种基于阈值的并依赖于语音似然的技术,该技术与题为“连接的数字语音识别的非数字流的拒绝”的美国专利No.5,613,037中揭示的技术一样。
从上述观点可见,确实有必要在本领域中基于上述努力改进并克服其上述不足。
根据本发明的当前优选的至少一个实施例,一种建议的方法允许对一个口述的口令语句进行言词验证(不使用声阈值)的操作在不必经过用繁重的计算来对大量的词汇进行解码的情况下就可验证一个口述的口令语句。解码器最好能使用(代表将被验证的原始内容的)目标基本形及一组特殊的用有限状态语法(FSG)即可被很容易地构成的竞争的简化的基本形。因此,根据本发明的至少一个实施例,一个重大的,不同于以往的努力的地方在于,在上述解码器内部所进行的隐式口令搜索使得解码的复杂程度非常低。
在一种简单配置中,上述解码器可在口令基本形上用加给FSG图的任选跳跃转移实现一种强制定位(即利用把目标基本形中的若干部分用空弧替换的办法,从目标基本形中导出竞争基本形)。如果口述的话语,例如一个数字串,并不与上述目标基本形相对应,则由于有解码器所使用的某些跳跃转移,假设它不与全基本形相匹配的概率就大。这对于被登记为声附加词的口令来讲也是成立的,如下面详细所述的。
为了更好地理解本发明及它的其它进一步的特性和优点,这里给出了下面的描述及附图作为参考,并在所附权利要求书中指出了本发明的保护范围。
图1示出了具有经修改的转移结构的解码图。
图2示出了一个附加词基本形的具有经修改的转移结构的解码图。
图3以图解的形式示出了一个话语验证系统的概览图。
根据本发明的至少一个首选实施例,在至少两个用户登记的功能配置中使用一种话语证实系统,这一点是可以接受的。这两种功能配置被分别示于图1和图2,并在下文中予以说明。
在与图1相联系的第一种配置中,一个口令被用户选中,如通过选定或指定一个数字串等来进行选择,其文本形式能传递给系统。这样该口令的词法转录就开始被知道了。有关这一点,为了示范的目的,图1用空弧示出了一个具有一种经修改的转移结构的解码图。
解码器最好能用一种通过在格子内部的搜索空间上加上限制的词有限状态语法(FSG)实现一个维特比搜索。维特比搜索是在给定某些定义很好的似然度量的情况下,通过格子结构从许多路径中选出一条最优路径的搜索。有关维特比搜索的说明可在关于冲击解码器的文章中找到。即在未决的共同转让的美国专利No.09/015,150中及一篇与之相对应的(作者为Ramabhadran等,并被发表在《ICASSP’89,Seattle,1998》上)题为“只基于声的自动语音基本形生成”的文章中,对该冲击解码器都有说明。)一个口令最好由用户在一登记阶段就选中,该口令就构成FSG的第一部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01110920.3/2.html,转载请声明来源钻瓜专利网。





