[发明专利]话音认证和语音识别系统及方法有效
| 申请号: | 201380016170.2 | 申请日: | 2013-01-23 |
| 公开(公告)号: | CN104185868B | 公开(公告)日: | 2017-08-22 |
| 发明(设计)人: | 哈比卜·E·泰欧哈米;阿米特·萨达南德·马勒高恩卡;雷努卡·阿米特·马勒高恩卡;克莱夫·戴维·萨默菲尔德 | 申请(专利权)人: | 澳尔亚有限公司 |
| 主分类号: | G10L17/14 | 分类号: | G10L17/14 |
| 代理公司: | 北京派特恩知识产权代理有限公司11270 | 代理人: | 浦彩华,武晨燕 |
| 地址: | 澳大利亚新*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 话音 认证 语音 识别 系统 方法 | ||
技术领域
本发明涉及作为话音认证系统的一部分而运行的语音识别系统的自动调谐和配置。结果是一种既识别个人又识别其语音的系统。
背景技术
制作有效的语音识别系统的关键是创建声学模型、语法和语言模型,这些模型使得底层语音识别技术能够在应用内可靠地识别正在说的内容并且给定语音样本的上下文的情况下能够弄清楚或理解该语音。创建声学模型、语法和语言模型的过程包含收集语音样本(通常还称为话音样本)的数据库,该数据库代表说话者与语音识别系统交互的方式。为了创建这些声学模型、语法和语言模型,需要将数据库中的每个语音样本进行分段并将其标注成其单词或音素组成部分。然后就对所有说话者(比如像所有说单词“二(two)”的说话者)的全部常见组成部分进行编译和处理以创建此组成部分的单词(或音素)声学模型。在基于大词汇音素的系统中,还需要重复该过程以针对此语言学市场创建语言和口音特定的模型和语法。通常,产生可以准确地识别语音的声学模型需要(来自每种性别的)每个单词或音素的约1,000至2,000个示例。
针对任何语言学市场开发语音识别系统是一个数据驱动的过程。在不存在代表此市场特定的语言和口音的语音数据的情况下,不能产生适当的声学、语法和语言模型。因此,获得必要的语音数据(假设其是可获得的)以及针对新的语言学市场创建适当的语言和口音特定的模型可能特别耗时并非常昂贵。
如果提供了一种可以针对任何语言学视市场用有成本效益的方式自动配置的语音识别系统,这将是有利的。
发明内容
根据本发明的一个第一方面,提供了一种用于配置语音识别系统的方法,该方法包括:
获得由一个话音认证系统在一个话音认证过程中所利用的一个语音样本;
对该语音样本进行处理以生成与该语音样本相关联的多个语音单元的多个声学模型;以及
对这些声学模型进行存储以便随后由该语音识别系统用作一个语音识别过程的一部分。
在一个实施例中,这些语音单元包括三音子、双音子、聚类状态、音素、单词或短语。
在一个实施例中,该方法进一步包括:对与该语音样本相关联的语音内容数据进行评估从而为这些语音单元中的每个语音单元确定一个可闻标识符,以及基于所确定的该可闻标识符对这些声学模型进行分类。
在一个实施例中,该方法进一步包括基于从多个进一步获得和处理的语音样本所生成的多个声学模型更新所存储的这些声学模型。
在一个实施例中,该方法进一步包括确定所存储的这些声学模型中的每个声学模型的一个质量,以及继续更新这些声学模型直到该质量达到一个预先定义的阈值。
在一个实施例中,这些语音样本由该认证系统的不同用户在向其登记的过程中提供。
在一个实施例中,该方法进一步包括将这些声学模型存储在一个通用语音识别数据库中。
在一个实施例中,该方法进一步包括仅获得与选自包括以下各项的组的一个或多个预先定义的语音轮廓相关联的多个语音样本:语言、性别、信道介质、语法。
在一个实施例中,这些语音样本由同一用户或者在向该认证系统登记的过程中或者作为随后的一次认证会话的一部分提供。
在一个实施例中,这些声学模型存储在该用户特定的一个数据库中,并且其中,自动地访问该数据库以响应于该用户向该认证系统认证自己来执行该语音识别过程。
根据本发明的一个第二方面,提供了一种组合式语音识别和话音认证方法,包括利用一个用户的一次话音认证确定的一个输出设置一种语音识别功能的一个参数,以便随后由该用户识别一种言语。
在一个实施例中,利用该输出选择多个声学模型数据库中的一个,以供该语音识别功能在识别该用户的言语时使用,每个声学模型数据库包含一组以不同的方式训练的声学模型。
在一个实施例中,该数据库包括多个语音单元的多个声学模型,已经使用源自该用户或者在向该认证系统登记的过程中或者在随后的一次认证会话的过程中所提供的言语的话音数据对这些声学模型进行了训练。
在一个实施例中,该数据库包括多个语音单元的多个声学模型,已经利用一个或多个具有一个共享的话音轮廓的其他用户向该用户所提供的多个语音样本对这些声学模型进行了训练。
根据本发明的一个第三方面,提供了一种实施计算机程序的计算机可读介质,该计算机程序包括一个或多个用于控制一个计算机系统实施如上文根据该第一方面所述的方法的指令。
根据本发明的一个第四方面,提供了一种语音识别系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于澳尔亚有限公司,未经澳尔亚有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380016170.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:易于调节的光纤衰减器
- 下一篇:自动植物浇水装置





