[发明专利]使用校正的术语的声学模型训练有效
| 申请号: | 201780047138.9 | 申请日: | 2017-06-20 |
| 公开(公告)号: | CN109791761B | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | O.卡普拉洛瓦;E.A.切雷帕诺夫;D.奥斯马科夫;M.鲍姆尔;G.斯科贝尔特森 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L15/32 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 校正 术语 声学 模型 训练 | ||
用于语音识别的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。一种方法包括接收对应于话语的第一音频数据;获得第一音频数据的第一转录;接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据;确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正;响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正,获得对应于第一转录的一个或多个术语的第一音频数据的第一部分;以及使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中的一个或多个。在示例实现方式中,提供了改进的语音识别系统,其能够从一个或多个术语的各种发音产生一个或多个术语的改进的转录。
技术领域
本说明书涉及语音识别。
背景技术
设备可以包括用于响应设备的用户的话语的软件。一些话语可以包括给设备指令以呼叫电话号码、发送电话号码、操作应用或在移动设备或因特网上搜索信息。设备可以采用语音到文本或自动语音识别(ASR)处理来识别来自用户的话音(voice)输入。
发明内容
在示例实现方式中,提供了一种改进的语音识别系统,其可以从一个或多个术语的各种发音产生一个或多个术语的改进的转录。根据一个示例实现方式,语音识别系统从用户接收一个或多个术语的话语。作为响应,语音识别系统向用户设备提供话语的转录。当提供的转录不正确时,语音识别系统可以接收用户输入以校正转录的一个或多个特定术语。语音识别系统使用用户输入训练声学模型以校正一个或多个特定术语以及对应于的一个或多个特定术语的音频数据。
通常,本说明书中描述的主题的一个创新方面可以体现在包括如下动作的方法中:接收对应于话语的第一音频数据;获得第一音频数据的第一转录;接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据;确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正;响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正,获得对应于第一转录的一个或多个术语的第一音频数据的第一部分;以及使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中的一个或多个。该方面的其他实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,每个被配置为执行所述方法的动作。对于要被配置为执行特定操作或动作的一个或多个计算机系统,意味着系统已经在其上安装了软件、固件、硬件或它们的组合,其在操作中使得所述系统执行操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序,意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。
前述和其他实施例可以各自可选地包括一个或多个以下特征,单独地或组合地。具体地,一个实施例包括组合的所有以下特征。该方法还包括接收对应于话语的第二音频数据,所述第二音频数据包括对应于第一音频数据的第一部分的第二部分;获得第二音频数据的第二转录;从第二音频数据中辨别第二部分;使用训练的声学模型获得第二部分的校正的转录;以及获得将第二转录和校正的转录合并的转录。该方法还包括获得响应于将第二转录和校正的转录合并的转录的搜索结果;以及提供搜索结果中的一个或多个。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个与替换术语中的一个或多个之间的语音(phonetic)相似性。确定语音相似性包括计算选择的术语中的一个或多个中的每一个与替换术语中的一个或多个中的每一个之间的语音距离。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个当中的连接。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个是连续的。确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个中的每一个包括阈值数量的字符。
本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。训练声学模型以从特定术语的各种发音中识别特定术语。使用训练的声学模型的语音识别系统可以从特定术语的各种发音提供特定术语的正确转录,而无需接收用户的校正输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780047138.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信号处理装置、信号处理方法和程序
- 下一篇:语音接口设备的噪声降低





