[发明专利]用于减少语音识别延迟的自适应帧批处理在审
| 申请号: | 202080093002.3 | 申请日: | 2020-12-15 |
| 公开(公告)号: | CN114981887A | 公开(公告)日: | 2022-08-30 |
| 发明(设计)人: | H·A·卡里尔;E·Y·斯托伊梅诺夫;龚一凡;刘朝军;C·H·巴索格鲁;A·K·阿加瓦尔;N·帕里哈尔;S·帕塔克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G10L15/32 | 分类号: | G10L15/32;G10L15/02;G10L15/16 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李兴斌 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 减少 语音 识别 延迟 自适应 批处理 | ||
实施例可以包括收集第一批次的音频信号的声学特征帧,第一批次的声学特征帧的数目等于第一批次尺寸,将第一批次输入到语音识别网络,响应于检测由语音识别网络输出的单词假设,收集第二批次的音频信号的声学特征帧,第二批次的声学特征帧的数目等于第二批次尺寸,该第二批次尺寸大于第一批次尺寸,并且将第二批次输入到语音识别网络。
背景技术
基于神经网络的模型通常被用来执行自动语音识别(ASR)。在一些示例中,训练基于神经网络的声学模型,以从输入音频帧中提取多元音素(senone)判别特征,并且基于所提取的特征对多元音素进行分类。解码器基于分类来生成单词假设,并且输出对应的文本。
输入音频帧可以被分批成两个或更多帧的批次,以允许联合处理和识别,目的是提高准确度和性能。然而,批处理要求系统在将批处理提交给ASR之前等待接收批次的所有帧。无论ASR的处理速度如何,这种等待都可导致不希望的用户感知延迟。
传统的ASR系统可以使用若干物理上不同的模型来满足给定部署内的不同延迟要求。这种方法倍增了处理器相关的训练和部署成本。希望系统在不诉诸并行模型的情况下改善延迟。
附图说明
图1A是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的语音识别系统的框图。
图1B是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的语音识别系统的框图。
图1C是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的语音识别系统的框图。
图1D是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的语音识别系统的框图。
图2是根据一些实施例的用于初始延迟敏感自适应批处理的过程的流程图。
图3A是根据一些实施例的在操作期间采用终端延迟敏感自适应批处理的语音识别系统的框图。
图3B是根据一些实施例的在操作期间采用终端延迟敏感自适应批处理的语音识别系统的框图。
图4A到图4C包括根据一些实施例的用于初始和终端延迟敏感自适应批处理的过程的流程图。
图5A是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的启用先行(look-ahead-enabled)语音识别系统的框图。
图5B是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的启用先行语音识别系统的框图。
图5C是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的启用先行语音识别系统的框图。
图5D是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理的启用先行语音识别系统的框图。
图6A是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理和自适应先行的启用先行语音识别系统的框图。
图6B是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理和自适应先行的启用先行语音识别系统的框图。
图6C是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理和自适应先行的启用先行语音识别系统的框图。
图6D是根据一些实施例的在操作期间采用初始延迟敏感自适应批处理和自适应先行的启用先行语音识别系统的框图。
图7A和图7B包括根据一些实施例的用于初始和延迟敏感的自适应批处理和自适应先行的过程的流程图。
图8是根据一些实施例的基于云的语音识别服务的框图。
图9是根据一些实施例的语音识别系统的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080093002.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于改性木材的绿色工艺
- 下一篇:用于测量分析物的浓度的系统和方法





