[发明专利]语音识别系统和用于语音识别的方法有效
申请号: | 201780090477.5 | 申请日: | 2017-11-10 |
公开(公告)号: | CN110603583B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 堀贵明;渡部晋治;J·赫尔希 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G10L15/32 | 分类号: | G10L15/32;G10L15/16 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 刘久亮;黄纶伟 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 系统 用于 方法 | ||
语音识别系统包括接收声音的输入装置、一个或更多个处理器、以及存储参数和程序模块的一个或更多个储存装置,所述程序模块包括一个或更多个处理器可执行的指令。指令包括:从由声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列(HVS);通过将HVS馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率(OLSP);由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的所述(HVS),来预测第二(OLSP);以及使用标签序列搜索模块,通过将从解码器网络和CTC模块提供的第一(OLSP)和第二(OLSP)组合,来搜索具有最高序列概率的输出标签序列。
技术领域
本发明总体涉及用于语音识别的系统和方法,更具体地,涉及用于端到端语音识别的方法和系统。
背景技术
自动语音识别是目前已经广泛部署的一组成熟技术,在诸如语音搜索等界面应用中取得了巨大成功。然而,构建实现高识别精度的语音识别系统并不容易。一个问题是它需要对系统接受的目标语言有深入的语言学知识。例如,音素集、词汇和发音词典对于构建这样的系统是必不可少的。音素集需要由语言的语言学家仔细定义。发音词典需要通过将一个或更多个音素序列分配给包括超过10万个单词的词汇表中的每个单词来手动创建。此外,某些语言没有明确地具有单词边界,因此我们可能需要标记化以从文本语料库创建词汇表。因此,非专家很难开发语音识别系统,特别是对于小语种。另一个问题是语音识别系统被分解成几个模块,包括被分开优化的声学、词典和语言模型。虽然每个模型都经过训练以匹配其它模型,但这种架构可能会导致局部最优。
发明内容
端到端语音识别的目标是将传统架构简化为深度学习框架内的单个神经网络架构。为了处理或解决这些问题,在一些文献中已经讨论了各种技术。然而,仍存在一些问题,包括基本的时间注意力机制就其允许极端非顺序对齐而言过于灵活,这导致删除和插入错误,以及它可以使标签序列假设由于局部丢失的标签序列而太短或者重复相同标记序列而太长。
本公开的一些实施方式基于以下认识:其可以通过将基于注意力的概率与基于CTC的概率组合,来减少用不相关对齐所获得的标签序列假设并提高识别准确度,以进行假设评分。
一种语音识别系统包括接收声音的输入装置、一个或更多个处理器、以及一个或更多个储存装置,其存储参数和程序模块,所述程序模块包括一个或更多个处理器可执行的指令,该指令在被执行时使得一个或更多个处理器执行操作。该操作包括:使用声学特征提取模块从由声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率;由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的隐藏向量序列,来预测第二输出标签序列概率;以及使用标签序列搜索模块,通过将从解码器网络和CTC模块提供的第一输出标签序列概率和第二输出标签序列概率组合,来搜索具有最高序列概率的输出标签序列。
此外,本公开的一些实施方式提供了一种用于语音识别的方法,该方法包括以下步骤:使用声学特征提取模块从由输入装置接收的声音转换的音频波形数据中提取声学特征序列;使用从一个或更多个储存装置获取编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送到从一个或更多个储存装置获取解码器网络参数的解码器网络来预测第一输出标签序列概率;由联结主义时间分类(CTC)模块使用CTC网络参数和来自编码器网络的隐藏向量序列,来预测第二输出标签序列概率;以及使用标签序列搜索模块,通过将从解码器网络和CTC模块提供的第一输出标签序列概率和第二输出标签序列概率组合,来搜索具有最高序列概率的输出标签序列。
将参照附图进一步解释当前公开的实施方式。所示的附图不一定按比例绘制,而是通常将重点放在说明当前公开的实施方式的原理上。
附图说明
[图1]
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780090477.5/2.html,转载请声明来源钻瓜专利网。