[发明专利]语音识别系统有效

专利信息
申请号: 201880079228.0 申请日: 2018-05-21
公开(公告)号: CN111480197B 公开(公告)日: 2023-06-27
发明(设计)人: 堀贵明;渡部晋司;J·赫尔希 申请(专利权)人: 三菱电机株式会社
主分类号: G10L15/187 分类号: G10L15/187;G10L15/19;G10L15/16
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 刘久亮;黄纶伟
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 识别 系统
【说明书】:

一种语音识别系统包括:接收话语声音的输入装置、一个或更多个处理器以及一个或更多个储存装置,所述一个或多个储存装置存储参数和包括使一个或更多个处理器执行操作的指令的程序模块。操作包括:从由话语声音转换的音频波形数据中提取声学特征序列;使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列;通过将隐藏向量序列馈送至具有解码器网络参数的解码器网络来预测第一输出标签序列概率;通过使用字符类语言模型(LM)和单词级LM的混合网络来预测第二输出标签序列概率;以及使用标签序列搜索模块,通过组合从解码器网络和混合网络提供的第一输出标签序列概率和第二输出标签序列概率,来搜索具有最高序列概率的输出标签序列。

技术领域

发明总体上涉及用于开放词表的端到端语音识别的设备及方法,更具体地,涉及用于基于字符级和单词级语言模型的端到端自动语音识别的方法和系统。

背景技术

自动语音识别是目前已广泛展开的一组成熟技术,在诸如语音搜索之类的接口应用中取得了巨大成功。但是,构建实现高识别准确度的语音识别系统并不容易。一个问题在于它需要关于系统接受的目标语言的深入语言学知识。例如,音素的集合、词表和发音词库对于构建这样的系统是必不可少的。音素集需要由语言的语言学家仔细定义。需要通过为包括超过10万单词的词表中的每个单词指派一个或更多个音素序列来手动创建发音词库。此外,一些语言没有明确的单词边界,因此我们可能需要切分(tokenization)以从文本语料库创建词表。因此,对于非专家而言,开发语音识别系统非常困难,尤其是对于小语种。另一个问题在于语音识别系统被分解为包括单独进行优化的声学模型、词库模型和语言模型的几个模块。尽管训练每个模型以匹配其它模型,但该架构可能会导致局部最优。

端到端语音识别的目标是将传统架构简化为深度学习框架内的单个神经网络架构。为了处理或解决这些问题,在一些文献中已经讨论了各种技术。最先进的端到端语音识别系统被设计为预测给定语音输入的字符序列,这是因为直接从没有发音词库的语音中预测单词序列比预测字符序列困难得多。但是,由于对长字符序列的语言学约束进行建模的难度,因此基于字符的预测通常相对于基于单词的预测表现不佳。如果我们具有附带相应转录的更多的语音数据,我们可以训练一个预测单词序列的更好的神经网络。但是,收集这样的转录语音数据并用大数据集来训练网络是非常昂贵的。因此,在端到端语音识别中并入单词级预测以提高识别准确度并不容易。

发明内容

本公开的一些实施方式基于以下认识:在端到端自动语音识别(ASR)架构中,可以通过字符级和单词级语言模型(LM)的组合来改进标签序列预测,其中,LM可以是包含长短期记忆(LSTM)单元的递归神经网络(RNN)。

字符级LM与注意力解码器网络模块和联结主义时序分类(CTC)模块相结合,以用于端到端ASR。字符级LM提高了识别准确度,以在一些语言中与最先进的基于DNN/HMM的ASR系统媲美。尽管字符级架构可以提供开放词表的ASR的方法,但是由于对长字符序列的语言学约束进行建模的难度,因此对于具有少量字母的诸如英语之类的语言来说,字符级LM相对于单词级LM通常表现不佳。

本发明的一些实施方式提供了一种用于在字符级和单词级二者的LM进行端到端ASR解码的新颖方法。在本发明的解码过程中,首先用字符级LM对字符序列假设进行评分,直到遇到单词边界。然后,使用单词级LM对已知单词进行再评分,而字符级LM为词表外单词提供评分。

这种方法充分利用了字符级和单词级架构的优势,并实现了高准度的开放词表的端到端ASR。评估结果将在本公开的最后利用标准华尔街日报(WSJ)任务进行讨论,并示出开放词表的端到端ASR的显著改进。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201880079228.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top