[发明专利]语音识别方法、语音识别模型、电子设备和存储介质有效

申请号：	202111538265.3	申请日：	2021-12-16
公开（公告）号：	CN113936643B	公开（公告）日：	2022-05-17
发明（设计）人：	高志付;张仕良	申请（专利权）人：	阿里巴巴达摩院（杭州）科技有限公司
主分类号：	G10L15/05	分类号：	G10L15/05;G10L15/06;G10L15/183;G10L15/26;G10L19/04;G06Q50/18
代理公司：	北京合智同创知识产权代理有限公司 11545	代理人：	李杰;兰淑铎
地址：	310023 浙江省杭州市余杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法模型电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种语音识别方法、语音识别模型、电子设备和存储介质，该语音识别方法包括：获取待识别语音的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得待识别语音的识别结果。本方案能够提高语音识别的速度。

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种语音识别方法、语音识别模型、电子设备和存储介质。

背景技术

语音识别技术就是让机器通过识别和理解过程，把语音信号转换为相应文本或命令的技术，其中，端到端语音识别系统受到了学术界和工业界越来越广泛的关注。相比于传统的混合建模方案，端到端语音识别系统通过一个模型联合优化声学模型和语言模型，不仅能够降低模型训练的复杂度，还能够提高模型的语音识别性能。

目前，端到端语音识别系统采用自回归模型（Auto-regressive Transformer）实现声学模型和语言模型的联合优化，以在通用任务上获得较好的性能提升。

然而，在采用自回归模型的端到端语音识别系统中，自回归解码器（Auto-regressive Decoder）在将语音特征转换为文本时，需要基于已识别出的字符依次识别还未被识别的字符，识别每个字符都需要调用一次语音识别模型，因此在输入语音数据较长时，端到端语音识别系统需要耗费较长时间才能够输出识别结果，导致语音识别的速度较慢。

发明内容

有鉴于此，本申请实施例提供一种语音识别方法、语音识别模型、电子设备和存储介质，以至少解决或缓解上述问题。

根据本申请实施例的第一方面，提供了一种语音识别方法，包括：获取待识别语音的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得待识别语音的识别结果。

根据本申请实施例的第二方面，提供了一种提供语音识别服务的方法，包括：获取实时采集的会议语音数据；获取会议语音数据的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对会议语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得会议语音数据的识别结果；将会议语音数据的识别结果录入到关联的会议记录文件中。

根据本申请实施例的第三方面，提供了一种语音交互方法，包括：获取用户输入的语音数据；获取语音数据的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得语音数据的识别结果；根据语音数据的识别结果确定反馈文本，将反馈文本转换成语音进行播放，以响应用户输入。

根据本申请实施例的第四方面，提供了一种法院自助立案实现方法，包括：自助立案一体机设备接收语音输入的立案请求信息；获取接收到的语音数据的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得语音数据的识别结果；将语音数据的识别结果录入到关联的立案信息数据库中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院（杭州）科技有限公司，未经阿里巴巴达摩院（杭州）科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111538265.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种稠油降粘剂及其制备方法
下一篇：具有脉冲时刻偏移量的脉冲神经网络的仿真与训练方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别方法、语音识别模型、电子设备和存储介质有效

专利文献下载