[发明专利]基于多任务模型的语音识别与关键词检测装置和方法有效

专利信息
申请号: 201910906552.1 申请日: 2019-09-24
公开(公告)号: CN110648659B 公开(公告)日: 2022-07-01
发明(设计)人: 赖家豪;郑达;李索恒;张志齐 申请(专利权)人: 上海依图信息技术有限公司
主分类号: G10L15/06 分类号: G10L15/06;G10L15/16;G10L15/22;G10L15/26
代理公司: 上海市汇业律师事务所 31325 代理人: 唐嘉伟
地址: 200126 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 任务 模型 语音 识别 关键词 检测 装置 方法
【说明书】:

发明公开了一种基于多任务模型的语音识别与关键词检测装置,包括:神经网络;语音识别解码器,关键词解码器,训练模块;在训练阶段,训练模块采用第一输入音频数据、第一文本标签以及第一CTC损失函数对语音识别解码器和神经网络进行训练,采用所述第一输入音频数据、第二文本标签以及第二CTC损失函数对关键词解码器和神经网络进行训练,在训练过程中,根据对应的CTC损失函数的输出进行反向传播实现对神经网络、语音识别解码器和关键词解码器的训练。本发明还公开了一种基于多任务模型的语音识别与关键词检测方法。本发明能有效的利用语音识别的训练数据同时训练模型的关键词检测能力,从而显著提升关键词检测的准确率和召回率。

技术领域

本发明涉及语音识别,特别是涉及一种基于多任务模型的语音识别与关键词检测装置和方法。

背景技术

语音识别也即自动语音识别(Automatic Speech Recognition,ASR)是一种将输入的语音信号即音频信号转变为相应的文字输出的技术,在人工智能(ArtificialIntelligence,AI)中具有重要应用。

现有语音识别装置中通常包括神经网络(Neural Network,NN),神经网络通过训练形成对应的模型,根据训练好的模型,语音信号即音频信号通过特征提取处理并输入到神经网络之后,神经网络会根据训练的模型选择最佳的输出路径并形成对应的文本信号输出。神经网络包括循环神经网络(Recurrent Neural Network,RNN),通常采用基于连接时序分类准则(Connectionist Temporal Classification,CTC)的规则进行训练。在基于CTC的规则进行训练的过程中,需要提供训练样本,训练样本包括输入音频信号,对应的真实输出的标签,RNN中各节点具有初始的权重值即权值(Weight),输入音频信号输入到RNN中之后,RNN会根据内部的各节点的权值设置产生输出数据,输出数据和真实的输出标签之间具有差值并通过CTC损失函数计算输出,这种CTC损失会进行反向传播实现对RNN中各节点的权值的调节,最后将输出数据和真实的输出标签之间具有差值降低到要求值或者当输出数据和真实的输出标签之间的差值的变化很小时,那么训练结束,训练结束后的RNN中各节点具有对应的最终权重,并在实际的语音识别中进行应用。在实际的语音识别中,将经过特征提取的音频信号输入到RNN中,RNN则会根据训练结构选择得分最大的输出路径进行输出,得分最大的输出路径即输出路径上的RNN的各节点概率乘积最大对应的输出路径,最后通过文本解码即可得到对应的文本信息。

语音识别技术能将语音中出现的文本全部识别出来。但是在一些应用中,还需要进行关键词检测,关键词检测能得到自动控制中所需要的命令,或者对通信语音中出现的敏感信息进行监控等。现有技术中比较常见地关键词检测的做法有直接在前n个(topn)结果中检索关键词,或者在解码器中对于关键词增加一定的分数使得关键词能够更容易在集束搜索(beam search)中存活下来。这些做法都没有利用深度神经网络的学习建模能力,也不能充分利用大量的训练数据中的关键词信息。

发明内容

本发明所要解决的技术问题是提供一种基于多任务模型的语音识别与关键词检测装置,能有效的利用语音识别的训练数据同时训练模型的关键词检测能力,从而显著提升关键词检测的准确率和召回率。为此,本发明还提供一种基于多任务模型的语音识别与关键词检测方法。

为解决上述技术问题,本发明提供的基于多任务模型的语音识别与关键词检测装置包括:神经网络;语音识别解码器,关键词解码器。

所述神经网络的输入端连接输入音频数据,所述神经网络具有多个节点,各所述神经网络的各节点具有权值。

所述神经网络的输出端形成的输出数据分别连接到所述语音识别解码器和所述关键词解码器。

基于多任务模型的语音识别与关键词检测装置还包括训练模块;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海依图信息技术有限公司,未经上海依图信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910906552.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top