[发明专利]端到端的在线语音检测与识别方法、系统及设备有效
申请号: | 202110175961.6 | 申请日: | 2021-02-09 |
公开(公告)号: | CN112951213B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 周世玉;徐波;李蒙 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L25/87;G10L15/16;G10L15/26 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 端到端 在线 语音 检测 识别 方法 系统 设备 | ||
本发明属于语音检测与识别领域,具体涉及了一种端到端的在线语音检测与识别方法、系统及设备,旨在解决现有在线语音识别技术需要训练与部署多个模型,模型计算效率低,部署与调参过程复杂,对标注样本数据依赖强的问题。本发明包括:通过无标注语音数据自监督训练获取预训练wav2vec2.0模型;进行模型的一阶段和二阶段微调,并通过多任务语音数据进行训练,获得语音检测与识别的多任务模型;对于在线音频数据,进行分块、边缘拼接,并通过多任务模型在线识别与边缘剔除,获得实时的语音识别文本。本发明对标签数据依赖性低,模型参数量少、结构简单,并且联合建模降低计算消耗,可用于低资源、实时性要求高的场景,识别准确、精度高。
技术领域
本发明属于语音检测与识别领域,具体涉及了一种端到端的在线语音检测与识别方法、系统及设备。
背景技术
随着智能设备等创新应用的推广,语音识别作为人机交互的一个重要入口,现已被广泛应用于各类场景,例如语音输入、语音搜索、语音翻译、智能家居等等。其中某些场景对在线识别的实时性有着较高的要求,如语音控制,会议纪要等。
目前主流的在线语音识别方法需要训练并部署一个语音检测模型与一个语音识别模型,首先使用语音检测模型检测音频信号中的语音部分,然后针对语音部分的数据使用语音识别模型进行在线识别。其缺点为:需要训练和部署语音检测和语音识别两个模型,两者以串联方式进行结合,因此语音检测模型的准确性对后续语音识别模型的性能有较大影响,实际应用中需要根据应用场景动态调整语音检测模型的相关参数,以保证语音检测模型和语音识别模型两者性能都达到最优。此外,现有技术模型训练中需要大量的标注样本数据,对标注样本具有很强的依赖性,模型的鲁棒性和泛化性有待提升。
发明内容
为了解决现有技术中的上述问题,本发明提供了一种端到端的在线语音检测与识别方法,将语音检测模型与语音识别模型统一到一个模型中,简化了训练与部署流程;采用多任务学习技术,对统一模型中的语音检测模块和语音识别模块进行联合优化,利用任务之间的互补性提升各自性能,同时增强模型的鲁棒性;充分利用海量无标注音频数据,采用自监督学习技术训练预训练模型,不仅降低了有监督学习阶段对标注数据的依赖,而且增加了有监督学习阶段模型的鲁棒性,因此本发明适用于开发各种低资源语言的在线语音识别系统,仅需少量有标注数据即可快速搭建一套低资源语言的在线语音识别系统。本发明的端到端的在线语音检测与识别方法包括:
步骤A10,基于获取的无标注语音数据,使用wav2vec2.0模型进行自监督训练,获得预训练wav2vec2.0模型;
步骤A20,在所述预训练wav2vec2.0模型顶部增加一层全连接网络,基于获取的带标注语音数据,采用CTC损失进行有监督训练,获得语音识别单任务模型;
步骤A30,将获取的多任务语音数据作为多任务训练数据,通过对所述语音识别单任务模型微调进行语音检测与识别多任务模型的训练,获得训练好的语音检测与识别的多任务模型;
步骤A40,在线实时获取音频数据,根据预先设定的语音检测块尺寸,通过所述训练好的语音检测与识别的多任务模型的语音检测模块实时对音频数据进行语音与非语音的音频分析;
步骤A50,基于音频分析结果进行状态判断,并基于状态判断结果提取有效语音数据,将所述有效语音数据进行边缘拼接后,通过所述训练好的语音检测与识别的多任务模型的语音识别模块进行在线识别与边缘剔除,获得实时的语音识别文本。
在一些优选的实施例中,所述训练好的语音检测与识别的多任务模型,其训练方法为:
步骤B10,对于所述多任务训练数据中的各组数据,分别通过所述语音检测与识别的多任务模型获取各组数据对应任务的预测输出;所述多任务训练数据包括分别获取的语音检测和语音识别的训练数据;
步骤B20,分别计算所述各组数据对应任务的预测输出与真值之间的损失值,并通过模型自学习获取各任务对应的损失值权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110175961.6/2.html,转载请声明来源钻瓜专利网。