[发明专利]语音唤醒模型的训练、唤醒方法、装置、设备及存储介质在审
申请号: | 202210356735.2 | 申请日: | 2022-04-06 |
公开(公告)号: | CN114842855A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 邹赛赛;陈立;张若曦;贾磊;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L17/22 | 分类号: | G10L17/22;G10L17/04;G10L15/06;G10L15/16;G10L15/22;G10L17/02;G10L17/18;G10L17/24 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 孙静;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 唤醒 模型 训练 方法 装置 设备 存储 介质 | ||
本公开提供了一种语音唤醒模型的训练、唤醒方法、装置、设备及存储介质,涉及人工智能领域,尤其涉及深度学习、语音技术等领域。具体实现方案为:获取创建的语音识别训练数据以及语音唤醒训练数据,首先根据语音识别训练数据对基础模型进行训练,得到模型损失函数收敛时的基础模型的模型参数;随后基于模型配置指令更新基础模型中解码模块的配置参数,得到第一模型;再根据语音唤醒训练数据对第一模型进行训练,在模型损失函数收敛时,获得训练好的语音唤醒模型。上述方案可提升语音唤醒模型训练的收敛速度,基于上述语音唤醒模型对音频数据进行处理分析,可提高识别精度,降低误报率。
技术领域
本公开涉及人工智能领域中的深度学习和语音技术领域,尤其涉及一种语音唤醒模型的训练、唤醒方法、装置、设备及存储介质。
背景技术
随着人工智能的发展,越来越多的电子设备开始支持语音交互功能。语音唤醒作为语音交互的开关,在其中占据着重要的组成部分。目前,语音唤醒功能存在多设备同时被唤醒的问题,例如同一品牌的设备往往支持同一个唤醒词,就会导致一次唤醒,多个设备响应的尴尬情况。
发明内容
本公开提供了一种语音唤醒模型的训练、唤醒方法、装置、设备及存储介质。
根据本公开的第一方面,提供了一种语音唤醒模型的训练方法,包括:
获取语音识别训练数据,根据所述语音识别训练数据对基础模型进行语音识别训练,得到模型损失函数收敛时的基础模型的模型参数;所述基础模型包括编码模块和解码模块;
响应于用户发起的模型配置指令,基于所述基础模型的模型参数,更新所述基础模型中解码模块的配置参数,得到第一模型;
获取语音唤醒训练数据,根据所述语音唤醒训练数据,对所述第一模型进行语音唤醒训练,得到模型损失函数收敛时的第一模型;
将模型损失函数收敛时的第一模型作为所述语音唤醒模型。
根据本公开的第二方面,提供了一种语音唤醒方法,包括:
接收用户输入的音频数据;
对所述音频数据进行特征提取,得到所述音频数据对应的滤波器组FBank特征;
基于语音唤醒模型的编码模块,对所述音频数据对应的FBank特征进行编码,得到所述音频数据对应的特征编码序列;采用连结时序分类ctc解码确定所述特征编码序列中得分大于或等于预设值的目标特征编码序列;
获取用户自定义唤醒词对应的语义标签序列;
基于所述语音唤醒模型的解码模块,对所述目标特征编码序列以及所述语义标签序列进行解码分析,确定是否唤醒所述终端设备。
根据本公开的第三方面,提供一种语音唤醒模型的训练装置,包括:
第一训练模块,用于根据所述语音识别训练数据对基础模型进行语音识别训练,得到模型损失函数收敛时的基础模型的模型参数;所述基础模型包括编码模块和解码模块;
模型配置模块,用于响应于用户发起的模型配置指令,基于所述基础模型的模型参数,更新所述基础模型中解码模块的配置参数,得到第一模型;
第二获取模块,用于获取语音唤醒训练数据;
第二训练模块,用于根据所述语音唤醒训练数据,对所述第一模型进行语音唤醒训练,得到模型损失函数收敛时的第一模型;
模型生成模块,用于将模型损失函数收敛时的第一模型作为所述语音唤醒模型。
根据本公开的第四方面,提供一种语音唤醒装置,包括:
接收模块,用于接收用户输入的音频数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210356735.2/2.html,转载请声明来源钻瓜专利网。