[发明专利]语音识别模型的训练方法、语音识别方法、设备及介质在审

专利信息
申请号: 202310636148.3 申请日: 2023-05-31
公开(公告)号: CN116580704A 公开(公告)日: 2023-08-11
发明(设计)人: 张旭龙;王健宗;程宁;孙一夫 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G10L15/06 分类号: G10L15/06;G10L15/22;G10L15/16;G10L15/02;G10L17/26;G10L17/22;G10L15/18;G10L25/51;G10L25/63
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 廖慧贤
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 识别 模型 训练 方法 设备 介质
【权利要求书】:

1.一种语音识别模型的训练方法,其特征在于,所述训练方法包括:

获取样本说话对象的样本音频数据,其中,所述样本音频数据包括样本说话对象的样本性别标签和样本年龄标签;

将所述样本音频数据输入至预设的神经网络模型,其中,所述神经网络模型包括语音预训练网络、性别预测网络、年龄预测网络;

基于所述语音预训练网络对所述样本音频数据进行特征提取,得到多个样本语音表示向量;

对所述样本语音表示向量进行拼接处理,得到样本语音特征向量;

基于所述性别预测网络对所述样本语音特征向量进行性别预测,得到所述样本说话对象的预测性别标签;

基于所述性别预测网络对所述样本语音特征向量进行年龄预测,得到所述样本说话对象的预测年龄标签;

基于所述预测性别标签、预测年龄标签、所述样本性别标签和所述样本年龄标签对所述神经网络模型的模型参数进行优化,得到语音识别模型,其中,所述语音识别模型用于对目标说话对象的目标音频数据进行识别,得到所述目标说话对象的年龄和性别。

2.根据权利要求1所述的训练方法,其特征在于,所述语音预训练网络包括第一卷积层和transformer层,所述基于所述语音预训练网络对所述样本音频数据进行特征提取,得到多个样本语音表示向量,包括:

基于所述第一卷积层对所述样本音频数据进行卷积处理,得到样本音频帧序列特征;

基于所述transformer层对每一所述样本音频帧序列特征进行上下文提取,得到所述样本语音表示向量。

3.根据权利要求1所述的训练方法,其特征在于,所述性别预测网络包括第二卷积层、第一展平层以及第一全连接层,所述基于所述性别预测网络对所述样本语音特征向量进行性别预测,得到所述样本说话对象的预测性别标签,包括:

基于所述第二卷积层对所述样本语音特征向量进行音色特征提取,得到第一样本音色特征,所述第一样本音色特征包括所述样本说话对象的音调特点;

基于所述第一展平层对所述第一样本音色特征进行变维处理,得到一维的第一样本音色特征;

基于所述第一全连接层的第一函数和候选性别标签对所述一维的第一样本音色特征进行性别估计,得到所述预测性别标签。

4.根据权利要求1所述的训练方法,其特征在于,所述年龄预测网络包括第三卷积层、第二展平层以及第二全连接层,所述基于所述性别预测网络对所述样本语音特征向量进行年龄预测,得到所述样本说话对象的预测年龄标签,包括:

基于所述第三卷积层对所述样本语音特征向量进行音色特征提取,得到第二样本音色特征,所述第二样本音色特征包括所述样本说话对象的音高特点和语速特点;

基于所述第二展平层对所述第二样本音色特征进行变维处理,得到一维的第二样本音色特征;

基于所述第二全连接层的第二函数和候选年龄标签对所述一维的第二样本音色特征进行年龄估计,得到所述预测年龄标签。

5.根据权利要求1至4任一项所述的训练方法,其特征在于,所述基于所述预测性别标签、预测年龄标签、所述样本性别标签和所述样本年龄标签对所述神经网络模型的模型参数进行优化,得到语音识别模型,包括:

基于所述预测性别标签和所述样本性别标签,计算得到第一损失值;

基于所述预测年龄标签和所述样本年龄标签,计算得到第二损失值;

根据预设的权重参数对所述第一损失值和所述第二损失值进行加权计算,得到目标损失值;

基于所述目标损失值对所述神经网络模型的模型参数进行优化,得到所述语音识别模型。

6.一种语音识别方法,其特征在于,所述方法包括:

获取目标说话对象的目标音频数据;

将所述目标音频数据输入至语音识别模型进行语音识别,得到所述目标说话对象的性别和年龄,其中,所述语音识别模型根据权利要求1至5任一项所述的训练方法训练得到。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310636148.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top