[发明专利]语音识别模型的训练方法及装置、语音识别方法及装置在审

申请号：	202310081310.X	申请日：	2023-01-30
公开（公告）号：	CN116092485A	公开（公告）日：	2023-05-09
发明（设计）人：	李盛强	申请（专利权）人：	上海安亭地平线智能交通技术有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G06F18/25;G06F18/214;G06N3/0455;G06N3/08;G06F7/58;G10L15/02;G10L15/16;G10L15/24;G10L15/25
代理公司：	北京思源智汇知识产权代理有限公司 11657	代理人：	靳涛涛
地址：	201800 上海市嘉定区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例公开了一种语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备，其中，该语音识别模型的训练方法包括：基于生成的随机数，对样本视频数据和样本音频数据进行数据掩蔽处理，得到掩蔽后视频数据和掩蔽后音频数据；利用待训练的初始语音识别模型对掩蔽后视频数据和掩蔽后音频数据进行融合编码再解码，得到语音预测数据；基于损失函数和语音预测数据，训练初始语音识别模型，得到预训练的语音识别模型。本公开实施例可以使样本视频数据和样本音频数据的数据量不再平衡，从而可以提高模型处理非平衡多模态数据的能力，使训练后的语音识别模型能够适应多种噪声场景，提高语音识别模型的识别准确率。

技术领域

本公开涉及计算机技术领域，尤其是一种语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备。

背景技术

多模语音识别技术是指借助唇部动作视频、脸部动作视频、眼部动作视频等视觉信息协助进行语音识别的技术，在一定程度上提高了高噪声场景下语音的识别准确率。

多模语音识别模型的训练阶段，通常需要同时输入视频数据和音频数据两种模态的数据，模型需要同时处理视频特征和音频特征，训练后的多模语音识别模型在能够同时获得输入的音频和视频的情况下，识别效果较好。当两种模态的数据量不平衡时，即缺少一种模态的数据时，导致模型的识别准确率降低。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音识别模型的训练方法及装置、语音识别方法及装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种语音识别模型的训练方法，该方法包括：生成处于预设数值区间的随机数；基于随机数，对样本视频数据和样本音频数据进行数据掩蔽处理，得到掩蔽后视频数据和掩蔽后音频数据；利用待训练的初始语音识别模型的融合编码网络，对掩蔽后视频数据和掩蔽后音频数据进行融合编码，得到融合编码数据；利用初始语音识别模型的解码网络，对融合编码数据进行解码，得到语音预测数据；基于预设的损失函数和语音预测数据，确定表示语音预测数据与预设的语音标签序列之间的误差的损失值；基于损失值，调整初始语音识别模型的参数，获得调整后的语音识别模型；响应于确定调整后的语音识别模型满足预设的训练结束条件，将调整后的语音识别模型确定为预训练的语音识别模型。

根据本公开实施例的另一个方面，提供了一种语音识别方法，该方法包括：获取待识别视频数据和待识别音频数据；利用预训练的语音识别模型的融合编码网络，对待识别视频数据和待识别音频数据进行融合编码，得到融合编码数据；利用语音识别模型的解码网络，对融合编码数据进行解码，得到语音预测数据；基于语音预测数据，生成语音识别文本。

根据本公开实施例的另一个方面，提供了一种语音识别模型的训练装置，该装置包括：第一生成模块，用于生成处于预设数值区间的随机数；掩蔽模块，用于基于随机数，对样本视频数据和样本音频数据进行数据掩蔽处理，得到掩蔽后视频数据和掩蔽后音频数据；第一融合模块，用于利用待训练的初始语音识别模型的融合编码网络，对掩蔽后视频数据和掩蔽后音频数据进行融合编码，得到融合编码数据；第一解码模块，用于利用初始语音识别模型的解码网络，对融合编码数据进行解码，得到语音预测数据；第一确定模块，用于基于预设的损失函数和语音预测数据，确定表示语音预测数据与预设的语音标签序列之间的误差的损失值；调整模块，用于基于损失值，调整初始语音识别模型的参数，获得调整后的语音识别模型；第二确定模块，用于响应于确定调整后的语音识别模型满足预设的训练结束条件，将调整后的语音识别模型确定为预训练的语音识别模型。

根据本公开实施例的另一个方面，提供了一种语音识别模型的训练装置，该装置包括：获取模块，用于获取待识别视频数据和待识别音频数据；第二融合模块，用于利用预训练的语音识别模型的融合编码网络，对待识别视频数据和待识别音频数据进行融合编码，得到融合编码数据；第二解码模块，用于利用语音识别模型的解码网络，对融合编码数据进行解码，得到语音预测数据；第二生成模块，用于基于语音预测数据，生成语音识别文本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海安亭地平线智能交通技术有限公司，未经上海安亭地平线智能交通技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310081310.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种用于配置管理三层交换机端口的虚拟网卡实现方法
下一篇：VPN接入方法、装置、电子设备及存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别模型的训练方法及装置、语音识别方法及装置在审

专利文献下载