[发明专利]语音识别模型验证方法、装置、计算机设备和存储介质在审
| 申请号: | 202011286770.9 | 申请日: | 2020-11-17 |
| 公开(公告)号: | CN112447167A | 公开(公告)日: | 2021-03-05 |
| 发明(设计)人: | 张云婵;王明;曹田田;侯进标;王鑫;罗锐 | 申请(专利权)人: | 康键信息技术(深圳)有限公司 |
| 主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L15/06;G10L15/26 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
| 地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 模型 验证 方法 装置 计算机 设备 存储 介质 | ||
1.一种语音识别模型验证方法,所述方法包括:
获取验证需求信息;
根据所述验证需求信息确定目标数据类型、目标业务场景与待验证的目标语音识别模型;
从所述目标业务场景下获取属于所述目标数据类型的目标音频数据;
通过所述目标语音识别模型对所述目标音频数据进行语音识别,得到相应的识别文本;
将所述目标音频数据与相应识别文本发送至终端进行审核,并接收所述终端针对所述目标音频数据反馈的标准文本;
根据所述目标音频数据对应的标准文本与识别文本对所述目标语音识别模型进行验证,得到相应的验证结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标音频数据与相应识别文本发送至终端进行审核,并接收所述终端针对所述目标音频数据反馈的标准文本,包括:
根据所述识别文本确定相应目标音频数据所对应的候选数据标签;
将所述目标音频数据与相应候选数据标签、识别文本发送至终端进行审核;
接收所述终端针对所述目标音频数据反馈的标准文本与目标数据标签。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标音频数据对应的标准文本与识别文本对所述目标语音识别模型进行验证,得到相应的验证结果,包括:
从所述目标音频数据中筛选目标数据标签为有效数据的目标音频数据;
根据所筛选出的目标音频数据对应的标准文本与识别文本,对所述目标语音识别模型进行验证,得到相应的验证结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频数据对应的标准文本与识别文本对所述目标语音识别模型进行验证,得到相应的验证结果,包括:
将每个目标音频数据对应的标准文本与识别文本进行匹配,得到相应的字识别结果与文本识别结果;
根据所述目标业务场景下各目标音频数据对应的字识别结果,得到相应的字识别准确率;
根据所述目标业务场景下各目标音频数据对应的文本识别结果,得到相应的文本识别准确率;
根据所述字识别准确率与所述文本识别准确率,确定所述目标语音识别模型在所述目标业务场景下的验证结果。
5.根据权利要求1所述的方法,其特征在于,所述从所述目标业务场景下获取属于所述目标数据类型的目标音频数据,包括:
从所述目标业务场景下获取属于所述目标数据类型的候选音频数据;
确定每个候选音频数据的信噪比;
从所获取到的候选音频数据中筛选信噪比大于或等于信噪比阈值的目标音频数据。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述验证需求信息确定目标设备类型;
所述从所述目标业务场景下获取属于所述目标数据类型的目标音频数据,包括:
从所述目标业务场景下获取属于所述目标数据类型、且由属于所述目标设备类型的设备采集的目标音频数据。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
当所述验证结果为验证未通过时,根据所述目标业务场景下的各目标音频数据,以及每个目标音频数据对应的标准文本与识别文本确定训练样本集;
根据所述训练样本集对所述目标语音识别模型进行优化训练,得到优化后的目标语音识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康键信息技术(深圳)有限公司,未经康键信息技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011286770.9/1.html,转载请声明来源钻瓜专利网。





