[发明专利]语音测评方法和装置、存储介质及电子装置有效
申请号: | 201910887946.7 | 申请日: | 2019-09-19 |
公开(公告)号: | CN110782921B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 林炳怀;康跃腾;王丽园 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/03 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 张秀英 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 测评 方法 装置 存储 介质 电子 | ||
1.一种语音测评方法,其特征在于,包括:
获取与预设参考文本对应的待测评语音;
确定所述待测评语音中音素的目标发音特征;
根据所述目标发音特征确定所述待测评语音中音素的目标音素准确度以及所述待测评语音的目标句子测评分值,包括:将所述目标发音特征输入预先训练好的目标神经网络模型的底层,得到所述目标神经网络模型的底层输出的所述目标发音特征的音素准确度的概率,其中,所述概率大于第一预定阈值的音素准确度为所述目标音素准确度;根据所述目标音素准确度确定所述待测评语音中单词的目标单词准确度;将所述目标单词准确度输入到所述目标神经网络模型的上层,得到所述目标神经网络模型的上层输出的所述待测评语音对应的所述目标句子测评分值;
根据所述目标音素准确度确定待纠错音素,并确定所述待纠错音素对应的目标字母;
输出所述目标字母以及所述目标句子测评分值。
2.根据权利要求1所述的方法,其特征在于,在根据所述目标发音特征确定所述待测评语音中音素的目标音素准确度以及所述待测评语音的目标句子测评分值之前,所述方法还包括:
获取训练样本的音素的发音特征,其中,所述训练样本的音素包括:预定数量的正样本的标准音素和无标签样本的音素;
使用所述训练样本的音素的发音特征对原始神经网络模型进行训练,得到所述目标神经网络模型,其中,所述训练样本的音素的发音特征为所述原始神经网络模型的输入,训练好的所述目标神经网络模型的底层输出的音素准确度和所述目标神经网络模型的上层输出的句子测评分值拟合后的损失值满足预定条件。
3.根据权利要求2所述的方法,其特征在于,使用所述训练样本的音素的发音特征对原始神经网络模型进行训练,得到所述目标神经网络模型包括:
根据所述训练样本的音素的发音特征对所述原始神经网络模型的底层进行训练,并确定所述音素准确度的第一损失值;
根据所述训练样本的音素准确度确定所述训练样本的单词准确度;
根据所述单词准确度对所述原始神经网络模型的上层进行训练,并确定句子测评分值的第二损失值;
根据所述第一损失值和所述第二损失值确定所述音素准确度和句子准确度拟合后的第三损失值,在所述第三损失值的输出值小于预设阈值时结束训练,得到所述目标神经网络模型。
4.根据权利要求3所述的方法,其特征在于,通过以下公式根据所述第一损失值和所述第二损失值确定所述音素准确度和所述句子准确度拟合后的第三损失值:
L=β1Lsent+β2Lphone,
其中,L为所述第三损失值,Lphone为所述第一损失值,Lsent为所述第二损失值,β1为所述句子准确度的权重,β2为所述音素准确度的权重。
5.根据权利要求4所述的方法,其特征在于,通过以下公式确定音素准确度的第一损失值:
其中,πp为正样本的先验概率,为正样本分类成正样本的损失期望值,为无标签样本分类成正样本的损失期望值,为正样本分类成负样本的损失值,g为所述原始神经网络模型的底层输出的第j个音素的音素准确度。
6.根据权利要求4所述的方法,其特征在于,通过以下公式确定句子准确度的第二损失值:
其中,n为句子总数,scoreexpert(i)为预定对象对第i条句子的句子准确度打分,scoremodel(i)为原始神经网络模型输出的第i条句子的准确度打分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910887946.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:音频识别方法、装置及数据处理设备
- 下一篇:半导体装置和数据处理系统