[发明专利]语音质量的评估模型、训练评估方法、系统、设备及介质在审
申请号: | 202011380915.1 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112562724A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 朱城锜;罗超;胡泓 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/30;G10L25/60 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 杨东明;张冉 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 质量 评估 模型 训练 方法 系统 设备 介质 | ||
本发明公开了一种语音质量的评估模型、训练评估方法、系统、设备及介质,评估模型包括:端点检测模块,用于输入待评估的音频信号,并对音频信号进行端点检测得到第一音频信号;预处理模块,用于对第一音频信号进行预处理得到语谱图;特征提取模块,用于提取语谱图的特征;第一神经元,用于根据特征使用交叉熵损失函数判断第一音频信号是否为语音信号以得到加权系数;第二神经元,用于根据特征及加权系数使用误差损失函数得到第一音频信号的质量得分。本发明通过提取音频信号的语谱图,利用语音质量评估模型判断出语音信号是否为语音,同时得的该语音信号的语音质量分数,在进行语音质量评估时不需要参考信号,评估过程更简单。
技术领域
本发明涉及音频技术领域,尤其涉及一种语音质量的评估模型、训练评估方法、系统、设备及介质。
背景技术
电话一直以来都是重要的沟通方式,随着网络通讯的快速发展,网络语音通信也成为了电话语音的一个重要组成部分。相比于公共交换电话网络通讯,网络协议通讯更容易受网络可靠性影响,因此在当前情况下对电话语音质量评估变得尤为重要。
语音信号质量评估方法主要有两类:人工主观评估方法和有参考信号的客观评估方法。人工主观评估方法可推广性较差而且无法保证通话隐私;有参考信号的客观评估方法需要有参考信号,但是电话语音中难以得到参考信号。
发明内容
本发明要解决的技术问题是为了克服现有技术中有参考信号的客观评估方法需要有参考信号、评估过程复杂的缺陷,提供一种语音质量的评估模型、训练评估方法、系统、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种基于神经网络的语音质量的评估模型,包括
端点检测模块,用于输入待评估的音频信号,并对所述音频信号进行有效音频端点检测得到第一音频信号;
与所述端点检测模块的输出连接的预处理模块,用于对所述第一音频信号进行预处理得到语谱图;
与所述预处理模块的输出连接的特征提取模块,用于提取所述语谱图的特征;
与所述特征提取模块的输出连接的第一神经元,用于根据所述特征使用交叉熵损失函数判断所述第一音频信号是否为语音信号以得到加权系数;
与所述特征提取模块的输出连接的第二神经元,用于根据所述特征及所述加权系数使用误差损失函数得到所述第一音频信号的质量得分。
在本方案中,通过对输入待评估的音频信号进行语音端点检测,找出语音的起始点和结束点,检测出有用语音,去除无效语音,可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。因电话语音中存在非语音信号会降低评估分数的鲁棒性,故采用多标签模型的思想,基于音频输入,在判断其是否为语音时,同时得到语音质量评估的得分。利用深度学习框架,提取音频信号的短时频域特征,利用多标签模型,在损失函数上对二者进行约束,最后根据是否为语音信号得到加权系数,并对语音质量得分加权,实现了判断当前音频信号是否为语音的同时得到了语音信号的质量评分,在进行语音质量评估时不需要参考信号,评估过程更简单。
优选地,所述特征提取模块包括卷积层、GRU(门控循环单元)网络和DNN(深度神经网络)网络;
所述卷积层、所述GRU网络和所述DNN网络依次连接;
所述卷积层用于提取所述语谱图的初始特征;
所述GRU网络用于记录所述初始特征的历史信息的影响并生成所述语谱图的中间特征;
所述DNN网络用于对所述中间特征进行整合以生成所述语谱图的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011380915.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电杆临时固定装置
- 下一篇:一种空调装置及控制方法