[发明专利]一种基于神经网络的语音质量评估方法在审
| 申请号: | 202210004522.3 | 申请日: | 2022-01-05 |
| 公开(公告)号: | CN114360583A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 卢晨华;黄志华;郭创建 | 申请(专利权)人: | 新疆大学 |
| 主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/30;G06N3/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 830017 新疆维吾尔自治*** | 国省代码: | 新疆;65 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 神经网络 语音 质量 评估 方法 | ||
1.一种基于神经网络的语音质量评估方法,其特征在于,包括:
音频转换模块,用于将待训练和待评估的音频信号转换成可以在神经网络模块中处理的格式;
加噪模块,用于对纯净语音进行加噪产生神经网络模型的训练数据;
特征提取模块,用于对语音进行时频特征提取从而输入神经网络模块;
神经网络模块,用于预测与输入语音特征相对应的评估分数;
损失函数,用于神经网络的训练。
2.如权利要求1所述的一种基于神经网络的语音质量评估方法,其特征在于,所述的模块包括池化层、分组长短时记忆层(grouped lstm layer)、全连接层、丢弃层等。
3.如权利要求2所述的一种基于神经网络的语音质量评估方法,其特征在于,所述的池化层采用自适应平均池化层,用于对特征维度进行压缩;
所述的分组长短时记忆层,采用一种分组策略和表达重组策略,用于高效提取特征在时间维度上的上下文特征产生中间特征;
所述的全连接层,用于将长短时记忆层产生的中间特征映射到训练目标;
所述的丢弃层,用于缓解神经网络过拟合问题。
4.如权利要求2所述的分组长短时记忆层,其特征在于,采用一种分组策略和表达重组策略;
所述的分组策略将输入特征和隐藏状态分成K组分别表示为:{,...}和{,...},在输出层将所有的隐藏状态拼接在一起;
所述的表达重组策略将特征添加一维变换成(K,N/K),其中N表示特征维度;然后再对其进行维度交换,变换为(K,N/K);最后将特征的形状变回N维。
5.如权利要求2所述的分组长短时记忆层,其特征在于,每个长短时记忆(LSTM)参数中的遗忘门偏差(forget gate bias)初始化为-3,其它参数初始化为0。
6.如权利要求1所述的一种基于神经网络的语音质量评估方法,其特征在于,所述的损失函数为:
其中代表权重系数,它是一个关于句子级别PESQ分数的函数表示为:
、分别真实和预测的句子级别的PESQ分数;N代表训练的句子总数;代表第n句语音的帧数;代表第n句语音中第t帧的帧级别的PESQ(客观语音质量评估)预测分数。
7.如权利要求1所述的一种基于神经网络的语音质量评估方法,其特征在于所述的音频转换模块将音频转换成特定格式;所述的特征提取模块在批量训练神经网络模块时先将本批量中待处理的语音进行长度对齐,然后分别做短时傅里叶变换并取幅值,再进行谱归一化生成批量特征输入神经网络模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210004522.3/1.html,转载请声明来源钻瓜专利网。





