[发明专利]一种基于神经网络的语音质量评估方法在审
申请号: | 202210004522.3 | 申请日: | 2022-01-05 |
公开(公告)号: | CN114360583A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 卢晨华;黄志华;郭创建 | 申请(专利权)人: | 新疆大学 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/30;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 830017 新疆维吾尔自治*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 语音 质量 评估 方法 | ||
本发明公开了一种基于神经网络的语音质量评估方法,所述的方法包括:音频转换模块,用于将音频转换成可以在神经网络模型中处理的格式;加噪模块,用于生成与纯净语音配对的带噪语音;特征提取模块,用于提取输入神经网络的特征;神经网络模块,用于评估输入模型特征所对应的语音质量分数;损失函数,用于神经网络的训练。本发明通过提取语音的时频特征,利用神经网络评估出语音质量分数。在进行语音质量评估时不需要纯净语音作为参考。
技术领域
本发明涉及音频技术领域,尤其涉及一种基于神经网络的语音质量评估方法。
背景技术
语音是人们日常生活中交流的一种最快捷、最高效的方式。但是现实生活中语音信号往往会被各种噪声所干扰,从而影响语音质量。因此对带噪信号及去噪处理后的信号的语音质量的评估变得尤为重要。
语音信号质量评估方法主要有两类:采用人工主观评估的方法和有参考信号的客观评估方法。采用人工主观进行语音质量评估的方法费时费力,需要很大的人力成本,且有信息安全的风险;有参考信号的评估方法适用于实验室环境,在现实生活场景中往往缺乏配对的参考信号,不具有实用性。
现实生活中待训练和待评估的语音数据采用各种各样的数据格式进行保存,不同的数据格式可能在不同的处理方法中不兼容。
发明内容
鉴于以上问题,本发明提出一种基于神经网络的语音质量评估方法,所述方法包括:
音频转换模块,用于将待训练和待评估的音频信号转换成可以在神经网络模块中处理的格式;
与所述音频转换模块相连的加噪模块,用于将经过转换后的纯净语音进行加噪产生神经网络模型的训练数据。
特征提取模块,用于对待训练或者待评估的语音进行时频特征提取从而输入神经网络模块。
与特征提取模块的输出相连的神经网络模块,用于预测与输入语音特征相对应的评估分数。
损失函数,用于神经网络的训练。
在本方案中,通过音频转换模块将不同格式的音频转换成本方法所适用的特定格式,提高了本方法的实用性。通过将纯净语音输入加噪模块产生之相对应的带噪语音,并使用PESQ算法对带噪语音进行标记用于产生神经网络的训练数据。使用特征提取模块将待训练数据进行批量特征提取,输入神经网络模块。
优选地所述神经网络模块包括池化层、分组长短时记忆层、全连接层、丢弃层等。
所述的化层采用自适应平均池化层,用于对特征维度进行压缩。
所述的分组长短时记忆层,采用一种分组策略和表达重组策略,用于高效提取特征在时间维度上的上下文特征产生中间特征。
优选地所述的分组长短时记忆层的分组策略将输入特征和隐藏状态分成K组,分别表示为:
{,...}和{,...}。在输出层将所有的隐藏状态进行拼接。所述的表达重组策略,将输出的特征添加一维变换成(K,N/K),其中N表示特征维度;然后再对其进行维度交换,变换为(K,N/K);最后将特征的形状变回N维。
在本方案中,通过在分组长短时记忆层中采用分组策略可以降低模型模型复杂度;采用表达重组策略可以恢复因为分组而造成的特征上下文相关性的缺失。
优选地所述的分组长短时记忆层在参数初始化时,将每个LSTM的遗忘门偏差设置为-3,其它参数设置为0。
在本方案中,通过每个LSTM的遗忘门偏差初始化的设置,可以使LSTM更关注临近时刻的上下文关系。
所述的全连接层,用于将长短时记忆层产生的中间特征映射到训练目标。
所述的丢弃层,用于缓解神经网络过拟合问题。
优选地,所述损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210004522.3/2.html,转载请声明来源钻瓜专利网。