[发明专利]音质评估模型的训练方法及装置、音质评估方法及装置在审
| 申请号: | 202310019263.6 | 申请日: | 2023-01-06 |
| 公开(公告)号: | CN116092529A | 公开(公告)日: | 2023-05-09 |
| 发明(设计)人: | 陈联武;张旭;任新蕾;郑羲光;张晨 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
| 主分类号: | G10L25/60 | 分类号: | G10L25/60;G06N3/044;G06N3/0464;G06N3/08 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王艳茹;苏银虹 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音质 评估 模型 训练 方法 装置 | ||
1.一种音质评估模型的训练方法,其特征在于,包括:
获取音频样本,其中,所述音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,所述音质评估标签是基于音频样本的多个预定评估指标信息得到的;
将音频样本的音频特征输入所述音质评估模型,得到所述音频样本的预估音质评估信息;
基于所述音频样本的音质评估标签和预估音质评估信息,计算损失;
基于所述损失调整所述音质评估模型的参数。
2.如权利要求1所述的训练方法,其特征在于,所述音质评估标签通过如下方式得到:
基于音频样本和对应的原始音频,得到所述音频样本的多个预定评估指标信息;
将所述多个预定评估指标信息进行融合,得到所述音频样本的音质评估标签。
3.如权利要求2所述的训练方法,其特征在于,所述将所述多个预定评估指标信息进行融合,得到所述音频样本的音质评估标签,包括:
确定所述多个预定评估指标信息中每个预定评估指标信息的权重;
基于所述权重,将所述多个预定评估指标信息进行线性融合,得到所述音频样本的音质评估标签。
4.如权利要求1所述的训练方法,其特征在于,所述预定损失类型包括以下至少之一:不同码率的编码方式、不同截止频率的滤波器。
5.如权利要求2所述的训练方法,其特征在于,所述音频样本通过以下至少一种处理方式得到:
通过至少一种码率的编码方式对与所述音频样本对应的原始音频进行编码,得到所述音频样本;
通过至少一种截止频率的滤波器对与所述音频样本对应的原始音频进行滤波,得到所述音频样本。
6.如权利要求1所述的训练方法,其特征在于,所述音质评估模型包括至少一层二维卷积层、至少一层双向循环网络层和至少一层全连接层,
所述将音频样本的音频特征输入所述音质评估模型,得到所述音频样本的预估音质评估信息,包括:
将所述音频样本的音频特征输入所述至少一层二维卷积层,得到所述音频样本的损伤信息;
将所述损伤信息输入所述至少一层双向循环网络层,得到所述音频样本的融合损伤信息;
将所述融合损伤信息输入所述至少一层全连接层,得到所述音频样本的预估音质评估信息。
7.如权利要求1所述的训练方法,其特征在于,所述将音频样本的音频特征输入所述音质评估模型,得到所述音频样本的预估音质评估信息,包括:
对所述音频样本进行短时傅里叶变换,得到所述音频样本的频谱;
将所述频谱输入至少一个梅尔谱滤波器,得到所述音频样本的梅尔频谱;
将音频样本的梅尔频谱输入所述音质评估模型,得到所述音频样本的预估音质评估信息。
8.如权利要求1所述的训练方法,其特征在于,所述基于所述音频样本的音质评估标签和预估音质评估信息,计算损失,包括:
获取所述音频样本的音质评估标签和预估音质评估信息的均方误差,作为所述损失。
9.如权利要求8所述的训练方法,其特征在于,所述基于所述损失调整所述音质评估模型的参数,包括:
通过最小化所述均方误差,调整所述音质评估模型的参数。
10.一种音质评估方法,其特征在于,包括:
获取待评估音频;
将所述待评估音频的音频特征输入音质评估模型,得到所述待评估音频的音质评估信息,
其中,所述音质评估模型是通过如权利要求1至9中的任意一项所述的训练方法训练得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310019263.6/1.html,转载请声明来源钻瓜专利网。





