[发明专利]音质评估模型的训练方法及装置、音质评估方法及装置在审
| 申请号: | 202310019263.6 | 申请日: | 2023-01-06 |
| 公开(公告)号: | CN116092529A | 公开(公告)日: | 2023-05-09 |
| 发明(设计)人: | 陈联武;张旭;任新蕾;郑羲光;张晨 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
| 主分类号: | G10L25/60 | 分类号: | G10L25/60;G06N3/044;G06N3/0464;G06N3/08 |
| 代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王艳茹;苏银虹 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音质 评估 模型 训练 方法 装置 | ||
本公开关于一种音质评估模型的训练方法及装置、音质评估方法及装置。音质评估模型的训练方法包括:获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的;将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;基于音频样本的音质评估标签和预估音质评估信息,计算损失;基于损失调整音质评估模型的参数。
技术领域
本公开涉及音频处理领域,尤其涉及一种音质评估模型的训练方法及装置、音质评估方法及装置。
背景技术
音乐、长视频、短视频等多媒体数据已经广泛存在于人们的日常生活中。对于提供这些数据和服务的流媒体平台,无论平台的音频算法迭代,还是网络传输服务提供商的资源统筹和排障,都需要一种能够在各种使用场景下评价音频质量的方法。但是,目前的基于信号处理的客观音频质量评估算法,如常用的音频质量的感知评价(PerceptualEvaluation of Audio Quality,缩写为PEAQ)和虚拟语音质量目标听者(Virtual SpeechQuality Objective Listener,缩写为ViSQOL)等,需要同时输入损伤音频和参考音频,由于在很多实际使用场景中无法得到参考音频,因此使用场景相对受限。
发明内容
本公开提供一种音质评估模型的训练方法及装置、音质评估方法及装置,以至少解决相关技术中音频质量评估应用场景单一的问题。
根据本公开实施例的第一方面,提供一种音质评估模型的训练方法,包括:获取音频样本,其中,音频样本是基于至少一种预定损伤类型对对应原始音频进行处理得到的,且每个音频样本具有对应的音质评估标签,音质评估标签是基于音频样本的多个预定评估指标信息得到的;将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息;基于音频样本的音质评估标签和预估音质评估信息,计算损失;基于损失调整音质评估模型的参数。
可选地,音质评估标签通过如下方式得到:基于音频样本和对应的原始音频,得到音频样本的多个预定评估指标信息;将多个预定评估指标信息进行融合,得到音频样本的音质评估标签。
可选地,将多个预定评估指标信息进行融合,得到音频样本的音质评估标签,包括:确定多个预定评估指标信息中每个预定评估指标信息的权重;基于权重,将多个预定评估指标信息进行线性融合,得到音频样本的音质评估标签。
可选地,预定损失类型包括以下至少之一:不同码率的编码方式、不同截止频率的滤波器。
可选地,音频样本通过以下至少一种处理方式得到:通过至少一种码率的编码方式对原始音频进行编码,得到原始音频对应的音频样本;通过至少一种截止频率的滤波器对原始音频进行滤波,得到原始音频对应的音频样本。
可选地,音质评估模型包括至少一层二维卷积层、至少一层双向循环网络层和至少一层全连接层,将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息,包括:将音频样本的音频特征输入至少一层二维卷积层,得到音频样本的损伤信息;将损伤信息输入至少一层双向循环网络层,得到音频样本的融合损伤信息;将融合损伤信息输入至少一层全连接层,得到音频样本的预估音质评估信息。
可选地,将音频样本的音频特征输入音质评估模型,得到音频样本的预估音质评估信息,包括:对音频样本进行短时傅里叶变换,得到音频样本的频谱;将频谱输入至少一个梅尔谱滤波器,得到音频样本的梅尔频谱;将音频样本的梅尔频谱输入音质评估模型,得到音频样本的预估音质评估信息。
可选地,基于音频样本的音质评估标签和预估音质评估信息,计算损失,包括:获取音频样本的音质评估标签和预估音质评估信息的均方误差,作为损失。
可选地,基于损失调整音质评估模型的参数,包括:通过最小化均方误差,调整音质评估模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310019263.6/2.html,转载请声明来源钻瓜专利网。





