[发明专利]音乐转录模型的训练方法、音乐转录方法以及对应的装置在审
申请号: | 202010779114.6 | 申请日: | 2020-08-05 |
公开(公告)号: | CN111898753A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 孔秋强;王雨轩 | 申请(专利权)人: | 字节跳动有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音乐 转录 模型 训练 方法 以及 对应 装置 | ||
本公开实施例公开了一种音乐转录模型的训练方法、音乐转录方法以及对应的装置,该方法包括:获取训练数据,训练数据中的每个训练样本包括样本音频的音频特征向量、样本音频对应的样本乐谱,以及样本音频中各帧所对应的第一样本时间特征值和第二样本时间特征值;基于训练数据对初始神经网络模型进行训练,直至模型至对应的总损失函数收敛,将训练结束时的模型确定为音乐转录模型;其中,模型的输入为样本音频的音频特征向量,模型的输出包括样本音频中各帧所对应的第一预测时间特征值、第二预测时间特征值、以及预测乐谱。本公开实施例提供的训练方法,可提高音乐转录的准确性,使得转录得到的乐谱更为接近音频的真实表达,适用性高。
技术领域
本公开涉及计算机技术领域,尤其涉及一种音乐转录模型的训练方法、音乐转录方法以及对应的装置。
背景技术
自动音乐转录(Automatic Music Transcription,AMT)可将原始的音乐音频翻译为符号标记,主要包含了音乐音频中各音符的起始时间、结束时间等,在音乐教学、音乐欣赏以及乐理分析等方面具有广泛的应用。
但是传统的音乐转录方法主要通过预测每个音频各帧中是否存在音符的方式进行转录,准确率较低。由于音乐作品中的音符较多以及旋律变化多样,因此在传统的音乐转录方法中,帧和音符的相对性往往存在偏差,从而导致得到的乐谱往往和音乐音频的真实音乐表达存在差别。
因此,如何进一步提升音乐转录的准确性成为亟需解决的问题。
发明内容
本公开实施例提供一种音乐转录模型的训练方法、音乐转录方法以及对应的装置,提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开实施例提供一种音乐转录模型的训练方法,该方法包括:
获取训练数据,上述训练数据中的每个训练样本包括样本音频的音频特征向量、上述样本音频对应的样本乐谱,以及上述样本音频中各帧所对应的第一样本时间特征值和第二样本时间特征值,其中,对于任一帧,上述第一样本时间特征值表征了该帧的中间时间点与该帧最近的音符起始时间点之间的时间差,上述第二样本时间特征值表征了该帧的中间时间点与该帧最近的音符结束时间点之间的时间差;
基于上述训练数据对初始神经网络模型进行训练,直至模型至对应的总损失函数收敛,将训练结束时的模型确定为音乐转录模型;
其中,模型的输入为上述样本音频的音频特征向量,模型的输出包括上述样本音频中各帧所对应的上述第一预测时间特征值、第二预测时间特征值、以及预测乐谱;
上述总损失函数包括第一训练损失函数、第二训练损失函数和第三训练损失函数,上述第一训练损失函数的值表征了上述样本音频对应的样本乐谱与上述预测乐谱之间的差异,上述第二训练损失的值表征了上述样本音频对应的第一样本时间特征值与上述第一预测时间特征值之间的差异,上述第三训练损失函数的值表征了上述样本音频对应的第二样本时间特征值与上述第二预测时间特征值之间的差异。
第二方面,本公开实施例提供了一种音乐转录方法,该方法包括:
获取待处理音频,确定上述待处理音频对应的音频特征向量;
将上述待处理音频的音频特征向量输入音乐转录模型,基于上述音乐转录模型的输出结果得到上述待处理音频对应的乐谱;
其中,上述音乐转录模型是通过本公开实施例提供的音乐转录模型的训练方法训练得到的。
第三方面,本公开实施例提供了一种音乐转录模型的训练装置,该装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于字节跳动有限公司,未经字节跳动有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010779114.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气动式数控喷丸机
- 下一篇:一种资金撮合方法、装置、服务器及存储介质