[发明专利]节拍重拍联合检测模型的训练及节拍重拍联合检测方法在审
申请号: | 202111465767.8 | 申请日: | 2021-12-03 |
公开(公告)号: | CN114154574A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 范欣悦;张旭;郑羲光;张晨 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G10L25/30;G10L25/51 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 苏银虹;王艳茹 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 节拍 重拍 联合 检测 模型 训练 方法 | ||
本公开关于一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法。训练方法包括:获取训练样本集,其中,训练样本集中包括多个样本音频信号和每个样本音频信号对应的节拍标注信息和重拍标注信息;将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率;将样本音频信号的音频特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率;基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值;根据目标损失函数的值,对节拍检测网络和重拍检测网络进行联合训练,得到训练完成的节拍重拍联合检测模型。
技术领域
本公开涉及音频处理领域,尤其涉及一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法。
背景技术
在音乐中,节拍(beat)是音乐中表示固定单位时值和强弱规律的组织形式,它定义了音乐作品的韵律结构,而节奏以重拍和非重拍的重复序列为特征,重拍(downbeat)是指音乐中的强拍。目前已经有相当多的研究集中在寻找音乐的节拍上,但对追踪重拍(downbeat)所做的努力却少得多。在西方音乐中,重拍通常和和弦变化或和声变化相吻合,因此节拍重拍联合检测对音乐分析、音乐结构划、自动配乐甚至是一些创意卡点视频制作,节拍主导的灯光秀等实际应用场景中都是至关重要的。
目前,基于深度学习的节拍检测算法解决了部分传统算法的问题,不需要估计音符起始点的位置,依赖于更少的先验知识,并且在一度程度上提升重拍检测的准确度。但是由于音乐种类众多,各类音乐的重拍特征都不一致,因此重拍的检测正确率仍然要远远小于节拍检测的正确率,造成重拍的检测正确率仍然较低。
发明内容
本公开提供一种节拍重拍联合检测模型的训练及节拍重拍联合检测方法,以至少解决相关技术重拍检测的正确率低的问题。
根据本公开实施例的第一方面,提供一种节拍重拍联合检测模型的训练方法,节拍重拍联合检测模型包括节拍检测网络和重拍检测网络,训练方法包括:获取训练样本集,其中,训练样本集中包括多个样本音频信号和每个样本音频信号对应的节拍标注信息和重拍标注信息;将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率,其中,节拍点预测概率表示样本音频信号中每帧数据是节拍点的预测概率;将样本音频信号的音频特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率,其中,重拍点预测概率表示样本音频信号中每帧数据是重拍点的预测概率;基于节拍点预测概率、重拍点预测概率、对应的节拍标注信息和重拍标注信息,计算目标损失函数的值;根据目标损失函数的值,对节拍检测网络和重拍检测网络进行联合训练,得到训练完成的节拍重拍联合检测模型。
可选地,将样本音频信号的音频特征输入节拍检测网络,得到样本音频信号中每帧数据的节拍点预测概率,包括:将样本音频信号的音频特征输入节拍检测网络,得到节拍检测网络的至少一个中间层输出的全局特征以及样本音频信号中每帧数据的节拍点预测概率;其中,将样本音频信号的音频特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率,包括:将样本音频信号的音频特征和全局特征输入到重拍检测网络,得到样本音频信号中每帧数据的重拍点预测概率。
可选地,将样本音频信号的音频特征和全局特征输入到重拍检测网络,包括:将样本音频信号的音频特征输入到重拍检测网络的输入层;针对重拍检测网络的至少一个中间层的每个中间层,将当前中间层输出的第一全局特征和节拍检测网络中与当前中间层对应的中间层输出的第二全局特征进行拼接,得到第一拼接全局特征,并将第一拼接全局特征输入到当前中间层的下一中间层。
可选地,节拍重拍联合检测模型还包括预先训练好的风格分类网络,风格分类网络用于获取样本音频信号的音乐类型;其中,将样本音频信号的音频特征输入节拍检测网络,包括:将样本音频信号的音频特征输入到风格分类网络,得到风格分类网络中的至少一个中间层输出的第一中间特征;将样本音频信号的音频特征和第一中间特征输入到节拍检测网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111465767.8/2.html,转载请声明来源钻瓜专利网。