[发明专利]一种乐谱识别方法在审
申请号: | 202111388016.0 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114092946A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 冯欣;戴培元;王思平;龙建武;兰利彬;薛明龙 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06K9/62;G06N3/04;G06N3/08;G06V10/764 |
代理公司: | 成都东唐智宏专利代理事务所(普通合伙) 51261 | 代理人: | 罗言刚 |
地址: | 400054 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 乐谱 识别 方法 | ||
1.一种乐谱识别方法,其特征在于:所述方法包括以下步骤:
S1.建立元信息、行、小节、音序数据集;
S2.建立YOLOV4目标检测网络;
所述S2包括以下步骤:
S21.设置网络输入规模并进行图像填充;
S22.设置骨干网络;
S23.设计建立YOLOV4目标检测网络的网络构架;
S24.引入CIOU损失函数;
S3.基于VGG16多标签分类构建时序音符识别网络;
所述S3包括以下步骤:
S31.提取音符时序特征,用以将时序转换为音符及其时值;
S32.将音符进行多标签分类;
S33.基于多标签分类对时序音符识别网络进行结构设计;
S34.设置时序音符识别网络的损失函数。
2.根据权利要求1所述的一种乐谱识别方法,其特征在于:S1中,主要包括:
采用labelimg进行数据标注;
在乐谱中标注元信息,并生成元信息数据集,所述元信息包括有:标题、作者、整体调号、拍速;
在乐谱中标注行,并生成行数据集;
在行中标注小节,并生成小节数据集;
在小节中标注音序,并生成音序数据集。
3.根据权利要求1所述的一种乐谱识别方法,其特征在于:S21中,主要包括:
网络输入规模图像尺寸为416*416;
对图像进行等比例缩放,再对图像进行水平填充;
所述等比例缩放的缩放因子rf的计算公式如下:
rf=h/416
其中,h为竖直像素个数;
所述水平填充后的像素宽度w'为:
w'=(rf-1)*w/2
其中,w为图像的水平像素个数。
4.根据权利要求1所述的一种乐谱识别方法,其特征在于:S22中,所述骨干网络为采用CSPDarknet53作为骨干网络;
且:
Darknet53中,每个残差结构块是由一次下采样和多次残差结构的叠加组成的;
CSP作出以下两点改动:
将激活函数LeakyReLu函数变为Mish激活函数;对残差结构块的结构基于原始结构进行拆分,其中主干部分继续进行原来的残差块堆叠;另一部分经处理后直接连接入最后。
5.根据权利要求1所述的一种乐谱识别方法,其特征在于:S23中,包括以下步骤:
设置YOLOV4目标检测网络的目标检测类别;
设置YOLOV4目标检测网络的特征层,所述特征层为三个,分别位于中间层、中下层、底层,三个所述特征层的形状分别是(76,76,256),(38,38,512),(19,19,1024),分别对应了小目标、中等目标、大目标;
设置YOLOV4目标检测网络的特征层的输出层,所述输出层的尺寸分别为(19,19,72),(38,38,72),(76,76,72)。
6.根据权利要求1所述的一种乐谱识别方法,其特征在于:S24中,所述CIOU损失函数的公式如下:
CIoU=IoU-ρ2(b,bgt)/c2-αv;
其中,ρ2(b,bgt)分别代表了预测框和真实框中心点的欧式距离;c代表的是能够同时包含预测框和真实框的最小区域的对角线距离;
其中,
α=v/(1-IoU+v);
最终计算在Loss中的LossCIoU为:
LossCIoU=1-CIoU。
7.根据权利要求1所述的一种乐谱识别方法,其特征在于:S33中,主要包括:
使用CNN网络作为模型;
采用VGG16网络进行卷积提取信息;
对VGG16网络进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111388016.0/1.html,转载请声明来源钻瓜专利网。