[发明专利]一种乐谱识别方法在审
申请号: | 202111388016.0 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114092946A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 冯欣;戴培元;王思平;龙建武;兰利彬;薛明龙 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06K9/62;G06N3/04;G06N3/08;G06V10/764 |
代理公司: | 成都东唐智宏专利代理事务所(普通合伙) 51261 | 代理人: | 罗言刚 |
地址: | 400054 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 乐谱 识别 方法 | ||
本发明公开了一种乐谱识别方法,涉及乐谱识别技术领域。本发明首先将一幅乐谱图像通过目标识别分割为通过树状结构组织的行、小节、音序;而后使用多标签分类方法处理对音序进行识别,最终通过一定的逻辑处理将提取到的树状结构组合成数字乐谱文件并输出,音序的概念:每一声部的每一节拍内音符和修饰符的集合。本方法流程有效的避免了使用同一网络而无法忽视的类间数据量差距,从而均衡各个类的样本,使每个网络都有其特异性;与基于数字图像处理的光学乐谱识别相比,使用本发明方法流程中目标检测网络进行宏观块分割,能够有效地提升对于小节间信息模糊不清,统计学边界不分明的情况,从而增强系统的健壮性。
技术领域
本发明属于乐谱识别技术领域,特别是涉及一种乐谱识别方法。
背景技术
早期的光学乐谱识别技术只能使用图像的像素特征来进行分步骤识别,并对识别出的各个部分信息进行组合。对于一张乐谱图像而言,包括图像预处理、谱线定位、谱线删除、音符符头识别、音符符干识别、音符符尾识别、音符组合、特殊标记识别等。在传统的音符识别中,符头、符干、符尾并不是一个整体,而是按顺序识别。传统方法大部分基于数字图像技术,是一种基于阈值的规则检测方法。对于一些在阈值附近摇摆不定的符号如升降号、附点音符等提取效果不佳。基于光学的传统算法将同一音符上修饰符与音符本身分开,导致难以鉴别符号归属,故其精度不高,鲁棒性差。
为了解决该问题,在2017年后,已经有学者开始使用深度学习的方法研究OMR技术。主要分为两种模式,一种使用传统方法进行音符提取,之后将音符送入人工神经网络进行特征提取分类;另一种全部基于人工神经网络进行处理,即将一整幅乐谱图像输入网络,网络直接输出对应的位置、时值、音高向量。基于深度学习的OMR技术相较于传统的图像处理技术有了较大的准确性提升,且模型的鲁棒性高,易于部署到边缘设备,从而实现端到端的应用。其算法包括基于深度学习的乐谱元素识别,针对乐谱基本元素的检测,基于端到端的深度学习算法。
本发明提出了一种基于多阶段深度学习的乐谱识别与检测系统。该系统将一幅完整的乐谱图像输入网络,在经过基于YOLOV4的多粒度的目标检测网络与基于VGG16的多标签分类时序音符识别网络,得到基于时序、小节的结构化乐谱数据。
发明内容
本发明的目的在于提供一种乐谱识别方法,以解决现有的问题:光学的传统算法将同一音符上修饰符与音符本身分开,导致难以鉴别符号归属,故其精度不高,鲁棒性差。
为解决上述技术问题,本发明是通过以下技术方案实现的:
一种乐谱识别方法,其特征在于:所述方法包括以下步骤:
S1.建立元信息、行、小节、音序数据集;
S2.建立YOLOV4目标检测网络;
所述S2包括以下步骤:
S21.设置网络输入规模并进行图像填充;
S22.设置骨干网络;
S23.设计建立YOLOV4目标检测网络的网络构架;
S24.引入CIOU损失函数;
S3.基于VGG16多标签分类构建时序音符识别网络;
所述S3包括以下步骤:
S31.提取音符时序特征,用以将时序转换为音符及其时值;
S32.将音符进行多标签分类;
S33.基于多标签分类对时序音符识别网络进行结构设计;
S34.设置时序音符识别网络的损失函数。
进一步地:S1中,主要包括:
采用labelimg进行数据标注;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111388016.0/2.html,转载请声明来源钻瓜专利网。