[发明专利]一种基于残差注意力Transformer的光学乐谱图像识别方法在审
| 申请号: | 202111522531.3 | 申请日: | 2021-12-14 |
| 公开(公告)号: | CN114359946A | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 温翠红;朱龙娇;刘嘉怡 | 申请(专利权)人: | 湖南师范大学 |
| 主分类号: | G06V30/42 | 分类号: | G06V30/42;G06V30/413;G06V10/82;G06V10/764;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 410081 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 transformer 光学 乐谱 图像 识别 方法 | ||
本发明提出了一种基于残差注意力Transformer的神经网络方法用于光学乐谱图像识别。该识别过程的步骤为:通过建立基于残差注意力Transformer的乐谱图像识别模型,提取乐谱图像中的音符序列特征;根据捕获的音符序列特征,将乐谱图像中的音符序列数字化。本发明采用预训练的浅层残差卷积神经网络初始化参数,并提取音符基本特征,接着利用循环神经网络对获得的音符特征和标签序列分别进行编码和解码,提取音符序列的关联信息;而基于残差注意力Transformer结构,对重点关注区域加强关注,抑制无关区域的关注,进一步提取音符序列上下文特征;同时,当训练模型时,使用并行计算的统一掩码语言模型,有效地降低了音符序列错误率,缩短了模型训练时间。
技术领域
本发明涉及乐谱图像数字化技术领域,具体涉及一种基于残差注意力Transformer的光学乐谱图像识别方法。
背景技术
随着计算机技术的飞速发展,文本、图像、音频等内容正逐步被转化为数字化信息资源保存、开发利用和传播,其中,纸介质乐谱的数字化对于数字音乐图书馆、计算机音乐辅助教学和音乐信息检索的发展十分重要。纸介质乐谱的数字化就是利用计算机将纸质乐谱内容转换为数字化的音乐格式文件(如MIDI文件)——即光学乐谱识别技术。通过光学乐谱识别技术将乐谱数字化后存储在计算机中,不仅存贮空间小,传播范围广、速度快,而且相比纸质乐谱更容易长时间完好保存。另外,数字化乐谱使得传统手工方式的乐曲创作、修改、演奏、传播变得高级,为人类的音乐活动带来了生产方式的根本变革。再者,用户在使用数字化乐谱时不仅可以通过关键字(如曲名、作者、发表年代等信息)进行文本检索,还可以基于音乐内容(如某段旋律)进行检索,从而查询到想要的乐曲。这些功能的实现依赖于不断进步的光学乐谱识别技术,然而,目前光学乐谱识别准确率还较低。因此,光学乐谱识别技术的提高仍然是一项值得研究的课题。
传统光学乐谱识别的主要步骤包括:图像预处理、谱线检测与删除、原始音符对象(如符头、符干、符尾、谱号、休止符等)识别、特征音符对象重建、音符语义数字化编码。在这些步骤中有基于音符几何特征、基于音符先验知识或基于模板匹配等方法,为了实现这些方法,一方面需要专业音乐人的音乐知识和复杂的算法,因此这限制了研究人员类别;另一方面,这五个步骤中的每一步都难以达到很高的精度,并且每一步骤产生的一定数量的误差在后续的步骤中可能会呈指数放大。然而,机器学习的兴起使得光学乐谱识别简单化。研究者不需要音乐专业知识就可以手工提取音符特征,然后采用隐马尔科夫模型、支持向量机和最小K邻近等机器学习模型识别出音符,音符识别准确率有了显著提高。但是,机器学习类方法仍需要人工提取音符特征,耗时耗力,并且当人工提取的音符特征不足或不够准确,对准确性有很大的影响。
近些年来,以深度卷积神经网络和循环神经网络为代表的监督学习在图像分类、目标检测、机器翻译等任务中发挥了显著作用。虽然卷积神经网络能有效地捕获单个音符的丰富特征,但并不能提取到丰富的音符序列特征,而循环神经网络虽然可以解决音符序列上下文信息提取不足的问题,却存在音符序列过长导致梯度消失的问题。再者,在使用连接时序分类损失函数训练模型时,其串行计算方式会导致训练时间过长且模型难以拟合。基于现有的光学乐谱识别方案效率低,且音符序列识别准确率还有待提升,因此,本发明提出了一种基于残差注意力Transformer的光学乐谱图像识别方法解决上述问题。
发明内容
本发明的目的在于提出一种基于残差注意力Transformer的光学乐谱图像识别方法,以解决现有的光学乐谱图像识别技术对音符序列识别准确率不高且效率低的问题。
本发明提供的一种基于残差注意力Transformer的光学乐谱图像识别方法,包括以下内容:
S1:获取待识别的光学乐谱图像并预处理;
S2:通过预先训练好的基于残差注意力Transformer的光学乐谱图像识别模型,提取所述待识别乐谱图像中的音符序列特征;
S3:根据所述音符序列特征,对所述待识别的光学乐谱图像内容进行分析与识别,得到数字化音符序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南师范大学,未经湖南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111522531.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于互联网的云会计监管装置
- 下一篇:分类装置、冰箱、分类方法和存储介质
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法





