[发明专利]一种基于深度学习的音频自动化标注方法有效
申请号: | 201810050808.9 | 申请日: | 2018-01-18 |
公开(公告)号: | CN108053836B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 尹学渊;江天宇 | 申请(专利权)人: | 成都嗨翻屋科技有限公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/48;G10L25/03;G06F16/61;G06F16/683 |
代理公司: | 四川力久律师事务所 51221 | 代理人: | 刘童笛 |
地址: | 610000 四川省成都市中国(四川)自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 音频 自动化 标注 方法 | ||
本发明涉及一种音频标注方法,特别涉及一种基于深度学习的音频自动化标注方法。一种基于深度学习的音频自动化标注方法,包括以下实现步骤:输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。本发明利用卷积神经网络训练音频深度学习网络,实现音频自动化标注方法,相比于传统的人工标注方式,提高了标注准确率,提升了音频标注效率。
技术领域
本发明涉及一种音频标注方法,特别涉及一种基于深度学习的音频自动化标注方法。
背景技术
音频的结构化表示是MIR(Music Information Retrieval音乐信息检索)中的重要问题,它主要是从音频信号本身提取特征,实现对音频的检索。传统的依靠专家只是提取音色、旋律、节奏的方式不能够完整描绘音频细节,无法实现自动标注,准确率较低。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种利用卷积神经网络训练音频深度学习网络,构建深度学习模型,并利用最大投票算法实现音频自动化标注方法。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于深度学习的音频自动化标注方法,包括以下实现步骤:
S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;
S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;
S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;
S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。
作为本发明实施例的优选,所述原始音频文件为现有曲库音频文件。
作为本发明实施例的优选,步骤S1和S3所述的音频预处理的实现步骤为:
S100、去除音频文件音频头部和尾部静音段,得到初始音频文件;
S200、将所述初始音频文件进行分帧、加窗;
S300、对于所述初始音频文件分帧后的每一帧进行快速傅里叶变换,然后按照时间t顺序拼接,得到二维矩阵;
S400、将所述二维矩阵的频率轴刻转换为梅尔刻度;
S500、将所述二维矩阵中的能量值取对数,并归一化到分贝刻度,通过取整,负数值变为0,得到梅尔语谱图;
S600、将所述梅尔语谱图切片,得到若干语图谱片段。
作为本发明实施例的优选,步骤S200中,所述初始音频文件进行分帧的过程为:对于采样率kHz的所述初始音频文件,设置其帧大小为a,帧移为b,将所述初始音频文件分割为帧。
作为本发明实施例的优选,步骤S600中将所述梅尔语谱图切片,得到若干语图谱片段的过程为:所述梅尔语谱图为长为T,宽为F的二维矩阵,设置切片大小为S,得到在T方向上将二维矩阵切成T/S个矩阵,并舍弃长度小于S的矩阵。
作为本发明实施例的优选,步骤S2的实现步骤为:
S21、将所述原始语谱图片段进行卷积、规则化和最大池化;
S22、在时域上求得全局时域最大值、全局时域均值,并输入全连接层,对卷积神经网络输出值进行汇总;
S23、将输出值输入Dropout层,设置参数为0.5;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都嗨翻屋科技有限公司,未经成都嗨翻屋科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810050808.9/2.html,转载请声明来源钻瓜专利网。