[发明专利]基于听觉特性的音乐适用场景自动分类方法在审
申请号: | 201810279067.1 | 申请日: | 2018-03-31 |
公开(公告)号: | CN108520757A | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 韦岗;李增;马碧云;梁舒 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/24;G10L25/30;G10L25/45 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 听觉特性 音乐 等长 窗口系数 倒谱系数 滤波系数 适用场景 自动分类 数字音频信号处理 滤波器 卷积神经网络 音频信号特征 非线性响应 动态可变 感知响度 机器学习 滤波处理 人耳听觉 提取特征 小波变换 窗处理 分类 准确率 切片 学习 | ||
1.基于听觉特性的音乐适用场合自动分类方法,其特征在于包括如下步骤:首先,将音乐进行切片操作,把音乐切成等长时间音乐,得到等长时间音乐;然后,利用基于小波变换的听觉特性滤波器对等长时间音乐进行滤波处理,提取特征得到滤波系数;接着,再把滤波系数经过动态可变长度窗处理得到窗口系数;然后把窗口系数再经过非线性响应变换,换成感知响度系数便能得到听觉特性倒谱系数;最后,对上述听觉特性倒谱系数用基于听觉特性的卷积神经网络学习分类。
2.根据权利要求1所述的基于听觉特性的音乐适用场合自动分类方法,其特征在于:听觉特性倒谱系数的提取过程把听觉特性滤波器、动态可变长度窗、非线性响度变换结合在一起,模拟了音频信号在人耳传播的过程。
3.根据权利要求1所述的基于听觉特性的音乐适用场合自动分类方法,其特征在于:基于听觉特性的卷积神经网络的卷积核不再全局共享,而在符合人耳听觉特性的各个频域区域内共享卷积核,从而完成时频特性中各个频域分量差异性的识别;各个频域区域内的卷积核只负责学习该频域区域的特征,因此能学习到更多细节特征,使分类更准确,由此克服卷积神经网络无法识别出时频特性中各个频域具有的差异性的缺陷。
4.根据权利要求1所述的基于听觉特性的音乐适用场景自动分类方法,其特征在于通过音频信号特征提取模块和分类识别模块实现;
所述的音频信号特征提取模块用于提取音频信号的听觉特性倒谱系数,主要采用基于小波变换的听觉特性滤波器方法,具体包括:首先对输入的音频进行切割,得到等长的音频信号;然后利用基于小波变换的听觉特性滤波器对等长的音频信号进行特征提取,得到滤波系数;接着动态可变长度窗处理对滤波系数进行处理,得到窗口系数;然后把窗口系数再经过非线性响应变换,变换成感知响度系数便能得到听觉特性倒谱系数。
5.根据权利要求4所述的基于听觉特性的音乐适用场景自动分类方法,其特征在于所述音频信号特征提取模块的具体实现步骤如下:
步骤1:音频信号预处理,包括以下步骤:
1.1把音乐信号切成等长音频信号;
1.2给步骤1.1所获得的等长音频信号加上高斯白噪声,用来提高算法的鲁棒性和抗干扰能力;
步骤2:时频变换提取听觉特性倒谱系数,包括以下步骤:
2.1 利用基于小波变换的听觉特性滤波器对步骤1.2所获得的音频信号进行特征提取时频特征,得到滤波后的滤波系数;
2.2 利用动态可变长度窗处理步骤2.1得到的滤波系数,得到窗口系数;
2.3 利用非线性响应变换,把步骤2.2的滤波系数转换成感知响度,得到感知响度系数;
步骤3:听觉特性倒谱系数的保存,包括以下步骤:
3.1 直接保存步骤2.3得到的听觉特性倒谱系数,同时保留精度。
6.根据权利要求4所述的基于听觉特性的音乐适用场景自动分类方法,其特征在于所述分类识别模块用于对音频信号分类识别处理,采用基于听觉特性的卷积神经网络的方法,具体为:首先对输入的听觉特性倒谱系数和标签就行随机打乱,并用多队列去并行读取,加快数据的读入;然后利用基于听觉特性的卷积代替传统卷积,从而完成网络的定义;接着利用误差反向传播来训练好定义好的基于听觉特性的卷积神经网络,从而完成训练;最后把需要预测分类的音乐信号的听觉特性倒谱系数传入基于听觉特性的卷积神经网络,就可以完成音频信号分类工作。
7.根据权利要求6所述的基于听觉特性的音乐适用场景自动分类方法,其特征在于音频信号分类识别处理的具体实现步骤如下:
步骤1: 利用多队列加速输入操作,并对输入进行随机打乱,完成网络输入功能;
步骤2:利用基于听觉特性的卷积代替传统卷积,完成网络的定义;
步骤3:利用误差方向传播,训练好卷积基于听觉特性的卷积神经网络,完成网络训练;
步骤4:把需要预测或分类的音乐信号的听觉特性倒谱系数传入基于听觉特性的卷积神经网络,完成分类,得到输入的音乐信号的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810279067.1/1.html,转载请声明来源钻瓜专利网。