[发明专利]一种基于NMF非负矩阵分解的音频分离方法无效
申请号: | 201210541700.2 | 申请日: | 2012-12-13 |
公开(公告)号: | CN103871423A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 王雷 | 申请(专利权)人: | 上海八方视界网络科技有限公司 |
主分类号: | G10L21/028 | 分类号: | G10L21/028;G10L19/032;G10L15/06 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 袁亚军 |
地址: | 200941 上海市宝*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 nmf 矩阵 分解 音频 分离 方法 | ||
1.一种基于NMF非负矩阵分解的音频分离方法,其包括辅助音乐语音区分模块和NMF非负矩阵分解模块,其特征在于:其方法为:
所述的辅助音乐语音区分模块利用机器学习的方法通过提取大量的语音音乐音频的相关音频特征作为训练样本,通过SVM算法进行训练得到识别模型;
所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法,通过对原音频信号矩阵进行迭代分解,直到分解结果达到代价函数与辅助区分模块的要求则停止。
2.根据权利要求1所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述的辅助音乐语音区分模块利用机器学习的方法步骤如下:
(a)、需要采集大量的语音、音乐以及既非语音也非音乐的音频文件作为训练样本,从而得到相应的区分模型;
(b)、提取音频特征中的静音帧率、高过零率帧比率、低能量帧率、谱通量以及和谐度五个音频量化特征构成每个音频的特征向量,作为及其学习训练的输入向量集;
(c)、利用SVM算法对于步骤(b)中所得到的向量集进行建模,得到所需要的用以识别语音与音乐视频的识别模型。
3.根据权利要求1所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法的步骤如下:
(1)、首先,建立NMF非负矩阵分解的基本依据公式;
(2)、而后,依据在盲状态模型构建出符合要求的欧几里得距离代价函数,即判断分解结束的主要条件;
(3)、依据此代价函数与基本函数,会得到用以分解原信号矩阵的迭代公式,并依据迭代公式进行迭代分解;
(4)、当每次迭代完成之后,将利用预先设定的JEcu1门限进行判别,若达到门限则提取两个矩阵的相应特征向量,利用之前得到的语音音乐模型进行是否为语音或者音乐的判断;若判断失败,则继续利用c中所述方法进行迭代分解;若判断成功则在判断其是否达到门限JEcu2,直到达到该门限时,停止迭代过程。
4.根据权利3所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述步骤(1)中,NMF非负矩阵分解的基本依据公式为:
Y=Ys+Ym+V=AsXs+AmXm+V
其中,Y ∈RN×T 为观察信号的幅度谱,A∈ RN×B,X ∈RB×T ,V ∈ RN×T 分别表示Y的基本矩阵、系数矩阵和误差残留矩阵;
上标N,T,B 分别表示频率点数、帧数和基本矩阵所含向量的维数;
A,X 均为非负矩阵,其各元素都大等于0;
下表s与m则代表该矩阵属于语音音频的矩阵和音乐音频的矩阵。
5.根据权利3所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述步骤(2)中,欧几里得距离代价函数定义为:
JEcu=0.5||Y-AsXs+AmXm||F2
6.根据权利3所述的基于NMF非负矩阵分解的音频分离方法,其特征在于:所述步骤(3)中,分解原信号矩阵的迭代公式定义为:
其中,,,,表示梯度下降学习的速率;
在第一次迭代的时,利用某音乐音频的信号矩阵Am与某语音音频的信号矩阵As以及单位矩阵作为AsXs以及AmXm的初始矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海八方视界网络科技有限公司,未经上海八方视界网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210541700.2/1.html,转载请声明来源钻瓜专利网。