[发明专利]基于卷积神经网络的单通道混合语音时域分离方法有效

专利信息
申请号: 201710084957.2 申请日: 2017-02-17
公开(公告)号: CN106847302B 公开(公告)日: 2020-04-14
发明(设计)人: 张鹏;马晓红 申请(专利权)人: 大连理工大学
主分类号: G10L21/0272 分类号: G10L21/0272;G10L21/0224;G10L25/30
代理公司: 大连星海专利事务所有限公司 21208 代理人: 王树本
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种单通道混合语音的时域分离方法,一种基于卷积神经网络的单通道混合语音的时域分离方法,包括以下步骤:(1)建立用于训练的语音数据组,(2)对语音数据进行预处理,(3)获得混合的语音数据,(4)构造神经网络结构,(5)利用整理好的数据,对神经网络进行监督式训练,(6)利用训练好的神经网络进行分离测试。本发明是以时域语音信号作为卷积神经网络的输入和输出,将单通道的混合语音分离开来,从而得到两路源信号的估计。该方法不需要处理相位恢复的问题,提高了单通道语音的分离质量。
搜索关键词: 基于 卷积 神经网络 通道 混合 语音 时域 分离 方法
【主权项】:
基于卷积神经网络的单通道混合语音时域分离方法,其特征在于包括以下步骤:步骤1、建立用于训练的语音数据组,从一个标准数据库,例如,TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;步骤2、对语音数据进行预处理,首先利用公式(1)将原始的语音数据归一化到[‑1,1]的范围内,yi=simax(abs(si)),i=1,2---(1)]]>其中,si表示第i路源信号,abs(si)表示对si中的每一个元素取绝对值,max(·)表示取最大值,yi表示归一化后的第i路源信号,然后利用公式(2)将时域语音信号进行分帧处理,帧长为N=1024,帧间的重叠为H,这里H=N/2,zi={y(1+(N‑H)*(i‑1)),...,y((N‑H)*(i‑1)+N)}   (2)其中,zi表示第i帧数据,y表示归一化后的数据;步骤3,获得混合的语音数据,这里通过循环移位混合的方法扩大混合语音数据的数量,x=Φk=0W-1(Ψ(y1,k·τ)+y2)---(3)]]>其中,x表示循环移位后的输出,表示将W个向量串连起来,W等于L/τ,L表示原始语音信号s的长度,τ表示循环移位的点数长度,Ψ表示循环移位算子,通过公式(4)进行描述,Ψ(y,β)i=y(i+β)1≤i≤L-βy(L-β+i)L-β<i≤L---(4)]]>式中,y表示输入,β表示循环移位的点数,L为y的长度;步骤4、构造神经网络结构,构建一个适用于分离的卷积神经网络Convolutional Neural Network,CNN,这里所使用的卷积层Convolutional Layer是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1、2、3,最大池化层1、2、3,全连接层1、2及线性整流单元Rectified Linear Unit,ReLU层1、2、3。每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1;最大池化Max pooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性的输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标target之间的误差;步骤5、利用整理好的数据,即单路混合语音和源语音的对应数据,对神经网络进行监督式训练,采用批量随机梯度下降法Stochastic Gradient Descent,SGD对神经网络进行优化训练,首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源语音数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层的输出利用公式(5)进行计算,x=a(Σi=0M-1z(i)*m(i)+b)---(5)]]>式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,a(r)=0r<0rr≥0---(6)]]>式中,r表示线性整流单元的输入,最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计后1024点代表源信号2的估计通过计算output和target之间的欧式距离作为神经网络该次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次的误差的差值小于一个较小的阈值(如0.1)时可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,J(W,b)=12(s^-s)2---(7)]]>式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,是神经网络对两路源信号的估计,即output,s=[s1,s2]是两路源信号的真实值,即target,得到神经网络该次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度和▿W=∂J(W,b)∂W---(8)]]>▿b=∂J(W,b)∂b---(9)]]>计算梯度的更新值,DWi=μ·DWi-1+α·▿W---(10)]]>Dbi=μ·Dbi-1+α·▿b---(11)]]>式中,和分别表示第i次和第i‑1次迭代时权值参数矩阵W的更新值,和分别代表第i次和第i‑1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,Wi=Wi-1-DWi---(12)]]>bi=bi-1-Dbi---(13)]]>其中Wi和Wi‑1分别表示第i次和第i‑1次迭代时权值参数矩阵,bi和bi‑1分别代表第i次和第i‑1次迭代时偏置矩阵。神经网络参数更新后,在新的参数下执行前向传播子步骤(a);步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语音信号进行分离测试,将待分离的单通道混合语音输入到神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896(7/8);然后,在每一帧上加汉明窗Hamming window;再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);(b)、由子步骤(a)得到的待分离的混合信号每一帧对应的两路源信号进行估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,s^i(t)=1TΣj=0Ts^i(t,j)---(14)]]>式中,代表输出中第j帧包含t点的帧,T代表包含时域点t的帧的个数,代表最终得到的估计值,当每个点的重叠都处理完后,将相邻帧依次首尾相接,从而获得了源信号的估计至此,分离完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710084957.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top