[发明专利]一种基于临界频带的双耳语音分离方法在审
申请号: | 201710479139.2 | 申请日: | 2017-06-22 |
公开(公告)号: | CN107346664A | 公开(公告)日: | 2017-11-14 |
发明(设计)人: | 谈雅文;汤一彬;陈秉岩;高远 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | G10L21/0308 | 分类号: | G10L21/0308 |
代理公司: | 常州市科谊专利代理事务所32225 | 代理人: | 孙彬 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 临界 频带 耳语 音分 方法 | ||
1.一种基于临界频带的双耳语音分离方法,其特征在于,该方法包括以下步骤:
1)参数训练阶段:
1.1)使用具有方向性的双耳白噪声信号进行训练,所述双耳白噪声信号为与头相关脉冲响应函数HRIR数据与单声道白噪声信号卷积生成的方位已知的双耳信号,双耳白噪声信号的声源方位角θ定义为方向矢量在水平面的投影与中垂面的夹角,其范围为[-90°,90°];
1.2)对已知方位信息的双耳白噪声信号进行预处理,所述预处理过程包括幅度归一化处理、分帧加窗,得到分帧后的单帧双耳声信号;
1.3)对步骤1.2)中得到的单帧双耳语音信号进行互相关函数运算,利用互相关函数计算单帧信号的耳间时间差ITD估计值,同一方位所有帧ITD估计值的均值作为该方位的ITD训练值,建立方位角θ的ITD模型,记为δ(θ);
1.4)对步骤1.2)中得到的单帧双耳语音信号进行短时傅里叶变换,将其变换到频域,计算左耳声信号和右耳声信号在每个频点幅度谱的比值,即耳间强度差IID矢量,同一方位所有帧IID估计值的均值作为该方位的IID训练值,建立方位角θ的IID模型,记为α(θ,ω),ω表示傅里叶变换的频谱;
2)基于临界频带和方位信息的双耳混合语音信号分离阶段:
2.1)测试过程中的双耳混合语音信号,包含多个声源,且每个声源对应不同的方位,双耳混合语音信号进行预处理,所述预处理的方法与步骤1.2)中的预处理方法相同,包括幅度归一化处理、分帧加窗,;
2.2)对分帧之后的双耳混合声信号进行傅里叶变换,基于临界频带的频率范围,对频域进行子带划分,得到分帧后的子带信号;
2.3)根据混合声源信号包含的声源个数和方位信息,以及步骤1.3)和步骤1.4)建立的方位声信号ITD、IID参数,在步骤2.2)得到的每帧、每个临界频带内,基于左、右耳声信号的相似度,进行声源的分类;
2.4)对步骤2.3)所得的临界频带分类结果与步骤2.1)中获得的分帧后的时频信号相乘,获得每个声源所对应的时频域信号;
2.5)对步骤2.4)所得的每个声源对应的时频域信号进行傅里叶逆变换,转换为时域信号,进行去加窗,合成为每个声源的分离语音。
2.根据权利要求1所述的一种基于临界频带的双耳语音分离方法,其特征在于所述声源方位角θ的间隔为5°。
3.根据权利要求1所述的一种基于临界频带的双耳语音分离方法,其特征在于所述步骤1.2)中幅度归一化方法为:
xL=xL/maxvalue
xR=xR/maxvalue
其中xL和xR分别表示左耳声信号和右耳声信号;maxvalue=max(|xL|,|xR|)表示左耳、右耳声信号幅度的最大值。
4.根据权利要求1所述的一种基于临界频带的双耳语音分离方法,其特征在于所述步骤1.2)中分帧加窗使用汉明窗对分帧后的语音信号进行加窗处理,加窗后的第τ帧信号可以表示为:
xL(τ,n)=wH(n)xL(τN+n)0≤n<N
xR(τ,n)=wH(n)xR(τN+n)0≤n<N
其中xL(τ,n)、xR(τ,n)分别表示第τ帧的左、右耳声信号;N为一帧采样数据长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710479139.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:无线数字语音基带传输系统及其方法
- 下一篇:一种脱硫浆液系统