[发明专利]一种基于时间延迟直方图的语音分离方法有效
申请号: | 201710001937.4 | 申请日: | 2017-01-03 |
公开(公告)号: | CN108269583B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 应冬文;黄兆琼;潘接林;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G10L25/03 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;杨青 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时间 延迟 直方图 语音 分离 方法 | ||
本发明涉及一种基于时间延迟直方图的语音分离方法,包括:将声源信号转换成数字声音信号;提取数字声音信号的频谱;利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值;利用时间延迟的估计值来计算每个语音源的波达方向估计值;利用每个语音源的波达方向估计值对混合语音的频谱进行分类,得到每个语音源的掩摸,进而根据该掩摸以及数字声音信号的频谱计算频域上的分离信号;在每个掩摸上对频域的分离信号进行傅里叶逆变换,得到分离的语音。
技术领域
本发明涉及语音分离方法,特别涉及一种基于时间延迟直方图的语音分离方法。
背景技术
语音分离包括单通道语音分离和多通道语音分离,语音分离技术可减小噪声和混响的影响,或将多个语音源分离开,为后续的信息处理提供较干净的语音。
由于时间延迟直方图具有高空间分辨力和抗混叠的优点,时间延迟直方图被广泛应用于线性阵列进行语音分离。然而,传统的方法很少将时间延迟直方图用于平面阵列来进行语音分离。同时,传统的语音分离方法往往需要预知语音源的个数才能进行分离,另外,传统的盲源分离方法都有排序模糊性的问题。
发明内容
本发明的目的在于克服现有技术中的语音分离方法中需要预知声源个数和排序模糊性的缺陷,从而利用时间延迟直方图提出一种鲁棒而高效的语音分离方法。
为了实现上述目的,本发明提供了一种基于时间延迟直方图的语音分离方法,包括:
步骤1)、将声源信号转换成数字声音信号;
步骤2)、提取步骤1)所得到的数字声音信号的频谱;
步骤3)、利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值;
步骤4)、利用步骤3)得到的时间延迟的估计值来计算每个语音源的波达方向估计值;
步骤5)、利用步骤4)得到的每个语音源的波达方向估计值对混合语音的频谱进行分类,得到每个语音源的掩摸,进而根据该掩摸以及步骤2)得到的数字声音信号的频谱计算频域上的分离信号;
步骤6)、在每个掩摸上对步骤5)得到的频域的分离信号进行傅里叶逆变换,得到分离的语音。
上述技术方案中,所述步骤2)还包括:在提取步骤1)所得到的数字声音信号的频谱之前,对所述数字声音信号进行预处理,所述预处理包括:
对每一帧的数字声音信号先补零到N点,N=2i,i为整数,且i≥8;然后,对每一帧的数字声音信号进行加窗或预加重处理,加窗函数采用汉明窗或哈宁窗。
上述技术方案中,所述步骤3)包括:
步骤3-1)、计算声音源中任意两个麦克风所组成的麦克风对的时间延迟;
步骤3-2)、由麦克风对的距离约束以及步骤3-1)得到的麦克风对的时间延迟,得到时间延迟集合;
步骤3-3)、基于步骤3-2)所得到的时间延迟集合构建时间延迟直方图,抽取显著峰值作为时间延迟的估计值。
上述技术方案中,所述步骤4)包括:
步骤4-1)、利用步骤3)得到的来自不同麦克风对的时间延迟估计值两两配对估计出波达方向候选值;
步骤4-2)、由步骤4-1)所得到的波达方向候选值估计方向角候选值,利用所有的方向角候选值组成的集合中的所有元素构建方向角直方图;
步骤4-3)、抽取方向角直方图中的显著峰值作为每个语音源的方向角估计值,通过数峰值的数目得到语音源数目的估计值;
步骤4-4)、由步骤4-3)得到的语音源的方向角估计值计算仰角初始值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710001937.4/2.html,转载请声明来源钻瓜专利网。