[发明专利]一种基于时延补偿和双耳一致性的双耳声音源定位方法有效
申请号: | 201410142777.1 | 申请日: | 2014-04-10 |
公开(公告)号: | CN103901400A | 公开(公告)日: | 2014-07-02 |
发明(设计)人: | 刘宏;张结;丁润伟 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G01S5/18 | 分类号: | G01S5/18 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 补偿 一致性 声音 定位 方法 | ||
技术领域
本发明属于信息技术领域,涉及一种应用在语音感知和语音增强中的双耳声源定位方法,具体涉及一种基于时延补偿和双耳一致性的双耳声音源定位方法。
背景技术
双耳声源定位是声源定位技术发展的一个重要分支。双耳定位充分利用了双麦克风的易搭载性和耳廓的滤波特性,在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。它是声源定位技术的一个重要分支,不仅利用了双麦克风简易的阵列结构,又结合人耳听觉特性成功克服了双麦克风定位的前后向歧义性。
双耳声源定位技术在机器人听觉、人机交互领域有着重要的应用。一般来讲机器人听觉包括声源信号的定位与分离、自动语音识别、说话人识别等。机器人听觉声源定位是指机器人利用搭载在机器人上或者外部设备上的麦克风阵列定位出声源的相对位置。而机器人的双耳定位则是期望机器人能够像人或者其他哺乳动物一样仅仅利用两个声音传感器完成声源信号的定位。
声源定位技术在语音识别领域也得到广泛应用。在视频会议中,通过声源定位技术控制摄像头,使其自动地转向感兴趣的说话人方向。对于高速行驶的车辆,为避免驾驶员用手去接听电话,车载免提电话应运而生。然而,当车中坐有多个说话人时,语音识别系统就无法辨别实际命令的来源,此时就需要一种定位系统来提取驾驶员方位的语音,进而对其命令作出响应。助听器的出现为有听力障碍的残疾人提供了帮助。基于阵列的语音增强技术利用声源的位置信息进行空间滤波,可以进一步抑制除说话人以外的其它方向的噪声,使得助听器话音更加清晰。近年来,基于声源定位技术的电子笔系统成为研究热点,用于接收的麦克风阵列以不同的方式集成在显示器边缘,此时设计出的电子笔就可以在屏幕上进行书写或者相应地控制操作。
在语音分离中,声源定位技术有助于混叠语音的分离。语音分离源于“鸡尾酒会”问题,就是人们能够在众多谈话声和噪声中集中听力于某个人的声音的能力,长期以来它被认为是一个具有挑战性的问题。“鸡尾酒会”问题也常被称做“鸡尾酒会效应”。在语音识别技术中,这方面的研究具有重要的实际意义。如果把声源定位技术应用到语音分离中,将会大大增强感兴趣方向的语音识别,有助于混叠语音的分离。
基本上,双耳声音源定位是一个模式分类的问题。类似于自动语音识别,其主要的两大步骤分别是:语音信号处理和模式分类。首先通过双耳传声器接收原始的声音源信号,并进行模数转换,把模拟声音信号转换成数字信号。在信号处理阶段,首先对原始信号进行预处理:降噪和滤波,信号预加重,分帧并加窗,对于每帧信号提取特征时域的特征或频域特征组成特征向量。特征向量可以有效表征声源的位置信息。模式分类阶段,通过与定位系统中的先验知识(即模板)进行比对从而得出定位结果。现有的声源定位系统包括以下步骤:
1、语音录入,预滤波、模数变换。先把录入的模拟声音信号进行预滤波,高通滤波抑制50Hz电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,防止混叠干扰,对模拟声音信号进行采样和量化得到数字信号。
2、预加重。信号通过高频加重滤波器冲激响应H(z)=1-0.95z-1,以补偿嘴唇辐射带来的高频衰减。
3、分帧、加窗。由于语音信号的慢时变性,整体非平稳,局部平稳,一般认为语音信号在10-30ms内是平稳的,可以把声音信号按照20ms的长度进行分帧。分帧函数为:
xk(n)=w(n)s(Nk+n)n=0,1...N-1;k=0,1...L-1 (1)其中N为帧长,L为帧数。w(n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:
4、特征提取。每帧信号可以提取特征以表征本帧信号所包含的信息,现常用于声源定位系统的双耳特征包括双耳时间差(Interaural Time Difference,ITD)、双耳能量差(Interaural Intensity Difference,IID),双耳相位差(Interaural Phase Difference,IPD)等,前面两种特征是应用最多的。
5、在线定位。从双耳传声器接收的音频信号中提取特征与模板中存储的特征进行全局匹配,差别最小的情况被视为声源最有可能出现的位置。不过在几何定位中则是直接利用双耳特征与环境位置之间的关系计算声源的坐标,这种模式理论上可以得到准确解,但是易受环境噪声及混响等因素的干扰。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410142777.1/2.html,转载请声明来源钻瓜专利网。