[发明专利]谱减与动态时间规整算法联合处理的抗噪声声纹识别装置有效
申请号: | 201310370030.7 | 申请日: | 2013-08-22 |
公开(公告)号: | CN103400578A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 童峰;周跃海;洪青阳;李芳兰 | 申请(专利权)人: | 厦门大学 |
主分类号: | G10L15/12 | 分类号: | G10L15/12;G10L17/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森;曾权 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 时间 规整 算法 联合 处理 噪声 声纹 识别 装置 | ||
技术领域
本发明涉及一种声纹识别装置,尤其是涉及一种谱减与动态时间规整算法联合处理的抗噪声声纹识别装置。
背景技术
声纹识别(Voice Print Recognition,简称“VPR”)也称说话人识别,就是根据说话人的声音特征,识别出某段语音是谁说的。声纹是人的个性特征,很难找到两个声纹完全一样的人,因此,声纹识别广泛应用于安防、公安、军队、银行、证券、个人身份认定等领域。在孤立词识别中,最有效、最简单的方法是采用动态时间规整算法(Dynamic Time Warping,简称DTW算法),该方法最显著的优点是复杂度低、识别率比较高,因而在语音识别、说话人识别等领域被广泛研究。
参考文献1(Lippmann R P.Speech recognition by machines and humans[J].Speech Communication.1997,22(1):1-15)运用DTW算法在DSP上实现了一个功耗低、精度高,快速识别的声纹识别系统;
参考文献2(Levy C,Linares G,Nocera P,et al.Recucing somputational and memory cost for cellular phone embedded speech recognition system[C].2004IEEE International Conference on Acoustic,Speech and Signal Processing.Montreal,Quebec,Canada.2004:23(5):149-150)则运用DTW算法和HMM模型在蜂窝手机上实现了声纹识别系统。
但是,在声纹识别的实际应用中环境、家电、交通等各类背景噪声所引起的畸变严重影响着声纹识别的性能,轻微的背景噪声往往造成识别率的明显下降,因此有必要对语音进行消噪来提高信噪比和声纹识别的性能。
谱减方法基于一个基本的理论:对于加性噪声,可以从带噪语音的离散傅里叶变换(Discrete Fourier Transform,DFT)的频谱中减去噪声频谱来获得语音频谱的估计。噪声频谱可以通过无声段来估计和更新。对估计的语音频谱进行离散傅里叶逆变换(Inverse Discrete Fourier Transform,IDFT)就可以得到增强后语音时域波形。谱减法只需要进行DFT和IDFT,计算复杂度低、实现简单,在语音信号的抗噪声处理中得到了广泛的研究和应用。
但是,由于语音的能量往往集中在某些频段内,尤其是共振峰对应频带处的幅度一般远大于噪声,而语音中的噪声往往是随机不平稳的,用加了不平稳噪声的语音信号的频谱减去一个固定的噪声频谱往往无法达到较好的语音增强效果;同时,由于噪声估计误差和频谱扰动的存在,带噪信号在某些频带上的幅值会小于噪声的估计幅值,从而使相减之后的估计语音频谱出现负值,将这些小于零的值置零从而使全频带的频谱幅值都为非负数是最简单的处理办法。然而,这种处理在频带上制造出许多的孤立峰。这些孤立峰在时域和频域都表现出极强的随机性,虽幅值不大但影响严重。在时域,这些孤立峰听起来像是单音调的乐音,且其音调(频率)在帧与帧之间随机变化,产生一种新型的噪声,经常被称为音乐噪声(musical noise)。
由于传统谱减方法的局限性,众多研究者对谱减方法进行改进,如:
参考文献3(松下电器产业株式会社.一种基于自适应非线性谱减的抗噪方法和装置:中国,1841500[P].2006-10-04)公开了一种自适应非线性谱减方法及装置,通过语音平均Mel频带信噪比进行门限检测判断出语音中的噪声帧,并更新当前噪声估计,然后进行第一次谱减计算提高含噪语音的信噪比,最后进行第二次谱减计算进一步消除含噪语音中的噪声。
参考文献4(丁伟,吴小培.基于改进谱减方法的语音增强研究[J].计算机技术与发展,2008,18(9):98-100)采用对幅度高的信号帧施加一个系数固定的加权谱减来改善对非平稳噪声的降噪效果。
参考文献5(李晔,崔慧娟,唐昆.基于谱减的语音增强算法的改进[J].清华大学学报(自然科学版).2006,46(10):1685-1686)根据对多帧非平稳背景噪声的递推估计结果进行谱减。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310370030.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种户外伞的伞主杆结构
- 下一篇:一种拉链