[发明专利]一种深度双向门递归神经网络的骨导语音增强方法有效
申请号: | 201711150864.1 | 申请日: | 2017-11-18 |
公开(公告)号: | CN107886967B | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 张雄伟;郑昌艳;曹铁勇;孙蒙;李莉;贾冲;邹霞;邢益搏 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L21/02 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 唐代盛 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 双向 递归 神经网络 导语 增强 方法 | ||
本发明提出了一种深度双向门递归神经网络的骨导语音增强方法,利用双向门递归神经网络模型训练骨导到气导语音特征,并利用训练好的双向门递归神经网络模型增强骨导语音。本发明利用深度学习强大的非线性映射性能实现骨导语音特征到气导语音特征的转换,使用的门递归神经网络是长短时记忆递归神经网络的一种变形,可有效对语音的长时依赖进行建模,并且参数更少训练更快,同时本发明从两个方向上对语音特征的上下文进行建模,更能有效恢复骨导语音中缺失信息,并能够有效提升骨导语音的清晰度与可懂度,改善骨导语音质量,达到良好的增强效果。
技术领域
本发明属于语音信号处理技术领域,特别是一种深度双向门递归神经网络的骨导语音增强方法。
背景技术
骨导(Bone Conduction,BC)麦克风是利用人体骨头或组织振动形成电信号的语音采集设备,此类麦克风可有效避免背景噪声干扰,具有很强抗噪性能,在军事和民事上均已得到应用。例如,飞行员利用喉头骨麦克风与地面人员通信,避免机舱内强噪声干扰;伐木工人利用头骨麦克风通信极大减少了大型作业工具的噪声。但是,由于人体信号传导的低通性以及振动信号的固有特点,骨导语音呈现高频部分缺失、中频部分厚重、气流音、鼻腔音缺失等现象,语音听起来沉闷、不清晰,严重影响了人们的听觉感受。骨导语音增强,就是利用技术手段提高骨导语音的可懂度与清晰度,从而提高语音质量。
目前,骨导语音的增强方法主要分为均衡法、频带扩展法、分析合成法三大类。均衡法(Shimamura T,Tamiya T.A reconstruction filter for bone-conducted speech[C],2005.Kondo K,Fujita T,Nakagawa K.On Equalization of Bone Conducted Speechfor Improved Speech Quality[C],2006.)通过寻找BC与AC(气导,Air Conduction)语音特征的比例系数即均衡系数实现BC语音增强。该方法在训练过程中使用成对的AC与BC特征计算均衡系数,实际使用时基于计算好的系数来均衡BC语音,特征通常为频谱幅度大小。该方法可增加BC语音的高频成分,语音清晰度有所提升,但是目前的均衡法均是假设特征线性相关,虽然算法复杂度低实现简便,但是并不能符合BC与AC语音特征实际的非线性相关关系,增强后存在语音不连续、失真感明显等问题。频带扩展法(Bouserhal R E,Falk T H,Voix J.In-ear microphone speech quality enhancement via adaptive filteringand artificial bandwidth extension.[J].Journal of the Acoustical Society ofAmerica.2017.)认为BC和AC语音信号在低频段(0~2kHz)具有很强相关性,可利用人工频谱扩展技术(Valin,J.M.and R.Lefebvre.Bandwidth extension of narrowband speechfor low bit-rate wideband coding.in Speech Coding[J],2000.Bernd,I.andS.Gerhard,Bandwidth Extension of Telephony Speech[J],2008.)直接将BC语音由低频段扩展到高频段(2~4kHz)从而达到增强的目的。这种扩频方法运算快易于硬件实现,但是该方法需要同时获得AC语音,并且BC与AC的低频段并非完全相同,在一定程度上影响了增强效果。分析合成法(PhungNghiaTrung,M.Unoki and M.Akagi,A Study on Restorationof Bone-Conducted Speech in Noisy Environments with LP-based Model andGaussian Mixture Model[J],2012.Turan,M.A.T.and E.Erzin,Source and FilterEstimation for Throat-Microphone Speech Enhancement[J],2016.Mohammadi,S.H.andA.Kain,An overview of voice conversion systems[J],2017.)将BC语音增强问题看成BC到AC特征的非线性转化问题。该方法首先使用语音分析合成模型,例如预测编码(LPC,Linear predictive coding)模型和STRAIGHT(Speech Transformation andRepresentation using Adaptive Interpolation of Weighted spectrum)模型,将成对的AC与BC语音信号分解,在训练阶段利用GMM或者简单神经网络映射LPC、LSF或者STRAIGHT谱等特征,得到BC到AC相关参数的映射模型,测试阶段通过转化BC相关参数实现增强。但是BC语音除了高频缺失外,AC语音的气流音、口腔音、鼻音等对应于BC语音无声段,目前所采用的GMM或者简单神经网络映射模型直接从BC语音无声段中恢复出正确的语音信息显得能力不足。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711150864.1/2.html,转载请声明来源钻瓜专利网。