[发明专利]一种改善喉振话筒语音音质的方法无效
申请号: | 201210049868.1 | 申请日: | 2012-02-29 |
公开(公告)号: | CN102610236A | 公开(公告)日: | 2012-07-25 |
发明(设计)人: | 栗学丽;冯大伟 | 申请(专利权)人: | 山东大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 吕利敏 |
地址: | 250100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改善 话筒 语音 音质 方法 | ||
技术领域
本发明涉及一种改善喉振话筒语音音质的方法,属于语音处理技术领域。
背景技术
喉振话筒采用接触方式,将话筒紧贴在人喉部,拾取人喉头部分的振动声源,因而感受不到外界空气传导的噪声,具有很强的抗外界干扰能力。喉振话筒作为通讯工具被广泛应用在直升机、军机、坦克、摩托车等强噪声环境中。目前不少手机生产商,如摩托罗拉、诺基亚、松下等公司都推出了可接喉振话筒的手机,将喉振话筒推广到民用通讯中。但由于喉振话筒采集的是通过肌肉、皮肤等的振动传播的语音,它与传统的采集通过口腔等声道传播的近讲语音相差较大,表现为喉振话筒采集的语音发闷、含糊不清,特别是清音几乎听不到,使得喉振语音的可懂度较差,这限制了喉振话筒的推广使用。
A.Shahina和B.Yegnanarayana于2007年在EURASIP Journal on Advances in Signal Processing杂志上发表的“Mapping Speech Spectra from Throat Microphone to Close-Speaking Microphone:A Neural Network Approach”文章中,提出利用语音转换技术来改善喉振语音的音质,即用神经网络训练喉振话筒和近讲话筒同时录制的语音的线性加权倒谱特征,得到谱包络的映射函数,用此映射函数修正喉振话筒录制的语音,来提高喉振语音的音质。2009年E.Erzin等在文章“Estimation of Acoustic Microphone Vocal Tract Parameters from Throat Microphone Recordings”中提出用隐马尔科夫模型(HMM)训练喉振话筒和近讲话筒同时录制的语音的线谱对特征,得到近讲语音的声道传输函数,通过比较平均对数谱失真测度函数,得出隐马尔科夫模型训练要好于矢量量化法。以上文章都是采用语音信号处理常用的倒谱、线谱对特征参量,没有充分考虑喉振语音特殊的声学特性,修正后的语音仍然有很多音听不清楚,所以喉振语音的音质还待进一步提高改善。
Flif Bozkurt等人2011年在Speech Communication杂志上发表的“Formant position based weighted spectral features for emotion recognition”文章中,将由语音信号直接得到的共振峰加权Mel倒谱参数应用到情感语音的识别中取得较好的结果。
发明内容
术语解释:
1.STRAIGHT:是Speech Transformation and Representation based on Adaptive Interpolation of weiGHTed spectrogram的缩写,含义为基于自适应加权谱内插的语音转换和重构。参考文献:H.Kawahara,I.Masuda-Katsuse and A.de Cheveigne,“Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction’’,Speech Communication,1999,Vol.27,p.187-207.
2.尺度共扼梯度算法(SCG:Scaled Conjugate Gradient algorithm)参考文献:Martin F.Moller,“A scaled conjugate gradient algorithm for fast supervised learning”,Neural Networks,1993,Vol.6,p.525-533.
本发明的技术方案如下:
一种改善喉振话筒语音音质的方法,包括如下步骤:
(1)利用近讲话筒和喉振话筒同时录制训练语音。喉振话筒录制的语音作为源语音,近讲话筒录制的语音作为目标语音;
(2)分别建立源语音和目标语音的STRAIGHT语音模型,得到基频参数、非周期指数和幅度谱,作为语音分析-修改-合成的模型;
(3)由幅度谱分别提取源语音的共振峰加权Mel倒谱参数和增益参数作为源语音的特征参量,及目标语音的线谱对参数和增益参数作为目标语音的特征参量;
(4)将步骤(3)中所述的特征参量送入动态前馈神经网络中训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210049868.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种ZnO纳米线阵列的掺杂方法
- 下一篇:一种地下水平盐岩溶腔的检测装置