[发明专利]有关传输信道对数字语言信号的影响的盲目均衡处理过程和装置无效

专利信息
申请号: 98801030.5 申请日: 1998-07-20
公开(公告)号: CN1234935A 公开(公告)日: 1999-11-10
发明(设计)人: 洛朗·莫里;让·莫内 申请(专利权)人: 法国电信局
主分类号: H04L25/03 分类号: H04L25/03;G10L3/02
代理公司: 上海专利商标事务所 代理人: 李家麟
地址: 法国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 有关 传输 信道 数字 语言 信号 影响 盲目 均衡 处理 过程 装置
【说明书】:

发明涉及有关传输信道对数字语言信号的影响的盲目均衡(blindequalization)处理过程和装置。

特别的,由于自动语言识别系统、ASR系统性能的改进,而这些系统又是通过公共交换电话网或移动电话网GSM工作的,所以,正确地对语言信号进行传输是当前的一个主要目标。

获得满意的、基本上恒定的识别速率的主要问题是因为携带语言的声音信号中存在可变性。

变量的来源多种多样,一般可分成两种类型的可变性,即固有可变性和说话者非固有的可变性。事实上,作为例子,一个单字的发音因说话者状态或者在句子中这个单字的上下文的不同而不同。如果再比较几个说话者的发音,这一差异更大。事实上,单词的发音是声波,这些声波必须被采集,以便对其进行一个识别过程。在捕获声波或语言波(speech wave)时,这些波上叠加有各种类型的干扰,其结果是增加了所采集的信号的可变性。环境噪声也构成由送话器采集的声波,并且与语言波混合在一起。

送话器传输的电子信号是与语言以及环境噪声对应的信号的总和信号。

另外,特别在采用电话网的应用场合,由手机的送话器和由将用户与语言识别系统相连的电话线形成的捕获模块起随时间缓慢变化的线性卷积滤波器的作用。

由于传统的手机不是工作于免提模式,所以环境噪声的影响通常可以忽略,主要考虑传输线的卷积影响(convolutional effects)。因此,自动识别系统输入端观测的每一信号包含有对于给定呼叫几乎是恒定的,但随呼叫的不同而不同的卷积分量。

卷积分量不利于语言识别的效率。为了确定其影响,需要将该分量投影到进行识别的表示空间,在大多数识别系统中为对数倒频谱空间(cepstral space))。

举例来说,这里必须注意,参照关于对数倒频谱表示的图1a,ASR系统的上游即参数化模块,将数字化语言信号变换成矢量流(stream of vectors),该矢量流具有在10到40毫秒的固定长度且是重叠的窗口上计算的参数。原则上,重叠约为50%。选择这些参数矢量以代表在信号窗口中可能存在的最切合的信息。如图1a所示,图1a计算是对数倒频谱(cepstrum)的一般原则,一种频率变换,即快速富利叶变换(FFT)计算信号窗的频谱。然后计算频谱能量的对数。由采用该对数的反向(reverse)FFT得到对数倒频谱(Cn(i))。通常仅考虑开头的十个对数倒频谱系数。因此,假设这些系数模拟话音路径的脉冲响应(impulse response),并因此而具有供识别处理过程用的有关信息。另外,这些系数对输入信号的能量不敏感,这是自动语言识别所关心的一个主要特征。

已经采用相同类型的另外的表示,特别是用于特定的语言识别目的。这是采用“法国电信研究开发中心”在法国开发的ASR系统,PHIL90系统,该系统采用MFCC或“基于MEL频率的对数倒频谱系数”作为参数矢量。这些系数使频谱{Sn(f)}变得平滑,用以估计频谱包络和音质知识。由滤波器组实现频谱的光滑。人的听觉系统对低频的分辨力高于对其他频率的分辨力,另外,在语言信号中,信息中的低频比高频多,从而滤波器组的临界带(critical bands)按感觉(perception)的非线性比例(scale)分布,称为MEL或BARK。参照图1b,计算MFCC的方法包括:先进行信号窗的频率变换FTT,然后滤波,MEL,计算每一信号窗,由在每一频带中的能量形成矢量。由反向变换进行反向频率变换,反向FTT,产生系数MFCC。

在与这些类型的表示对应的空间内,将代表传输信道的卷积滤波器变换成包含在对数倒频谱矢量中的几乎是恒定的附加偏置(additive bias)。为了更严密地检查这些表示,可以参考下述论文:

H.HERMANSKY,N.MORGAN,A.BAYYA,P.KOHN

“Compensation for the Effect of the Communication Channel in Auditory-like

Analysis of Speech”

(RASTA-PLP),Eurospeech,pp.1367-1370,Genova 1991;

C.MOKBEL,D.JOUVET,J.MONNE“Deconvolution of Telephone Line Effects for Speech Recognition”,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于法国电信局,未经法国电信局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/98801030.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top