[实用新型]自动分割单字语音信号的装置无效
申请号: | 200820222733.X | 申请日: | 2008-12-02 |
公开(公告)号: | CN201323053Y | 公开(公告)日: | 2009-10-07 |
发明(设计)人: | 陈淮琰;韩召宁;杨亚冬 | 申请(专利权)人: | 无敌科技(西安)有限公司 |
主分类号: | G10L13/04 | 分类号: | G10L13/04 |
代理公司: | 西安智邦专利商标代理有限公司 | 代理人: | 商宇科 |
地址: | 710075陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 分割 单字 语音 信号 装置 | ||
技术领域
本实用新型涉及一种分割单字语音信号的装置,尤其是一种自动分割单字语音信号的装置。
背景技术
在语言学习过程中,常会借助许多语言学习工具,如电子辞典等,用来增加学习效果与加快学习速度。目前一般的电子辞典都具有发音的功能,也就是说当使用者通过电子辞典查询单字或例句后,可通过发音的功能,而听取正确的单字或例句的发音。如此,将可大幅提升使用者在语言学习上,在听与说方面的能力。因此,有越来越多的厂商日益重视电子辞典的发音功能。
近来电子辞典标榜具有真人发音的功能,已成为各厂商所诉求的特色。而真人发音可通过真人来录制各个单字的声波,而达到真人发音的功能。然而,利用真人来录制所有单字的声波,将耗费掉电子辞典内存非常多的储存空间,进而提升成本的支出。
因此,发展出通过发音合成的方式,而达到接近真人发音的功能,如此可节省内存的空间,也同时提高发音的质量。发音合成的方式一般可分为两种,以英文单字为例说明如下。
第一种方式,依照英文辞典单字表中的音标来决定音节。在合成一个英文单字的语音数据前,必须先将此英文单字分割为单个或多个音节,再由原始录音的数据中获取出与音节相对应的声波,并加以结合即可。
第二种方式,录制所有各种声母、韵母及音调组合的各个音节声波,并储存在内存中。在合成一个英文单字的语音数据前,必须先将此英文单字分割为单个或多个音节,再由录制的数据中获取出与分割后的各个音节相对应的声波,并加以结合即可。
由上述说明可知,不论是哪种发音合成的方式,都必须先将英文单字分割为单个或多个音节,才能进行后续的处理。而传统的作法上,是通过人耳听音而利用手工切分。如此,需投入大量的人力与工时才能完成。另外,手工切分音节的工作枯燥、数量庞大,且采用人耳听音而作音节的切分,极易产生误差。
因此,如何解决传统上人工切分单字语音所衍生的问题,为亟待解决的议题。
实用新型内容
本实用新型为解决背景技术中存在的上述技术问题,而提出一种自动分割单字语音信号的装置。
本实用新型的技术解决方案是:本实用新型为一种自动分割单字语音信号的装置,其特殊之处在于:该装置包括:接收单元,用来接收单字语音信号,并将单字语音信号划分为多个音框;分析单元,分析音框,产生对应于每一个音框的语音特征;分割单元,根据语音特征,分割单字语音信号为音节,接收单元接入分析单元,分析单元接入分割单元。
上述语音特征包含音框的平均振幅值。
上述语音特征包含音框的平均过零率。
上述语音特征包含音框的倒频谱参数。
上述分析单元根据语音特征产生门坎值,通过分割单元对比语音特征与门坎值。
本实用新型提供的自动分割单字语音信号的装置,通过语音特征来自动分割单字语音信号为音节,完全替代了传统的人工切分单字语音的方式,整个过程不需要人工介入,省时省力,效率高,且大大降低了人为带来的失误率。
附图说明
图1为自动分割单字语音信号的装置示意图;
图2为多音节单字语音信号的示意图;
图3为多音节单字语音信号的分割示意图。
其中,10-接收单元,20-分析单元,30-分割单元;
具体实施方式
参见图1,自动分割单字语音信号的装置包含:接收单元10、分析单元20及分割单元30。
接收单元10接收单字语音信号,并将单字语音信号划分为多个音框。分析单元20分析多个音框,并产生对应于每一个音框的语音特征。分割单元30根据分析单元20所分析出的语音特征,进而分割单字语音信号为音节。
每个单字的语音信号不会完全相同,但具有一些共同的特性,例如:多音节单字的发音是由各个音节所组成;音节组成在语音信号上有特定的规律可循;利用语音特征可进行音节切分等。因此,本实用新型提出先将单字语音信号划分为多个音框,然后以每一个音框为单位,利用分析单元20分析出每一个音框的语音特征。
其中,上述所提及的语音特征包含:平均振幅值、平均过零率、倒频谱参数等。下面将针对每个语音特征做简单说明。
语音信号的振幅所指的即为语音信号的大小,如同人类说话一般会有高低起伏,所以语音信号的波形所呈现出来的也会有高低或强弱之分。而振幅便是代表语音信号的大小,而平均振幅值,便是将所有音框的振幅值加总后再做平均,如此可看出单位时间内,某段语音信号与整段语音信号相比的信号强弱分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无敌科技(西安)有限公司,未经无敌科技(西安)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200820222733.X/2.html,转载请声明来源钻瓜专利网。