[发明专利]语音处理装置、方法和程序有效

专利信息
申请号: 201210065692.9 申请日: 2012-03-09
公开(公告)号: CN102682782A 公开(公告)日: 2012-09-19
发明(设计)人: 向井昭广;井上晃 申请(专利权)人: 索尼公司
主分类号: G10L21/04 分类号: G10L21/04
代理公司: 北京东方亿思知识产权代理有限责任公司 11258 代理人: 李晓冬
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 处理 装置 方法 程序
【说明书】:

技术领域

本公开涉及语音处理装置、语音处理方法和程序,特别涉及其中在对语音信号的音高(voice pitch)进行变换的情况下可以抑制输出语音的伸缩变化的语音处理装置、语音处理方法和程序。

背景技术

对语音或乐曲的语音信号中的音高进行变换的技术已被用于卡拉OK中的音调(key)控制、用于乐器训练的基准音乐的音调改变,或者相关技术中的类似情况。当一个充当基准的语音信号被准备时,期望的音调可被获得,并且这还引起存储器的节省,因此这种音高变换处理是有用的技术。

例如,作为对语音信号的音高进行变换的方法,其中通过采样速率变换器来改变语音波形的周期的方法可被例示。在该方法中,语音信号可被变换为具有期望音高的语音信号,但是变换前后的语音信号的样本数目发生变化。

因此,一般而言,如在音高变换处理装置中期望的,为了获得与输入数据的样本数目相同的输出数据的样本数目,通过诸如PICOLA(指针间隔受控重叠和添加)之类的时间伸缩处理来执行对输出数据的样本数目的调节(例如,参考“Morita,Itakura:voice expansion and contraction on a time axis using PICOLA(Pointer Interval Controlled Overlap and Add),and an evaluation thereof,日本声学协会论文集,1986年10月,第149-150页”)。

发明内容

然而,在这种技术中,在语音信号经受音高变换的情况下,发生输出语音的伸缩变化,因而难以获得高质量的语音。

例如,在音高将被变换的语音信号经受诸如PICOLA之类的时间伸缩处理的情况下,语音信号的时间长度可被调节为大体期望的长度,但是因为该处理是以音高长度或者帧长度作为单位来执行的,因此由于处理单位而被施加限制。因此,语音信号的时间长度可能不被精确地变换为所期望的时间长度,并且在通过音高变换获得的语音中可能发生伸缩变化。

此外,在由采样速率变换器等执行音高变换的情况下,在对语音信号的时间伸缩处理中,利用音高变换中的语音的时间伸缩比的倒数来执行对时间长度的调节,但是时间伸缩比的倒数不一定变为有理数。这样,在时间伸缩比的倒数不变为有理数的情况下,在用于时间伸缩处理的时间伸缩比中可能发生误差,使得语音信号的时间长度可能不被准确地变换为期望的时间长度。

希望在对语音信号的音高进行变换的情况下抑制输出语音的伸缩变化。

根据本公开的一个实施例,提供了一种语音处理装置,包括:对输入语音信号执行音高变换处理并且对所述输入语音信号的音高进行变换的音高变换单元;检测所预期的输出语音信号的样本数目与实际输出的输出语音信号的样本数目之间的误差的误差检测单元;以及以通过所述误差的数量校正所述输出语音信号的时间长度的方式来控制对所述时间长度的调节的时间长度控制单元。

所述误差检测单元可以基于所述输入语音信号的样本数目、所输出的所述输出语音信号的样本数目以及所述输入语音信号的未经处理的样本的数目来检测所述误差。

所述语音处理装置还可以包括时间伸缩处理单元,该时间伸缩处理单元对所述输入语音信号执行时间伸缩处理,并且调节所述输入语音信号的时间长度。

所述语音处理装置还可以包括精简和插入单元,该精简和插入单元根据所述时间长度控制单元的控制对被执行了所述音高变换处理的输入语音信号执行样本精简或者样本插入,并且调节所述时间长度。

所述语音处理装置还可以包括变换单元,该变换单元根据所述时间长度控制单元的控制对被执行了所述音高变换处理的输入语音信号执行采样速率变换,并且调节所述时间长度。

所述语音处理装置还可以包括重叠处理单元,该重叠处理单元根据所述时间长度控制单元的控制对被执行了所述音高变换处理的输入语音信号执行重叠处理,并且调节所述时间长度,所述重叠处理利用了具有由所述误差决定的长度的窗口。

所述语音处理装置还可以包括时间伸缩处理单元,该时间伸缩处理单元根据所述时间长度控制单元的控制以由所述误差决定的时间伸缩比对所述输入语音信号执行时间伸缩处理,并且调节所述时间长度。

根据本公开的另一实施例,提供了一种语音处理方法或程序,包括:对输入语音信号执行音高变换处理并且对所述输入语音信号的音高进行变换;检测所预期的输出语音信号的样本数目与实际输出的输出语音信号的样本数目之间的误差;以及以通过所述误差的数量校正所述输出语音信号的时间长度的方式来控制对所述时间长度的调节。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210065692.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top